SIOC: mise en œuvre

Décrire un forum avec SIOC

Les spécifications SIOC définissent la description RDF des communautés connectées (blogs, forums, wikis, etc.)

Elle permettent de décrire les interconnexions entre toutes les activités sociales publiques associées à des personnes.

Exemple d'activités sociales publiques
Exemple d'activités sociales publiques (source : W3C)

Voyons comment mettre en place concrètement ces spécifications.

RDF/XML et XHTML

Comment inclure du XHTML dans du RDF/XML ?

Par défaut, le RDF/XML inclut des éléments de type texte mais ne prend pas en charge le contenu de type XML autre que celui du RDF/XML, c'est-à-dire pour décrire un graphe.

Ainsi, un fragment XHTML ne décrit pas un graphe, mais un contenu à reprendre tel quel et à interpréter non plus selon la dimension RDF (sémantique), mais selon la dimension XML (structure).

Le web sémantique

Comment annoter sémantiquement un document ?

Le web sémantique a de plus en plus le vent en poupe. Même si les moteurs de recherche ne savent pas encore intégrer le web sémantique dans les analyses et la pertinence des résultats.

Malgré tout, l’engouement pour cette technologie est telle que des référentiels existent déjà (DBPedia, GeoWeb, FreeBase, etc.) et que de plus en plus de contributeurs annotent leurs documents avec du web sémantique afin d’être prêts pour le jour J.

Cependant, annoter un document n’est pas une chose aisée. En effet, nous pourrions annoter chaque mot du texte ou chaque objet afin de donner la signification sémantique. Mais dans ce cas, le volume d’informations serait multiplié et la lisibilité technique (code source) serait dégradée.

Trop peu d’annotation serait inutile. Autant ne rien mettre du tout.

Quel est donc le bon équilibre, la bonne quantité d’annotation pour une sémantique optimale ?

Spécifications pour un web sémantique

Intégrer du web sémantique pour enrichir l'information

Nous avons abordé jusqu’à présent le sujet du XHTML. Ce langage, dérivé du XML ne s’occupe que de la structure.

En effet, même si la balise p définit un paragraphe, il ne s’agit en définitive que de la structure et pas de contenu. Si deux paragraphes venaient à être intervertis, aucune machine ne pourrait s'en rendre compte. Seul un être humain, pour lequel le texte a un sens, pourrait trouver que le texte est curieusement formé.

Si dans un document, le nom d’un individu nommé "François Martin" apparaît, il paraît très difficile de déterminer s’il s’agit d’un individu ayant pour prénom "François" et pour nom de famille "Martin", ou l’inverse. Tout comme il serait difficile de déterminer si le prénom "Camille" correspond à un homme ou à une femme sans information supplémentaire. La différence est difficile pour un humain, mais encore plus pour une machine. Car, sans information complémentaire, "François Martin" n'est qu'une chaîne de caractère, au même titre que "il fait beau ce soir"...

Nous pourrions bien entendu ajouter des informations sur le sens de chaque mot, en étendant le XML.

Et c’est là que le web sémantique intervient.