RDFa ou Microdata ?

Quel format choisir ?

Le web sémantique est riche d'un certain nombre de vocabulaires, souvent sur despérimètres différents, parfois sur un même périmètre. Et il devient alors difficile de faire son choix.

Que vocabulaire utiliser, en effet ? Doit-on prendre le risque de soutenir un vocabulaire jeune mais efficace, ou bien un vocabulaire plus riche (trop) mais déjà bien installé.

Le web sémantique

Comment annoter sémantiquement un document ?

Le web sémantique a de plus en plus le vent en poupe. Même si les moteurs de recherche ne savent pas encore intégrer le web sémantique dans les analyses et la pertinence des résultats.

Malgré tout, l’engouement pour cette technologie est telle que des référentiels existent déjà (DBPedia, GeoWeb, FreeBase, etc.) et que de plus en plus de contributeurs annotent leurs documents avec du web sémantique afin d’être prêts pour le jour J.

Cependant, annoter un document n’est pas une chose aisée. En effet, nous pourrions annoter chaque mot du texte ou chaque objet afin de donner la signification sémantique. Mais dans ce cas, le volume d’informations serait multiplié et la lisibilité technique (code source) serait dégradée.

Trop peu d’annotation serait inutile. Autant ne rien mettre du tout.

Quel est donc le bon équilibre, la bonne quantité d’annotation pour une sémantique optimale ?

Spécifications pour un web sémantique

Intégrer du web sémantique pour enrichir l'information

Nous avons abordé jusqu’à présent le sujet du XHTML. Ce langage, dérivé du XML ne s’occupe que de la structure.

En effet, même si la balise p définit un paragraphe, il ne s’agit en définitive que de la structure et pas de contenu. Si deux paragraphes venaient à être intervertis, aucune machine ne pourrait s'en rendre compte. Seul un être humain, pour lequel le texte a un sens, pourrait trouver que le texte est curieusement formé.

Si dans un document, le nom d’un individu nommé "François Martin" apparaît, il paraît très difficile de déterminer s’il s’agit d’un individu ayant pour prénom "François" et pour nom de famille "Martin", ou l’inverse. Tout comme il serait difficile de déterminer si le prénom "Camille" correspond à un homme ou à une femme sans information supplémentaire. La différence est difficile pour un humain, mais encore plus pour une machine. Car, sans information complémentaire, "François Martin" n'est qu'une chaîne de caractère, au même titre que "il fait beau ce soir"...

Nous pourrions bien entendu ajouter des informations sur le sens de chaque mot, en étendant le XML.

Et c’est là que le web sémantique intervient.