Les métadonnées
Le terme de métadonnées est utilisé pour définir l'ensemble des informations techniques et descriptives ajoutées aux documents pour mieux les qualifier. Pour que ces données soient utilisables par d'autres, elles doivent s'inscrire dans des modèles largement reconnus par les acteurs du Web. Plusieurs organismes de standardisation ont donc proposé et publié des schémas de métadonnées susceptibles d'être utilisés par le plus grand nombre.
Le schéma de métadonnées le plus utilisé est proposé par l'organisation Dublin Core Metadata Initiative (DCMI) ; on l'appelle le plus souvent le Dublin Core. Il standardise l'utilisation d'une quinzaine de champs descriptifs
Qui produit des métadonnées ?
C'est bien sûr le créateur de chaque document mis en ligne sur le Web qui est le mieux placé pour ajouter les informations constituant les métadonnées. Le producteur ou l'éditeur du site est également concerné, en particulier pour veiller à la cohérence des métadonnées accompagnant les différents documents publiés sur le site. Les métadonnées sont mises en ligne sous une forme standardisée, au sein même des documents du site ou dans des fichiers spéciaux eux-mêmes accessibles sur le site, à côté des documents qu'ils décrivent.
Comment utilise-t-on les métadonnées ?
La conception de métadonnées pour accompagner les documents du Web n'a de sens que si des outils de repérage savent se servir de ces informations. On attend donc en particulier des moteurs de recherche qu'ils prennent en compte les métadonnées, pour aider les internautes à mieux trouver les documents correspondant à leurs demandes.
Actuellement, les principaux moteurs fondent leurs méthodes de recherche sur les éléments qu'ils peuvent extraire des pages Web : la liste des mots qui les compose, le titre de la page et parfois son URL. Il s'agit d'une approche très réductrice, assez éloignée du contenu et du sens réel du document. Mais comment pourrait-on imaginer qu'un moteur arrive à reconstituer du sens à partir de la liste des mots d'une page ? Certains ont tenté de le faire ou affirment qu'ils sont des moteurs « sémantiques », mais les résultats ne sont pas convaincants. Les méthodes mises en œuvre par les moteurs pour améliorer la pertinence des recherches se fondent en général sur d'autres critères : statistiques, occurrences des mots, notoriété des documents, fréquences des liens...
Les métadonnées, par leur définition même, apportent des informations de nature sémantique sur les documents qu'elles décrivent. En les prenant en compte, les moteurs peuvent améliorer leurs méthodes de recherche et donner des réponses plus pertinentes, dans certains cas. Par exemple, ils peuvent juger qu'un document répond particulièrement bien à une requête si le mot recherché se trouve dans le résumé ou dans la liste des mots-clés figurant dans les métadonnées. Dans une recherche portant sur un niveau scolaire ou sur une discipline particulière, la présence de cette information dans les métadonnées d'un document assure que le document correspond bien à la requête, alors que la simple présence du mot correspondant dans le corps du texte fournit beaucoup moins de garanties (en particulier pour des mots comme « Histoire » ou « Seconde »). Enfin, le moteur peut se servir du résumé proposé dans les métadonnées pour afficher les résultats d'une recherche plutôt que de tenter de faire un « résumé automatique » ou de reconstituer un extrait « pertinent » comme il le fait habituellement.
Source: GOOGLE