Pratiques d'indexation dans les bases textuelles structurées : application aux textes techniques sous format HTML

Authors

  • Tarek Ouerfelli Université Stendhal
  • Geneviève Lallich-Boidin Université Stendhal

DOI:

https://doi.org/10.29173/cais23

Abstract

Parvenir à un système de recherche d’information technique capable de donner en réponse une unité de texte pertinente nécessite en amont de l’indexation une phase de segmentation du texte en Unités Documentaires fines et cohérentes. Dans cet article, nous avançons quelques éléments sur la stratégie de segmentation qui pourra être adoptée dans un processus d'indexation d'un texte technique volumineux. La stratégie de segmentation adoptée sera présentée à partir des résultats d'une expérimentation menée sur plusieurs textes techniques sous format HTML. Cette stratégie se veut dynamique avec la prise en compte des différents médias qui existent dans les textes techniques (texte, figure, tableau, ....). Ainsi, l'Unité Documentaire à indexer, qui se trouve à l'intérieur de l'unité logique peut être une unité textuelle composée d'un ou de plusieurs paragraphes ou bien une unité composite de paragraphe, tableau et figure.

Downloads

Published

2013-10-15

How to Cite

Ouerfelli, T., & Lallich-Boidin, G. (2013). Pratiques d’indexation dans les bases textuelles structurées : application aux textes techniques sous format HTML. Proceedings of the Annual Conference of CAIS / Actes Du congrès Annuel De l’ACSI. https://doi.org/10.29173/cais23

Issue

Section

Articles