SLT0703T - Méthodes, ressources et applications du TAL 1

Semestre Semestre 1
Volume horaire total 25

Responsables

Lydia-Mai Ho-Dac

Enseignante: Lydia-Mai Ho-Dac

Objectifs

L’objectif de ce module est de présenter le fonctionnement d’applications du TAL (Traitement Automatique du Langage) tout en questionnant le rôle et l’apport des connaissances linguistiques dans ce champ d’activités. Deux applications visant l'accès à l'information dans des textes en langue naturelle seront principalement étudiées : la recherche d'information et l'extraction d’information. La question des ressources linguistiques nécessaires pour améliorer et évaluer les traitements automatiques du langage seront également présentées, ce qui passera par une formation au langage XML, langage largement utilisé pour encoder, structurer et rendre interopérables des ressources linguistiques pour le TAL

Contenu

Panorama des méthodes mises en œuvre dans les applications visant l’accès au contenu textuel :

  • recherche d'informations (RI)
  • extraction d'informations (EI)

Manipulation d'outils et de techniques associées à ces applications :

  • indexation d'une base de données textuelles
  • initiation à la plateforme Gate et au module d'extraction d'information ANNIE

Introduction aux ressources linguistiques pour le TAL :

  • introduction au langage XML
  • observation de données issues de campagnes d'évaluation
  • observation de données d’apprentissage, d’évaluation et des exports de la plateforme Gate.

Ce cours est composé de cours magistraux, de travaux pratiques (manipulations d‘outils) et d’une initiation à la recherche à travers la lecture d’articles scientifiques récents.

Les étudiants sont amenés à régulièrement rendre compte de leur réflexion par la rédaction de compte-rendus collaboratifs, notes de lecture et relectures des travaux des autres étudiants, exposés et descriptifs de ressources.

Bibliographie

  • Bassil, Y. (2012). A survey on information retrieval, text categorization, and web crawling. arXiv preprint arXiv:1212.2065.
  • Claveau, V. & Nie, J. (Ed.) (2016). Recherche d'information et traitement automatique des langues. Revue TAL, n.s., 56 (3).
  • Cunningham, H. et al. (2009). Developing Language Processing Components with GATE Version 5 (a User Guide). University of Sheffield, Sheffield. URL :https://gate.ac.uk/releases/gate-5.1-beta1-build3397-ALL/
  • CUNNINGHAM, H. (2005). Information extraction, automatic. In Encyclopedia of language and linguistics, 3(8).
  • Fabre, C. (2012). Traitement automatique de textes : techniques linguistiques. Techniques de l'Ingénieur, H7258.
  • Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing (3rd draft ed.) URL: https://web.stanford.edu/~jurafsky/slp3/
  • Indurkhya, N. & Damerau, F.J. (2010) Handbook of Natural Language Processing. CRC Press, Taylor and Francis Group.
  • Mitkov, R. (Ed.). (2002). The Oxford Handbook of Computational Linguistics. Oxford: OUP.
  • Poibeau, T. (2011). Traitement automatique du contenu textuel. Hermès, Paris.
  • POPESCU-BELIS, A. (2007) Le rôle des métriques d'évaluation dans le processus de recherche en TAL. Revue TAL, 48(1), pp. 67-91.
  • Schubert, L. (2020). Computational Linguistics. In Edward N. Zalta (ed.), The Stanford Encyclopedia of Philosophy (Spring 2020 Edition), Metaphysics Research Lab, Stanford University. URL: https://plato.stanford.edu/archives/spr2020/entries/computational-linguistics/