Discipline(s) : Langues

SL0F601T - Linguistique outillée et Traitement Automatique des Langues

Semestre Semestre 2
Crédits ECTS 6
Volume horaire total 50

Domaine(s) LMD

ARTS, LETTRES ET LANGUES

Langue(s) d'enseignement

Français

Responsables

Lydia-Mai Ho-Dac

Enseignants : Lydia-Mai Ho-Dac & Cécile Fabre

Objectifs

Cette UE propose d’initier les étudiants à deux aspects de la relation entre linguistique et informatique. D’une part, la linguistique outillée profite des outils et techniques informatiques pour explorer, exploiter et analyser des ressources langagières dans un objectif de description linguistique. D’autre part, le domaine du traitement automatique des langues (TAL), fondamentalement ancré dans le domaine de l’informatique, se nourrit de la connaissance linguistique pour perfectionner le traitement par les machines du langage humain.

Dans la partie « linguistique outillée », les étudiants seront amenés à analyser linguistiquement des corpus de textes au moyen d’outils dédiés à l’analyse de corpus : concordancier, logiciel de textométrie, plateforme d’interrogation de corpus

Dans la partie « TAL », les étudiants sont amenés à manipuler et évaluer un ensemble d’outils de traitement automatique des langues afin d’acquérir une connaissance à la fois théorique et pratique du traitement automatique des différents niveaux d’analyse linguistique.

Cette UE constitue également un aperçu du contenu de l’offre de formation proposée par le master LITL (Linguistique, Informatique, Technologies du langage).

Contenu

Les deux parties « Linguistique outillée » et « Traitement automatique des langues » seront enseignés en parallèle sous la forme de cours mixtes mêlant des enseignements théoriques introduisant les notions fondamentales et des enseignements plus pratiques offrant aux étudiants l’opportunité de manipuler différents outils.

La partie « Linguistique outillée » se situe dans le prolongement du cours SL00505T. Il traitera les points suivants :

  • Apport des corpus en sciences du langage
  • Manipulation de corpus : observation de contextes, analyses quantitatives, textométrie, projection de lexiques et de patrons
  • Diversité des corpus
  • Etudes linguistiques outillées d’un corpus diversifié


Pour la partie des applications TAL, les points suivants seront abordées :

  • Panorama des techniques du traitement automatique des langues et des différents niveaux d’analyse linguistique
  • Applications du traitement automatique des langues (traduction automatique, correction orthographique et grammaticale)
  • Outils d’étiquetage morphosyntaxique et d'analyse syntaxique
  • Évaluation de l’efficacité des applications et outils du TAL

Bibliographie

  • Demirdache, H. (2021). Zoom sur... Linguistique computationnelle. In Lettre de l'InSHS, 69.
  • Fabre, C. (2012). Traitement automatique de textes : techniques linguistiques. Techniques de l'Ingénieur, H7258.
  • HABERT B. (2005) Instruments et ressources électroniques pour le Français. Ophrys. (Introduction, chapitres 1 et 2)
  • Indurkhya, N. & Damerau, F.J. (2010) Handbook of Natural Language Processing. CRC Press, Taylor and Francis Group.
  • LEBART, L., PINCEMIN, B. et POUDAT, C. (2019) Analyse des données textuelles. Presses Universitaires du Québec,2019.
  • Nasr, A., Dary, F., Béchet, F. & Fabre, B. (2020). Annotation syntaxique automatique de la partie orale du ORFÉO. Langages, 219, 87-102. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lang.219.0087
  • MITKOV, R. (éd.) (2002) Handbook of Computational Linguistics . Oxford : OUP
  • POUDAT, C. & LANDRAGIN, F. (2017) Explorer un corpus textuel : méthodologies, pratiques, outils. De Boeck, Champs Linguistiques.
  • TANGUY, L. & FABRE, C. (2012) Évolutions de la linguistique outillée : méfaits et bienfaits du TAL. L'information grammaticale, Heck (pp. 15-23)