-
Partager cette page
SLT0703T - Méthodes, ressources et applications du TAL 1
Semestre | Semestre 1 |
---|
Volume horaire total | 25 |
---|
Domaine(s) LMD
Langue(s) d'enseignement
Responsables
Enseignante: Lydia-Mai Ho-Dac
Objectifs
L’objectif de ce module est de proposer une première introduction au fonctionnement des applications du TAL (Traitement Automatique du Langage) tout en questionnant le rôle et l’apport des connaissances linguistiques dans ce champ d’activités.
Ce module se focalisera principalement sur l’évaluation des applications du TAL et la question de l’annotation linguistique de données langagières pour produire des ressources nécessaires pour améliorer et évaluer les traitements automatiques du langage.
L’objectif de ce module est de proposer une première introduction au fonctionnement des applications du TAL (Traitement Automatique du Langage) tout en questionnant le rôle et l’apport des connaissances linguistiques dans ce champ d’activités.
Ce module se focalisera principalement sur l’évaluation des applications du TAL et la question de l’annotation linguistique de données langagières pour produire des ressources nécessaires pour améliorer et évaluer les traitements automatiques du langage.
Contenu
Introduction aux ressources linguistiques pour le TAL :
- introduction au langage XML, langage largement utilisé pour encoder, structurer et rendre interopérables des ressources linguistiques pour le TAL
- manipulation de la norme TEI-P5 pour encoder des corpus
- observation de données issues de campagnes d'évaluation
- annotation outillée
- évaluation de modules
Ce cours est composé de cours magistraux, de travaux pratiques (manipulations d‘outils) et d’une initiation à la recherche à travers la lecture d’articles scientifiques récents.
Les étudiants sont amenés à régulièrement rendre compte de leur réflexion par la rédaction d’une diversité de rendus : de compte-rendus de séance, notes de lecture et relectures des travaux des autres étudiants, exposés et descriptifs de ressources, etc..
Bibliographie
- CANDITO, M. & LIBERMAN, M. (Ed.) (2019). Corpus annotés. Revue TAL, n.s., 60(2).
- Fabre, C. (2012). Traitement automatique de textes : techniques linguistiques. Techniques de l'Ingénieur, H7258.
- FORT, Karen (2012) Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. Thèse de doctorat en Traitement du texte et du document, Université Paris-Nord - Paris XIII. ⟨tel-00797760v2⟩
- Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing (3rd draft ed.) URL: https://web.stanford.edu/~jurafsky/slp3/
- Indurkhya, N. & Damerau, F.J. (2010) Handbook of Natural Language Processing. CRC Press, Taylor and Francis Group.
- Leech, G (2005) Adding Linguistic Annotation. In M. Wynne (Ed.) Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbrow Books, 17-29 .
- MATHET, Y. & WIDLÖCHER , A. (2019). Annotation, évaluation et mesure d’accord en linguistique de corpus. Revue française de linguistique appliquée, XXIV, 111-128. https://doi-org.gorgone.univ-toulouse.fr/10.3917/rfla.241.0111
- Mitkov, R. (Ed.). (2002). The Oxford Handbook of Computational Linguistics. Oxford: OUP.
- POPESCU-BELIS, A. (2007) Le rôle des métriques d'évaluation dans le processus de recherche en TAL. Revue TAL, 48(1), pp. 67-91.
- Schubert, L. (2020). Computational Linguistics. In Edward N. Zalta (ed.), The Stanford Encyclopedia of Philosophy (Spring 2020 Edition), Metaphysics Research Lab, Stanford University. URL: https://plato.stanford.edu/archives/spr2020/entries/computational-linguistics/
- Zeldes, Amir (2017) "The GUM Corpus: Creating Multilayer Resources in the Classroom". Language Resources and Evaluation 51(3), 581–612.