SLT0802V - Ressources linguistiques pour le TAL

Semestre Second semestre
Crédits ECTS 3
Volume horaire total 25

Responsables


Responsable : Lydia-Mai Ho-Dac

Enseignants : Lydia-Mai Ho-Dac, Josette Rebeyrolle et Cécile Fabre

Objectifs


Cette UE propose un panorama des différents types de ressources linguistiques développées pour le TAL. Ces ressources incluent tout type de données relatives à la langue, accessibles dans un format électronique, et utilisées pour le développement des systèmes de traitement automatique des langues (corpus – nus ou enrichis -, lexiques informatisés, terminologie, grammaires, etc.). De plus, les étudiants sont initiés à certain nombre de techniques permettant la manipulation et l’acquisition des ressources étudiées (documents structurés et langage XML, méthodes d’acquisition de terminologies et ressources sémantiques)

Contenu


Plusieurs aspects concernant la place des ressources en TAL seront abordés, notamment :
• les ressources linguistiques développées pour la correction orthographique et les applications du web sémantique (intervention d'une professionnelle) ;
• la manipulation de documents structurés et une initiation au langage XML ;
• la création de ressources terminologiques ;
• les méthodes d’acquisition de ressources sémantiques.

En plus de ces enseignements, un ou deux professionnels du TAL interviendront au cours du semestre pour parler de son parcours et de son rapport aux ressources linguistiques dans son métier.

Ce cours est composé de cours magistraux complétés par des travaux individuels des étudiants visant à se familiariser avec la diversité des ressources existantes depuis leur conception jusqu’à leur exploitation dans des systèmes de TAL
Le semestre s’achève par une présentation collective d’applications actuelles du TAL.

Bibliographie


• CUNNINGHAM, H. et al. (2009). Developing Language Processing Components with GATE Version 5 (a User Guide). University of Sheffield, Sheffield.
• HABERT, B. (2005) Instruments et ressources électroniques pour le français. Paris : Ophrys.
• L'HOMME, M.-C. (2004) La terminologie : principes et techniques. Montréal : Les Presses de l’Université de Montréal, Coll. « Paramètres ».
• L ‘HOMME, M.-C. (2008). Ressources lexicales, terminologiques et ontologiques: une analyse comparative dans le domaine de l’informatique. Revue française de linguistique appliquée, XIII, 1, 97-118.
• LEECH, G (2005) Adding Linguistic Annotation. In M. Wynne (Ed.) Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbrow Books, 17-29 .
• LITKOWSKI, K. C. (2005). Computational Lexicons and Dictionaries. In Encyclopedia of Language and Linguistics (2nd ed.). Oxford: Elsevier
• VERONIS J., (2000), Annotation automatique de corpus : état de la technique. In J.-M. Pierrel (Ed.) Ingénierie des langues, Hermès, p. 52 – 58.
• BARONI, M et al. (2009). The WaCky Wide Web: A collection of very large linguistically processed Web-crawled corpora. Journal of Language Resources and Evaluation 43 (3): 209-226.

Ressources numériques disponibles dans la Bibliothèque Numérique ENI accessible à toute personne inscrite à l’UT2J
LECOMTE, S., & BOULANGER, T. (2008). XML par la pratique: bases indispensables, concepts et cas pratiques. Editions ENI.
https://www-eni--training-com.nomade.univ-tlse2.fr/client_net/mediabook.aspx?idR=120216

Contrôles des connaissances