-
Partager cette page
SLT0902T - Informatique pour le Traitement Automatique des Langues 3
Semestre | Semestre 1 |
---|
Crédits ECTS | 4 |
---|---|
Volume horaire total | 25 |
Domaine(s) LMD
Langue(s) d'enseignement
Responsables
Ludovic Tanguy
Intervenants : Lydia-Mai Ho-Dac et Ludovic Tanguy
Pré-requis
Ce cours nécessite d’avoir des compétences en programmation Python, une bonne connaissance des techniques et des applications du TAL et une connaissance des principes fondamentaux d’XML.
Objectifs
Cet enseignement est organisé en deux parties.
La première est une introduction à l’apprentissage automatique (machine learning) appliqué plus particulièrement à la classification de textes.
La seconde aborde l’exploitation de données langagières au format XML.
Contenu
Cet enseignement alterne des cours et des séances pratiques sur machine
Partie 1 :
- Introduction aux principes de l’apprentissage automatique
- Principaux algorithmes symboliques et statistiques d’apprentissage automatique supervisé
- Méthodologie générale pour l’entraînement et l’évaluation des modèles
- Outils utilisés : WEKA, scikit-learn
Partie 2 :
- Présentation du module python lxml (http://lxml.de/)
- Production d’un fichier XML en python
- Traitement d’un fichier XML en python
- Format pour une annotation débarquée avec Glozz (http://www.glozz.org/)
Bibliographie
- Jurafsky D. and Martin, J.H. (2020). Speech and Language processing (3rd edition). Online publication (https://web.stanford.edu/~jurafsky/slp3/)
- Müller, A. and Guido, S. (2016). Introduction to machine learning with Python. O’Reilly.
- Pedregosa et al., (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, pp. 2825-2830.
- Witten I., Franck E., Hall M. and Pall, C. (2016). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.