Discipline(s) : Langues

SLT0902T - Informatique pour le Traitement Automatique des Langues 3

Semestre Semestre 1
Crédits ECTS 4
Volume horaire total 25

Domaine(s) LMD

ARTS, LETTRES ET LANGUES

Langue(s) d'enseignement

Français

Responsables

Ludovic Tanguy

Intervenants : Lydia-Mai Ho-Dac et Ludovic Tanguy

Pré-requis

Ce cours nécessite d’avoir des compétences en programmation Python, une bonne connaissance des techniques et des applications du TAL et une connaissance des principes fondamentaux d’XML.

Objectifs

Cet enseignement est organisé en deux parties.

La première est une introduction à l’apprentissage automatique (machine learning) appliqué plus particulièrement à la classification de textes.

La seconde aborde l’exploitation de données langagières au format XML.

Contenu

Cet enseignement alterne des cours et des séances pratiques sur machine

Partie 1 :

  • Introduction aux principes de l’apprentissage automatique
  • Principaux algorithmes symboliques et statistiques d’apprentissage automatique supervisé
  • Méthodologie générale pour l’entraînement et l’évaluation des modèles
  • Outils utilisés : WEKA, scikit-learn

Partie 2 :

  • Présentation du module python lxml (http://lxml.de/)
  • Production d’un fichier XML en python
  • Traitement d’un fichier XML en python
  • Format pour une annotation débarquée avec Glozz (http://www.glozz.org/)

Bibliographie

  • Jurafsky D. and Martin, J.H. (2020). Speech and Language processing (3rd edition). Online publication (https://web.stanford.edu/~jurafsky/slp3/)
  • Müller, A. and Guido, S. (2016). Introduction to machine learning with Python. O’Reilly.
  • Pedregosa et al., (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, pp. 2825-2830.
  • Witten I., Franck E., Hall M. and Pall, C. (2016). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.