SL00305V - Informatique pour la linguistique

Accessible en Formation à distance
Semestre Semestre 1
Crédits ECTS 3
Volume horaire total 25

Responsables

Ludovic TANGUY

Objectifs

Ce cours aborde la problématique de l'exploitation de données langagières (textes et lexiques) par ordinateur. Il apporte des connaissances générales sur la représentation informatique de ces données (codage des caractères et des documents) et les principes de leur manipulation (langages formels), mais aussi des savoir-faire pratiques pour les exploiter (recherche, extraction, transformation par expressions régulières).

Contenu

Cet enseignement alterne des cours magistraux et des travaux dirigés sur ordinateur.

 

Aspects techniques des données textuelles informatisées :

  • principes généraux d'un système d'exploitation
  • formats des fichiers de textes
  • codage des caractères

Concepts et outils pour la manipulation de texte :

  • notion de langage formel
  • automates à états finis
  • transducteurs
  • expressions régulières

Bibliographie

  • AHO, A. et ULLMAN, J. (1993). Concepts fondamentaux de l'informatique. Paris : Dunod. (Chapitre 10)
  • FOURMOND, V. (2005). Les expressions régulières par l’exemple. H&K.
  • HABERT, B. (2005). Instruments et ressources électroniques pour le Français. Ophrys.
  • HABERT, B., FABRE, C. & ISSAC, F. (1998). De l'écriture au numérique. Constituer, normaliser et exploiter les corpus électroniques. Masson, Inter éditions.
  • HARALAMBOUS, Y. (2004). Fontes et codages. O’Reilly.
  • TANGUY, L. & HATHOUT N. (2007). Perl pour les linguistes. Hermès. (Chapitre 4)

 

Contrôles des connaissances