SLT0802T - Statistiques appliquées au langage

Semestre Semestre 2
Crédits ECTS 3
Volume horaire total 25

Responsables

Ludovic Tanguy

Objectifs

Ce cours est une introduction aux techniques statistiques principales utilisées en linguistique de corpus et en TAL. Il donne aux étudiants les connaissances fondamentales pour leur permettre de décrire, synthétiser, analyser et explorer quantitativement des données, et plus particulièrement des données langagières (textes, lexiques, unités syntaxiques, etc.) qu’elles soient brutes, annotées ou produites par un système d’analyse automatique.

Contenu

Dans un premier temps, les principaux outils d’analyse quantitative des données seront présentés sur des données génériques représentatives des différents types rencontrés en sciences du langage.

· Statistiques descriptives monovariées (mesures et représentations graphiques)

· Statistiques bivariées (mesures de liaison, tests statistiques simples)

Dans un second temps, des techniques plus avancées d’exploration de données sont présentées, notamment les méthodes d’analyse multidimensionnelles.

En plus des principes généraux et des méthodes, des manipulations concrètes sont effectuées lors de séances de travaux dirigés sur ordinateur (utilisation d’un tableur et initiation au langage R).

Bibliographie

  • GRIES, S. (2010). Useful statistics for corpus linguistics. In A. Sanchez & M. Almeda (Eds), A mosaic of corpus linguistics. Peter Lang.
  • Hamon, A. & Jégou, N. (2008) Statistique descriptive - Cours et exercices corrigés. Presses universitaires de Rennes.
  • LEVSHINA, N. (2015). How to do linguistics with R: data exploration and statistical analysis. John Benjamins.
  • MULLER, C. (1992). Initiation aux méthodes de la statistique linguistique, Paris : Champion.
  • POIBEAU, T. (2014). La linguistique est-elle soluble dans la statistique ? Revue Sciences/Lettres, 2. [accessible en ligne sur rsl.revues.org]