SL00806V - Collecte de données et statistique pour les SDL

Accessible en Formation à distance
Semestre Second semestre
Crédits ECTS 3
Volume horaire total 25

Responsables


Responsable : Ludovic Tanguy

Enseignants : Ludovic Tanguy & Mai Ho-Dac

Pré-requis


Le niveau de mathématiques attendu est celui du baccalauréat général. Par contre les étudiants doivent savoir manipuler un tableur (Microsoft Excel ou LibreOffice Calc par exemple) pour les opérations courantes sur les données : édition et saisie de valeurs, calculs simples (somme, pourcentage, moyenne), génération de graphiques à partir de données. Toutes ces compétences sont couvertes par le C2i niveau 1 (domaine D3.4 : Exploiter des données dans des feuilles de calcul).

Objectifs


Ce cours vise à donner aux étudiants les connaissances théoriques et les savoir-faire pratiques permettant la collecte et l’exploitation de données linguistiques. L’accent est mis ici sur l’intérêt que présente pour
les études linguistiques le travail sur des données volumineuses, et sur la nécessité d’utiliser par conséquent des outils informatiques pour organiser leur collecte leur analyse.

 

Contenu


Ce cours comporte deux parties.

Dans un premier temps, les principaux outils d’analyse quantitative des données seront présentés sur des données génériques représentatives des différents types rencontrés en sciences du langage.

-       Statistiques descriptives monovariées (mesues et représentations graphiques)

-       Statistiques bivariées ( mesures de liaison, tests statistiques).

En plus des principes généraux et des méthodes, des manipulations concrètes sont effectuées en salle machine.

Dans un second temps, une méthodologie pour la collecte et l'annotation des données sera enseignée avec une mise en pratique sur plusieurs cas d'étude couvrant à la fois les champs de la linguistique et de la psycholinguistique. Ces différents cas d'étude permettront aux étudiants de se familiariser avec les étapes essentielles à la collecte/annotation de données langagières :

  1. conception de campagnes pour la collecte et l'annotation de données
  2. prise en main d'un outil d'enquête en ligne et mise en place de la collecte et l'annotation massive de données
  3. récolte des résultats de campagne et premières analyses (accord inter-annotateur et aperçu quantitatif)

Bibliographie

 

·         GRIES, S. (2010). Useful statistics for corpus linguistics. In A. Sanchez & M. Almeda (Eds), A mosaic of corpus linguistics. Peter Lang.

·         Habert B. (2004). Outiller la linguistique : de l'emprunt de techniques aux rencontres de savoirs. Revue Française de Linguistique Appliquée « linguistique et informatique : nouveaux défis » 9(1) : 5-24.

·         Hamon, A. & Jégou, N. (2008) Statistique descriptive - Cours et exercices corrigés. Presses universitaires de Rennes.

·         LEVSHINA, N. (2015). How to do linguistics with R: data exploration and statistical analysis. John Benjamins.

·         MULLER, C. (1992). Initiation aux méthodes de la statistique linguistique, Paris : Champion.

·         POIBEAU, T. (2014). La linguistique est-elle soluble dans la statistique ? Revue Sciences/Lettres, 2. [accessible en ligne sur rsl.revues.org]

 

 

 

 

Contrôles des connaissances