SLT0706T - Méthodologie : corpus et linguistique outillée

Semestre Semestre 1
Volume horaire total 25

Responsables

Cécile Fabre

Objectifs

La disponibilité de données langagières numérisées, produites dans différents contextes de communication, a modifié les pratiques de nombreux linguistes. Ces collections de textes, appelées corpus, rendent possible l’observation à grande échelle d’usages langagiers diversifiés. Des outils permettent de les explorer et d’en extraire des informations variées. Cet enseignement permet aux étudiants de s’initier aux méthodes d’exploration et d’analyse de ces corpus textuels, et de les mettre en œuvre en utilisant un logiciel polyvalent, librement accessible, TXM. Il les amène à comprendre en quoi consiste une démarche de recherche fondée sur l’analyse outillée de ces données textuelles numérisées, et à réfléchir sur la nature des données elles-mêmes (format, annotation, documentation des corpus). Il comporte des travaux pratiques pour se familiariser à l’usage de toutes les fonctionnalités du logiciel TXM (concordances, tables de fréquences, associations lexicales, partitionnement de corpus selon différentes dimensions d’analyse, comparaison de corpus, etc.). Enfin, il les amène à utiliser ces principes et ces fonctionnalités pour mener quelques études linguistiques sur différents corpus.

Contenu

  • Les corpus : de quelles données parle-t-on (format, annotation, métadonnées)
  • Variété des outils d’analyse de corpus
  • Démarches d’analyse : explorer un corpus, valider une hypothèse
  • Etapes de traitement : identifier les unités d’analyse, réaliser des études contextuelles, partitionner un corpus, mener une étude comparative, visualiser la structure d’un corpus.

Les notions présentées seront mises en pratique dans l’environnement de travail fourni par le logiciel de textométrie TXM, en explorant des corpus variés (différents genres de textes, oral et écrit).

Bibliographie

Anthony, L. (2013). A critical look at software tools in corpus linguistics. Linguistic Research, 30(2), 141-161.

Lebart, L., Pincemin, B. et Poudat, c. (2019) Analyse des données textuelles. Presses Universitaires du Québec,2019.

Poudat C., Landragin , F. (2017). Explorer un corpus textuel : Méthodes, pratiques, outils. DeBoeck, Champs linguistiques.

Kilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6(1), 2001, pp. 97-133

McEnery, T., & Hardie, A. (2011). Corpus linguistics: Method, theory and practice. Cambridge University Press.

Gries, S. T., & Newman, J. (2014). Creating and using corpora. Research methods in Linguistics, 257-287.