• Recherche,

Formation « Travailler avec des données langagières ou textuelles »

Publié le 5 janvier 2026 Mis à jour le 5 janvier 2026
du 12 février 2026 au 13 février 2026 Université Toulouse – Jean Jaurès, Maison de la recherche

Une formation proposée par le Consortium CORLI et la PUD-T de la MSHS-T, durant la Love Data Week 2026.

"Travailler avec des données langagières ou textuelles. Outils et bonnes pratiques pour la collecte, le traitement, l’annotation, l’analyse et la diffusion des données"
Une formation proposée par le Consortium CORLI (CORpus, Langues et Interactions) et la PUD-T (Plateforme universitaire de données de Toulouse) de la MSHS-T, durant la Love Data Week 2026.
Inscription gratuite mais nécessaire

Programme provisoire

Jeudi 12 février 2026 – Gestion, préparation, annotation et diffusion des données

9h-9h30 Introduction
Cécile Fabre (MSHS-T/ CLLE, UT2J), Céline Poudat (BCL, Université Côte d’Azur/ CORLI)

9h30-12h30  Atelier(1) TACTEO pour la transcription et le partage de données manuscrites

Initiation à l’outil TACTEO pour une transcription guidée et collaborative, présentation de la norme TEI pour encoder les méta-données et les objets textuels et de ses avantages (dépôts pérennes, outils de vérification et d’exploration, communauté). Ouverture sur  les espaces de dépôt : Nakala, Ortolang et l’accès à un concordancier (teaser pour la formation TXM du lendemain)

Animé par : Céline Poudat (BCL, Université Côte d’Azur/ CORLI)

12h30-14h Pause déjeuner – buffet

14h-17h Atelier(2) INCEpTION pour l’annotation complexe et collaborative de données textuelles

Avec manipulation des formats d’entrée (txt, XML TEI ou conllu) et de sortie (tsv ou conllu) et aperçu des projets gitlab et de l’outil grewmatch pour diffuser et exploiter les annotations

Animé par : Lydia-Mai Ho-Dac (CLLE, UT2J / CORLI)

17h-17h30  Pause café

17h30-18h30 Présentation Combined Audio and Chat Transcripts for Recorded Video Streams, Steven Coats, University of Oulu, Finland

In this talk we demonstrate a Jupyter-Notebook-based pipeline approach for the integration of speech transcripts with live chat content in order to create structured documents from streams recorded on the platforms YouTube and Twitch. Built on common streaming protocols and the open-source Python library yt-dlp, the notebook, accessible through Google’s Colab, comprises modular script components for data download and organization of streamed content, facilitating both corpus-based and qualitative analysis of streaming interactions.

20h – Diner en ville (sous réserve)

Vendredi 13 février 2026 – Analyse des données

9h30-12h30 Sessions parallèles :

Atelier (3a) Initiation à TXM pour l’exploitation des données textuelles
Animé par : Loïc Liégeois (sous réserve)

Atelier (3b) TXM avancé pour l’exploitation des données annotées
Animé par : Sascha Diwersy (PRAXILING, Université de Montpellier Paul Valéry)

12h30-14h Pause déjeuner – buffet

14h-17h Atelier (4) R/Stats pour l’analyse des données langagières ou textuelles

Dans cet atelier nous verrons comment analyser les données résultant de l’annotation, en utilisant des méthodes statistiques. Seront présentées les méthodes fondamentales de statistique descriptive (comment faire une synthèse) et de statistique inférentielle (comment croiser des caractéristiques et tester des hypothèses).

Animé par : Ludovic Tanguy (CLLE, UT2J)
En savoir plus