Formation « Travailler avec des données langagières ou textuelles »

Publié le 5 janvier 2026 – Mis à jour le 27 janvier 2026

du 12 février 2026 au 13 février 2026 Université Toulouse – Jean Jaurès, Maison de la recherche

Une formation proposée par le Consortium CORLI et la PUD-T de la MSHS-T, durant la Love Data Week 2026.

"Travailler avec des données langagières ou textuelles. Outils et bonnes pratiques pour la collecte, le traitement, l’annotation, l’analyse et la diffusion des données"
Une formation proposée par le Consortium CORLI (CORpus, Langues et Interactions) et la PUD-T (Plateforme universitaire de données de Toulouse) de la MSHS-T, durant la Love Data Week 2026.

Inscription gratuite mais nécessaire

Programme provisoire

Jeudi 12 février 2026 – Gestion, préparation, annotation et diffusion des données

Lieu : 9h-17h – salle F422-423

9h-9h30 Introduction
Cécile Fabre (MSHS-T/ CLLE, UT2J), Céline Poudat (BCL, Université Côte d’Azur/ CORLI)

9h30-12h30 Atelier(1) TACTEO pour la transcription et le partage de données manuscrites

Initiation à l’outil TACTEO pour une transcription guidée et collaborative, présentation de la norme TEI pour encoder les méta-données et les objets textuels et de ses avantages (dépôts pérennes, outils de vérification et d’exploration, communauté). Ouverture sur les espaces de dépôt : Nakala, Ortolang et l’accès à un concordancier (teaser pour la formation TXM du lendemain)

Animé par : Céline Poudat (BCL, Université Côte d’Azur/ CORLI)

12h30-14h Pause déjeuner – buffet

14h-17h Atelier(2) INCEpTION pour l’annotation complexe et collaborative de données textuelles

Avec manipulation des formats d’entrée (txt, XML TEI ou conllu) et de sortie (tsv ou conllu) et aperçu des projets gitlab et de l’outil grewmatch pour diffuser et exploiter les annotations

Animé par : Lydia-Mai Ho-Dac (CLLE, UT2J / CORLI)

17h-17h30 Pause café

17h30-18h30 Présentation Combined Audio and Chat Transcripts for Recorded Video Streams
Lieu : amphi F417

In this talk we demonstrate a Jupyter-Notebook-based pipeline approach for the integration of speech transcripts with live chat content in order to create structured documents from streams recorded on the platforms YouTube and Twitch. Built on common streaming protocols and the open-source Python library yt-dlp, the notebook, accessible through Google’s Colab, comprises modular script components for data download and organization of streamed content, facilitating both corpus-based and qualitative analysis of streaming interactions.

Intervenant : Steven Coats (University of Oulu, Finland)

20h – Diner en ville (à la charge des participant·es)

Vendredi 13 février 2026 – Analyse des données

9h30-12h30 Sessions parallèles :
Lieux : salles F223 et E411

· Atelier (3a) Initiation à TXM pour l’exploitation des données textuelles
Animé par : Loïc Liégeois (LRL, Université Clermont Auvergne)

· Atelier (3b) TXM avancé pour l’exploitation des données annotées
Animé par : Sascha Diwersy (PRAXILING, Université de Montpellier Paul Valéry)

12h30-14h Pause déjeuner – buffet

14h-17h Atelier (4) R/Stats pour l’analyse des données langagières ou textuelles
Lieu : salle F422-423

Dans cet atelier nous verrons comment analyser les données résultant de l’annotation, en utilisant des méthodes statistiques. Seront présentées les méthodes fondamentales de statistique descriptive (comment faire une synthèse) et de statistique inférentielle (comment croiser des caractéristiques et tester des hypothèses).

Animé par : Ludovic Tanguy (CLLE, UT2J)

En savoir plus

Consortium CORLI (CORpus, Langues et Interactions)
PUD-T – la plateforme Universitaire de Données de Toulouse (MSHS-T)
Love Data Week 2026

Contact :

- pudt@univ-toulouse.fr