SOR0903T - Statistiques avancées des données sociales et numériques

Semestre Semestre 1
Crédits ECTS 4
Volume horaire total 25

Responsables

Guillaume Favre, Timothée Chabot

Objectifs

•    Maîtrise des modèles de régressions linéaire, logistique et multinomial
•    Repérer et éviter les biais statistiques propres aux données de réseaux complets.
•    Comprendre le principe des modèles génératifs.
•    Estimer des régressions QAP et des ERGM sur des données appropriées.

Contenu

Ce cours est un TD dédié à l’apprentissage progressif à l'analyse statistique multivariée, à la modélisation statistique et de ses usages en sociologie. Il est constitué de deux parties et l’apprentissage se fait à partir de cours fondamentaux et sur logiciel :

•    Une première partie est dédiée à l’apprentissage des modèles de régression (linéaire, logistique et multinomiale), sur données de sondage et données numériques et à ses spécificités. Apprentissage de la lecture des paramètres (notamment les effets d’interaction) et interprétation des résultats.

•    Une deuxième partie prolonge les cours d’analyse des réseaux complets suivis en M1, en abordant le sujet de la statistique inférentielle en analyse de réseaux. Le cours introduit les problèmes posés par l’inférence pour des données de réseaux (non-indépendance des observations), ainsi que le principe général d’une des solutions proposées dans la littérature (définition d’une distribution de référence simulable informatiquement). Deux classes de modèles : les régressions QAP (Quadratic Assignment Procedure) et les ERGM (Exponential RandomGraph Model).