| |
:: Description généraleCet atelier offre une présentation des techniques de modélisation pour des variables réponses catégoriques avec une emphase sur la régression logistique.
Les concepts fondamentaux sont abordés dans le cadre de la modélisation d'une réponse binaire, en commençant avec l'inadéquation de la régression linéaire dans ce cas pour introduire la définition alternative du modèle logistique. Tout en indiquant les similarités avec la régression linéaire, les outils, indicateurs et diagnostics propres à cette approche sont présentés de manière détaillée. Ainsi, cet atelier aborde en particulier les notions de rapports de cote (odds ratios) utilisés pour mesurer l'ampleur des effets, de spécificité, de sensibilité et de courbe ROC et les techniques de de validation croisée. La généralisation à une réponse comportant plus de 2 niveaux ordonnés ou non est discutée tout comme les alternatives à la régression logistique.:: Objectifs pédagogiquesÀ la suite de cette formation, les participants sauront:
Quel est le contexte d'utilisation de la régression logistique
Pourquoi la régression linéaire multiple (ordinaire) ne fonctionne pas sur les variables réponse catégoriques
Comment construire un modèle de régression logistique
Quelles sont les conditions d'utilisation de la régression logistique
Comment mesurer l'adéquation du modèle aux données
Comment interpréter les sorties fournies par les logiciels statistiques
Comment fonctionne la régression logistique ordinale
Comment fonctionne la régression polychotomique:: Public cibleCette formation appliquée en statistique s'adresse à toute personne qui recueille des données binaires, catégoriques et/ou ordinales et qui prend des décisions
basées sur ces données. Connaître et appliquer cette technique de régression sera particulièrement utile aux personnes ayant à expliquer des données qualitatives et oeuvrant en finance, en épidémiologie, en médecine, en génétique, en sciences humaines, en économétrie, en marketing. :: Pré-requisCette formation d'une journée traite de la régression logistique, une technique pour mettre en relation une variable dépendante ou réponse de nature catégorique et un ensemble de variables indépendantes ou explicatives.
Les participants doivent connaître les outils essentiels de la statistique descriptive et de la statistique inférentielle - moyenne, écart-type, erreur-type, médiane, outils graphiques tels les histogrammes, les box-plots, les tests d'hypothèse, les intervalles de confiance, etc. - c'est à dire avoir suivi la formation Les outils essentiels de la statistique ou avoir un niveau équivalent.
Une connaissance appliquée des techniques de régression linéaire ordinaire est désirable mais elle n'est pas essentielle. Les notions de base seront revues au début de la formation avant d'aborder la régression logistique. | | |
:: Plan du cours
- Introduction à la régression logistique
- Problématique : Mise en relation d’une variable catégorique avec un ensemble de variables explicatives
- Pourquoi la régression linéaire multiple n’est pas appropriée lorsque la variable réponse est binaire?
- Rappels sur la régression linéaire multiple
- Estimation du modèle à partir des données
- Interprétation des coefficients des paramètres du modèle
- Mesures d’ajustement et outils de validation
- Cas classique : une variable réponse binaire
- Principe de base : modéliser la probabilité d’obtenir une réponse donnée
- Exemple de réalisation
- Interprétation des sorties statistiques: Coefficients et transformations mathématiques des coefficients, rapports de cote « odds ratios », tests statistiques sur les coefficients
- Comparaison des sorties avec la régression linéaire multiple
- Mesure de l’ajustement du modèle aux données: Modèles emboîtés, résidus, techniques de validation croisée
- Parallèle avec l’analyse discriminante
- Utilisation du modèle pour effectuer de la prédiction
- Principe de sélection de variables
- Cas d’une variable réponse ordinale : régression polychotomique ordinale
- Régression polychotomique
- Réalisation pratique
- Procédures disponibles dans les logiciels statistiques
- Mise en œuvre et interprétation
- Bilan
:: Thèmes abordésCette formation décrit la régression logistique qui est une technique de régression à utiliser lorsque la variable réponse est binaire ou catégorique, c'est-à-dire qu'elle ne peut prendre qu'un nombre limité de valeurs. Un exemple de variable catégorique est la sévérité d'une maladie : peu sévère, moyennement sévère, très sévère. Un exemple de variable binaire est la survie de patients soumis à des traitements : oui, non.
La formation débute par des rappels sur la régression linéaire multiple qui met en relation une variable réponse continue et un ensemble de variables explicatives. Les notions de modèle, l'estimation des paramètres du modèle à l'aide des données, l'interprétation des coefficients du modèle, les mesures d'ajustement "goodness-of-fit" et de validation de modèle sont vues.
La formation met aussi en évidence pourquoi la régression ordinaire ne fonctionne pas sur des variables réponse catégoriques.
Elle présente ensuite le cas le plus classique, c'est-à-dire la mise en relation d'une variable binaire à un ensemble de variables explicatives. Le principe sur lequel la modélisation des données s'appuie est discuté : la probabilité d'obtenir une réponse donnée est illustrée à l'aide d'exemples. Du temps est aussi consacré à l'interprétation de sorties statistiques afin que les participants déterminent quels aspects de ces sorties sont essentiels pour l'analyse des données et l'interprétation des résultats. De nouveaux indices sont offerts en régression logistique: les rapports de cote, les tests sur les coefficients. Les mesures d'ajustement et de validation du modèle propres à la régression logistique seront approfondies.
L'utilisation des modèles de régression dans une optique de prédiction et le principe de sélection de variables seront aussi discutés.
La régression logistique ordinale, qui traite le cas d'une variable réponse ordinale et celui de la régression polychotomique pour les variables réponse nominales seront aussi étudiées.
Finalement, il sera question des différentes procédures disponibles dans les logiciels pour réaliser de la régression logistique et polychotomique, de leur mise en oeuvre et de leur interprétation.
| |