| |
:: Description généraleCette formation porte sur une méthode multidimensionnelle puissante, l’analyse de classification, qui comprend un ensemble de techniques utilisées pour classifier des objets. Ces "objets" peuvent être des individus, des pays, des espèces, des cellules, des gènes, etc.
L'analyse de classification est un outil de découverte, une méthode d'analyse multivariée permettant de former des groupes homogènes d'individus ou d'objets.:: Objectifs pédagogiquesÀ la suite de cette formation, vous saurez :
Comment calculer les distances entre les objects selon la nature des variables de classification considérée
Quelles sont les méthodes de classifications disponibles et leur mécanisme
Choisir la méthode de classification adaptée à vos besoins
Représenter graphiquement les résultats et les comprendre (dendrogrammes)
Déterminer le nombre de classes à conserver
Valider les classes formées et les interpréter
Comprendre les limites et les difficultés associées à l'analyse de classification:: Public cibleCette formation s’adresse au personnel scientifique qui recueille de grands ensembles de données et qui désire les résumer graphiquement et créer des groupes homogènes d'observations/objets.:: Pré-requisCette formation présente les idées importantes en statistique pour saisir le fonctionnement des méthodes de classifications. Les participants n'ont pas besoin d'avoir de connaissances en statistique ou alors s'ils en possèdent, ils peuvent ne pas les avoir utilisées depuis longtemps.:: NotesSi vous êtes intéressés à approfondir l'utilisation des méthodes statistiques multidimensionnelles et à pratiquer leur application sur une variété d'ensembles de données avec votre logiciel usuel, nous vous suggérons notre école d'été qui porte sur ce thème et qui s'étend sur une semaine. Toutes nos formations sont offertes intra-entreprises.
Contactez-nous pour en savoir plus. | | |
:: Plan du cours
- Contexte et considérations générales : objectifs, création de groupe, vocabulaire
- Déterminer la distance entre les objets
- Notion de matrice de distances
- Similarité vs dissimilarité
- Distance pour les variables continues
- Traitement des variables discrètes
- Combinaison de différents types de variable
- Pondération des variables
- Les méthodes hiérarchiques
- Caractéristiques
- Principes et application des méthodes ascendantes
- Représentation: dendogramme ou diagramme arborescent
- Détermination du nombre de classes
- Les méthodes descendantes
- Les méthodes de modélisation: Ward, etc.
- Principe général
- Méthode de Ward: principes et applications
- Autres méthodes
- Impact de la méthode sur le nombre de classes
- Les méthodes d'optimisation
- Principe général
- Les critères d'optimisation
- La procédure de classification
- La méthode K-means et une variante: les médoïdes
- Représentations graphiques
- Silhouette plots
- Détermination du nombre de classes
- Autres méthodes
- Nouvelles méthodes
- Densité non-paramétrique
- Classification floue
- Utilisation, représentation et caractérisation des classes
- Bilan
:: Thèmes abordésL’analyse de classification (Cluster Analysis) comprend un ensemble de techniques statistiques qui sont utilisées pour déterminer des groupes statistiques naturels ou des structures dans les données.
Elle permet de répondre à la question suivante : Étant donné un ensemble d’observations dont on connaît une ou plusieurs caractéristiques, comment puis-je les regrouper en un certain nombre de groupes de manière à ce que les groupes obtenus soient constitués d'observations semblables et que les groupes soient le plus différents possible entre eux?
Pour répondre à cette question, la formation aborde les raisons de l'analyse de classification, quels en sont les objectifs, ses avantages et ses inconvénients. En tant que principe de base de la répartition d'objets en groupes, le calcul de la distance entre les objets est introduit et les différentes cas de figures selon le type des variables sont étudiés. Ensuite, les différentes méthodes disponibles pour classifier sont présentées avec leurs avantages et leurs inconvénients: méthodes de classification hiérarchique, méthodes de modélisation, méthodes d'optimisation.Pour chacune de ces méthodes, son contexte d'utilisation, ses caractéristiques, sa représentation graphique et son interprétation sont étudiées. Les forces et les faiblesses de chaque méthode sont discutées. Les méthodes plus récentes seront également évoquées: classification floue, densité non paramétrique.
Tout au long de la formation, les études de cas permettent d'appliquer concrètement les notions abordées à chaque étapes. Les logiciels dédiés à l'analyse de classification ou intégrant certaines méthodes font également l'objet d'une revue.
| |