Aller au contenu

Modèle de données

Méthodes

Les méthodes sont divisés en deux catégories :

  • celles de classification non supervisé ou "[[clustering]]" qui servent à construire des groupes d'individus similaires.
  • celles de classification supervisé ou "classification" qui servent à faire des prévisions.

Note

On parle de prévision plutôt de prédiction. La différence se situe dans le fait que la prévision s'appuie sur des indices pour anticiper

Trouver le meilleur modèle consiste à identifier le modèle qui donne les meilleures résultats tout en conservant un niveau de complexité le plus faible possible. Le choix se réalise par l'utilisation de critères.

Supervisées

Les méthodes d'apprentissage sont divisé en deux catégorie en fonction du type de variables à prédire :

  • variable numérique. On parle de régression.
  • variable qualitative. On parle de classification.

Certaines méthodes sont utilisées pour améliorer les modèles :

  • k-fold : méthode qui permet de contrôler la qualité du jeu d'apprentissage càd de s'assurer que les paramètres du modèle ne dépendent pas du jeu d'apprentissage. Les paramètres des modèles sont calculés en créatn des sous jeux d'apprentissage.
  • boosting.

Non supervisées

Ces méthodes permettent notamment de :

  • Regrouper les individus dans des groupes càd de créer des profils.
  • Résumer les données et synthétiser l'information.
  • Détecter des individus atypiques.

Gestion de projet

Les principales étapes d'un projet de data mining :

  1. Cadrage et définition.
  2. Management des données.
  3. Exploration des données.
  4. Modélisation et analyse des données.
  5. Mise en œuvre opérationnelle.

Les étapes d'un projet d'apprentissage supervisé sont :

  1. Pré traitement des données.
  2. Constitution d'un jeu d'apprentissage et de test.
  3. Choix de l'algorithme
  4. Adapter les paramètres de l'algorithme aux données
  5. Prédire
  6. Evaluer
  7. Exporter le modèle.