Échantillionnage

L'échantillionage des données est une étape essentielle pour entrainer de façon efficace un modèle càd pour éviter le sur-apprentissage et obtenir le meilleur modèle (le plus généralisable).

Les données sont divisés en deux sous-ensembles qui servent soient :

à l'apprentissag (train).
à la validation (test).

Les principales méthodes d'échantillonnage sont :

validation non-croisée. Les données sont divisées en deux sous ensembles. Le modèle est constuit sur l'échantillon d'apprentissage et validé sur celui de test.
k-fold. Les données sont divisées en k sous-ensembles (ou "plis"). L'échantillon (ou pli) de validation varie et à chaque itération un nouveau modèle est entrainé sur les k-1 échantillons restant. Les performances du modèle sont moyennées pour obtenir une mesure globale de la performance.
- leave-one-out cross-validation (LOOCV) est un cas extrême de k-fold où l'échantillon est de taille d'apprentissage est de taille \(n-1\) avec \(n\) le nombre d'individus.
bootstrap ou rééchantillonnage. A creuser.

Induire inférence partir de cas particulier pour en déduire une généralité.

bagging (pour bootstrap aggregating)
boosting ensemble d'algorithmes qui sur-pondérent les obsevations erronées différents algorithmes de base, tels que AdaBoost (Adaptive Boosting), Gradient Boostin.

Boosting

Un poids est attribué à chaque observation \(w_i = \frac{1}{N}\)
Ce poids est modifié à chaque itération en \(w_i = \frac{1 + (\hat{y} - y)^4}{\sum{1 + (\hat{y} - y)^4}}\)