Aller au contenu

Indicateurs et fonctions de coût

Les indicateurs servent comme :

  • des indicateurs pour comparer les modèles.
  • des fonctions coûts à minimiser pour ajuster le modèle.

Entropie

Nombre de "questions" de type oui/non nécessaire pour connaitre la réponse. Chaque question porte sur une des modalités de la variable à prédire.

\(2^{bits} = N \Leftrightarrow bits = \log _2 (N) \Leftrightarrow bits = - \log _2 (\frac{1}{N})\).

Plus petite quantité d'information nécessaire pour lever l'incertitude. Elle est maximale lorsque les possibilités sont équiprobables.

Entropie de Shannon : \(H(P) = -\sum_i p_i \log _2 (p_i)\)

avec \(P\) le nœud.

Critère de Gini

Le critère de Gini est un indice qui mesure l’impureté.

Critère de GINI \(G(P) = 1 - \sum^{K}{p_k \cdot (1 - p_k)}\) avec :

  • \(K\) le nombre de modalité.
  • \(p_k\) la proportion d'observation de la classe \(k\).

Il est \(G \in [0;0.5]\) et égal à 0 si tous les individus sont de la même classe et égale à 0.5 si les observations sont réparties de façon équiprobable.

Indicateurs

Pred quanti Pred quali Critère de mesure de l'erreur Formule
_ X Entropie croisée pour les catégories \(- \sum y \cdot \log(p) + (1−y) \cdot \log (1−p)\)
X _ Erreur quadratique moyenne (MSE) \(E[(y_i - \hat{y}_i)^2]\)
X _ Racine carré de l'erreur moyenne (RMSE) \(\sqrt{E[(y_i - \hat{y}_i)^2]}\)
X _ Erreur absolue moyenne (MAE) \(E[ \vert{y_i - \hat{y}_i} ]\)
### Qualitatif
Indicateur Définition Formule
binary_accuracy Calculates how often predictions match binary labels.
binary_crossentropy the binary crossentropy loss.
binary_focal_crossentropy the binary focal crossentropy loss.
categorical_accuracy Calculates how often predictions match one-hot labels.

deserialize | Deserializes a serialized metric class/function instance. get | Retrieves a Keras metric as a function/Metric class instance. logcosh | Logarithm of the hyperbolic cosine of the prediction error. mae | the mean absolute error between labels and predictions. MSE | the mean squared error between labels | mean_absolute_error | the mean absolute error between labels and predictions. mean_squared_error | the mean squared error between labels and predictions. serialize | Serializes metric function or Metric instance. sparse_categorical_accuracy | Calculates how often predictions match integer labels. sparse_categorical_crossentropy | the sparse categorical crossentropy loss. sparse_top_k_categorical_accuracy | how often integer targets are in the top K predictions. top_k_categorical_accuracy | how often targets are in the top K predictions

Quantitatifs

Indicateur Définition
KLD Kullback-Leibler divergence loss between y_true and y_pred.
MAE the mean absolute error between labels and predictions.
MAPE the mean absolute percentage error between y_true and y_pred.
MSLE the mean squared logarithmic error between y_true and y_pred.
kl_divergence Kullback-Leibler divergence loss between y_true and y_pred.
kld Kullback-Leibler divergence loss between y_true and y_pred.
kullback_leibler_divergence Kullback-Leibler divergence loss between y_true and y_pred.and predictions.
hinge the hinge loss between y_true and y_pred.
mape the mean absolute percentage error between y_true and y_pred.
mean_absolute_percentage_error the mean absolute percentage error between y_true and y_pred.
mean_squared_logarithmic_error the mean squared logarithmic error between y_true and y_pred.
msle the mean squared logarithmic error between y_true and y_pred.
poisson the Poisson loss between y_true and y_pred.
squared_hinge the squared hinge loss between y_true and y_pred.
## Critères

Liste de paramètres à minimiser :

  • AIC : \(-2 \cdot L + 2 \cdot p\)
  • BIC (pénalise plus le nombre de paramètre que l'AIC) : \(-2 \cdot L + p \cdot \log n\)

Avec :

  • \(p\) le nombre de paramètres du modèles.
  • \(n\) le nombre d'observations.
  • \(L\) le log de vraissemblance.