Préparer les données
model.matrix(var1)
dichotomiser un data (tableau disjonctif).na.exclude(data)
supprimer les lignes avec au moins une valeur manquante.scale(fromage, center = T, scale = T)
centrer et réduire les données.
Validation croisé
library(rsample)
split <- initial_split(dataset, 0.8)
dt_train <- training(split)
dt_test <- testing(split)
Collération et colinéarité
library(caret)
nearZeroVar(mdrrDescr, saveMetrics= TRUE)
afficher les colonnes avec une variance nulle.findCorrelation(data)
afficher les groupes de variables corrélées.findLinearCombos(data)
afficher les combinaisons linéaires.
Discrétiser
-
discretize(var, categories = nbre groupe, label = )
discrétiser une variable (package :arules
).method = "frequency"
méthode.categories = nbre
nombre de classes.
-
cut2(var, breaks, minmax=T)
découper en classe en fonction du verteur borne(val1;[
(package Hmisc). -
smbinning(df = data, y = "var", x = "var_quanti")
discrétiser de facon optimale les varibles du data pour un score. (library(smbinning)
); y doit être de type integer.$cuts
bornes.