Text mining
Les méthodes de text mining permettent d'étudier des textes en les projectant dans un espace vectoriel. Cela permet de connaitre la proximité entre les textes et peut servir notamment à :
- Identifer des auteurs.
Corpus ensemble de textes.
Termes communs mots utilisé un corpus (ensemble de document) spécifique à un document
Projet
- Eliminer les termes communs (le, la, pour, si).
Indicateurs
Inverse Document Frequency (IDF) \(\log \frac{N}{n}\)
Avec :
- \(n\) nbre de documents où le terme apparait.
- \(N\) nbre de documents.