Aller au contenu

Text mining

Les méthodes de text mining permettent d'étudier des textes en les projectant dans un espace vectoriel. Cela permet de connaitre la proximité entre les textes et peut servir notamment à :

  • Identifer des auteurs.

Corpus ensemble de textes.

Termes communs mots utilisé un corpus (ensemble de document) spécifique à un document

Projet

  1. Eliminer les termes communs (le, la, pour, si).

Indicateurs

Inverse Document Frequency (IDF) \(\log \frac{N}{n}\)

Avec :

  • \(n\) nbre de documents où le terme apparait.
  • \(N\) nbre de documents.