Définition :
Le text mining désigne toutes les techniques permettant d'extraire automatiquement des informations, des structures et des corrélations d'un corpus de données textuelles. Cela permet le traitement et l'analyse de textes, y compris en grande quantité.
Application :
Le text mining constitue un domaine de recherche à part entière, auquel s'intéressent aussi bien des instituts universitaires que des entreprises informatiques, par exemple dans le domaine de la linguistique informatique. Bien que les outils de text mining se soient multipliés ces dernières années, la plupart d'entre eux nécessitent beaucoup d'efforts et de compétences techniques pour pouvoir être utilisés.
Il existe toutefois quelques outils simples qui permettent de télécharger directement en ligne ses propres textes ou des fichiers entiers. Ils offrent notamment la possibilité d'avoir une vue d'ensemble d'un texte ou d'en extraire les mots-clés.
Recommandations d'outils en libre accès et faciles à utiliser :
- Voyant est un environnement de lecture et d'analyse de textes numériques en open source basé sur le web. Cet outil permet d'analyser un texte, notamment en fonction de la fréquence d'apparition des mots, et de le visualiser de différentes manières. Voyant dispose d'une liste de stop-words en différentes langues.
- NelSenso propose une série d'outils d'analyse de texte, dont IRezer, qui permet d'extraire automatiquement des mots-clés, Summazer, qui génère un résumé de texte, et Clustezer, qui peut classer des phrases ou des chaînes de texte. Les outils sont disponibles en plusieurs langues.
- ANNIS (ANNotation of Information Structure) est un outil open source basé sur le web pour l'analyse et la visualisation de corpus linguistiques complexes avec différents types d'annotations. Il offre également une aide au traitement des sources audio-visuelles.
- Google Ngram Viewer est un moteur de recherche sémantique en ligne qui permet de visualiser les mots qui apparaissent dans le corpus de Google Books. Google Ngram Viewer n'analyse pas les textes eux-mêmes, mais permet d'afficher la fréquence d'occurence d'un ou de plusieurs termes sur une période donnée au sein du corpus de livres scannés par Google.
Les Word Clouds sont des formes simples de text mining, qui permettent de mettre en évidence visuellement les mots-clés d'un texte. Les outils suivants peuvent être recommandés :
- Nuagesdemots est un outil gratuit basé sur le web qui fonctionne sans inscription. Il est possible de copier ses propres textes dans le générateur ou de uploader et d'analyser des fichiers. Les nuages de mots ainsi créés peuvent être modifiés en termes de couleur, de police et de mise en page. Wortwolken est utilisable dans différentes langues, dont le Français et l'Allemand.
- TagCrowd crée des nuages de mots à partir de pages web, de textes ou de fichiers. La fréquence des mots utilisés peut être affichée et certains mots peuvent être exclus, mais les possibilités de mise en page sont limitées. L'outil en ligne fonctionne gratuitement et sans inscription. Il est disponible en plusieurs langues.
Liens pour aller plus loin :
Une «List of text mining software» est disponible sur Wikipedia, y compris de nombreuses offres open source.
Les tutoriels sur les différentes possibilités de text mining, proposés en plusieurs langues sur The Programming Historian, sont également utiles.