Text Mining

Text Mining bezeichnet alle Techniken, durch die aus einem Korpus von Textdaten automatisiert Informationen, Muster und Zusammenhänge extrahiert werden können. Dies erlaubt eine effiziente Nutzung und Analyse von Textarchiven und grösseren Datenmengen.


Anwendung:

Text Mining stellt ein eigener Forschungsbereich dar, mit dem sich sowohl private IT-Unternehmen wie auch akademische Institute etwa aus der Computerlinguistik beschäftigen. Obwohl sich die Text-Mining-Tools in den letzten Jahren vervielfacht haben, erfordern die meisten viel Aufwand und technische Kompetenzen, um angewandt werden zu können.

Es gibt allerdings einige einfache Tools, auf denen direkt online eigene Texte oder ganze Dateien hochgeladen werden können. Sie bieten u.a. die Möglichkeit, den Überblick über einen Text zu gewinnen oder aus diesem die Schlüsselwörter zu entnehmen.

Bei den folgenden Empfehlungen handelt es sich um frei zugänglich, einfach anzuwendende Tools:

  • Voyant ist eine webbasierte Lese- und Analyseumgebung für digitale Texte in Open Source. Mit diesem Tool lässt sich ein Text u.a. nach der Häufigkeit der auftretenden Wörter analysieren und anschliessend in einer Word Cloud darstellen. Voyant verfügt über eine Stoppliste in verschiedenen Sprachen.
  • NelSenso bietet eine Reihe von Textanalysewerkzeugen, darunter IRezer, das die automatische Extraktion von Schlüsselwörtern ermöglicht, Summazer, das eine Textzusammenfassung generiert, und Clustezer, das Phrasen oder Textstrings klassifizieren kann. Die Angebote sind in verschiedenen Sprachen verfügbar.
  • ANNIS (ANNotation of Information Structure) ist ein webbasiertes Open Source-Tool für die Suche und Visualisierung von komplexen, mehrstufigen linguistischen Korpora mit verschiedenen Annotations-Typen. Es bietet auch Unterstützung für den Umgang mit audio-visuellen Quellen.
  • Google Ngram Viewer ist eine semantische Online-Suchmaschine, die eine graphische Visualisierung der erscheinenden Wörter im Google-Books-Korpus ermöglicht. Mit dem Google Ngram Viewer werden nicht eigene Texte analysiert, sondern es lässt sich anzeigen, wie häufig ein oder mehrere Begriffe in einer ausgewählten Zeitspanne in allen Büchern vorkommen, die von Google eingescannt wurden.


Auch Word Clouds sind einfache Formen des Text Mining, denn sie ermöglichen die visuelle Hervorhebung der Schlüsselwörter eines Texts. Empfehlenswert sind beispielsweise die folgenden Tools:

  • Wortwolken ist ein webbasiertes, kostenloses Word-Cloud-Tool, das ohne Registrierung funktioniert. Eigene Texte können in den Generator kopiert oder Dateien hochgeladen und bearbeitet werden. Die so erzeugten Word-Clouds lassen sich in Farbe, Schrifttyp und Layout verändern. Wortwolken ist in verschiedenen Sprachen anwendbar, etwas in Deutsch und Französisch.
  • TagCrowd erzeugt Word-Clouds aus Webseiten, Texten oder Dateien. Die Häufigkeit der verwendeten Wörter können angezeigt und einzelne Wörter ausgeschlossen werden, die Layout-Möglichkeiten sind allerdings beschränkt. Das webbasierte Tool funktioniert kostenlos und ohne Anmeldung und ist in verschiedenen Sprachen verfügbar.


Weiterführende Links:

Auf Wikipedia ist eine «List of text mining software» verfügbar, darunter auch viele Open-Source-Angebote.

Hilfreich sind zudem die Tutorials zu verschiedenen Text-Mining-Möglichkeiten, die in verschiedenen Sprachen auf Programming Historian angeboten werden.