Text mining

Il text mining si riferisce a tutte le tecniche che possono essere utilizzate per estrarre automaticamente informazioni, strutture e correlazioni da un corpus di dati testuali. Ciò consente di utilizzare e analizzare testi anche in grandi quantità.


Applicazioni:

Il text mining è un campo di ricerca a sé stante che viene esplorato sia da da istituti accademici che da aziende informatiche private, ad esempio nel campo della linguistica computazionale. Sebbene gli strumenti di text mining si siano moltiplicati negli ultimi anni, la maggior parte di essi richiede un certo impegno e qualche competenze tecniche per essere utilizzati.

Tuttavia, esistono alcuni strumenti semplici che consentono agli utenti di caricare i propri testi o interi file direttamente online. Offrono, tra altre cose, la possibilità di avere una visione d'insieme di un testo o di estrarre parole chiave da esso.

Suggerimenti di strumenti liberamente accessibili e facili da usare:

  • Voyant è un ambiente di lettura e analisi dei testi digitali basato sul web e open source. Questo strumento può essere utilizzato per analizzare un testo in base alla frequenza delle parole che ricorrono e quindi visualizzarlo di diverse maniere. Voyant dispone di una lista di stop words in varie lingue.
  • NelSenso offre una serie di strumenti di analisi del testo, tra cui IRezer, che consente l'estrazione automatica di parole chiave, Summazer, che genera un riassunto del testo, e Clustezer, che può classificare frasi o stringhe di testo. I servizi sono disponibili in varie lingue.
  • ANNIS (ANNotation of Information Structure) è uno strumento open source in linea per la ricerca e la visualizzazione di corpora linguistici complessi con diversi tipi di annotazione. Offre anche un supporto per lavorare con fonti audiovisive.
  • Google Ngram Viewer è un motore di ricerca semantico che consente di visualizzare graficamente le parole che compaiono nel corpus di Google Books. Il Google Ngram Viewer non analizza i testi stessi, ma visualizza la frequenza con cui uno o più termini ricorrono in un periodo di tempo selezionato in tutti i libri scansionati da Google.


Anche le nuvole di parole sono forme semplici di text mining, in quanto consentono di evidenziare visivamente le parole chiave di un testo. Si consigliano, ad esempio, i seguenti strumenti:

  • Nuagesdemots è uno strumento gratuito basato sul web che funziona senza registrazione. È possibile copiare i propri testi nel generatore o caricare e analizzare dei file. Le nuvole di parole risultanti possono essere modificate nel colore, nel tipo di carattere e nel layout. Il programme può essere utilizzato in varie lingue, tra cui il tedesco e il francese.
  • TagCrowd crea nuvole di parole da siti web, testi o file. È possibile visualizzare la frequenza delle parole utilizzate ed escludere singole parole, anche se le opzioni di layout sono limitate. Lo strumento basato sul web funziona gratuitamente e senza registrazione ed è disponibile in varie lingue.


Ulteriori link:

Su Wikipedia è disponibile una «List of text mining software», che include molte proposte open source.

Sono utili anche i tutorial sulle varie opzioni di text mining, disponibili in diverse lingue su The Programming Historian.