Text Mining in R
Ich fasse hier mal zusammen, was ich so in letzter Zeit über Text Mining in R herausgefunden habe. Ich habe vorher noch nie etwas mit R gemacht, muss aber sagen, dass die ersten Eindrücke sehr gut sind: Ich habe die Vergleichsmöglichkeiten zu Stata und SPSS, weil ich mit beiden schon ein bisschen gearbeitet habe, und finde R von der Bedienung her (Stata ist hier auch sehr gut) wirklich top (dazu muss ich sagen, dass ich schon auch ein großer CLI-Fan insgesamt bin..), die Syntax ist relativ intuitiv, aber doch viel besser als v.a. bei SPSS, außer wohl wenn man nur SPSS macht, die Dokumentation sieht sehr umfangreich und gut zugänglich aus und es ist OSS.
Zur grundsätzlichen Einführung empfehlen sich diese Artikel auf der r-project-Seite; für Umsteiger: Quick-R. Daneben habe ich insbesondere noch diese Seiten gefunden, die mich weiter gebracht haben:
- Luis Torgos Seite, auf der es zwar eher um Data Mining geht, aber er hat ein Buch darüber geschrieben und er hat dankenswerterweise alle in diesem Buch verwendeten Quellen auf seiner Seite veröffentlicht (vielleicht folgt das Buch ja noch).
- Die Seite zum tm Paket von Ingo Feinerer: Die wohl wichtigste Ressource mit einem Paper, dass die Motivation hinter dem Design, das Design selbst und die Benutzung des tm Pakets für R beschreibt, und einem (alten) Version des Quelltextes von tm.
- Ein weiterer Artikel von Ingo Feinerer, der als Einführung in tm gedacht ist.
Alles in allem bin ich nun immerhin soweit, dass ich weiß:
install.package("tm")
Und dann:
library(tm) txtDir <- system.file("texts", "c:\some\data\", package = "tm") (txts <- Corpus(DirSource(txtDir), readerControl = list(language = "en")) (dtm <- DocumentTermMatrix(txts)) (dict <- Dictionary(c("word", "test", "more"))) (inspect(DocumentTermMatrix(analystTxts, list(dictionary = d)))
Installiert mir tm und lädt Texte aus einem Ordner, erzeugt eine Document Term Matrix daraus, erzeugt eine Häufigkeitsauszählung für eine Gruppe von Wörtern. Sehr nett!
Ein bisschen hab ich mir damit noch beschäftigt.
0 Kommentare zu „Text Mining in R“