Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
ss19:laborbuch [2019/06/27 14:56] anja00 |
ss19:laborbuch [2019/07/01 13:39] (aktuell) anja00 |
||
---|---|---|---|
Zeile 99: | Zeile 99: | ||
* diese ergeben dann: | * diese ergeben dann: | ||
* anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | ||
- | * anzahl verschiedener Wörter * ||| **idf** = log(3./4.) | + | * anzahl verschiedener Wörter * ||| **idf** = ln(3./4.) |
* tfidf-Wert = tf*idf | * tfidf-Wert = tf*idf | ||
Zeile 129: | Zeile 129: | ||
**27.06.2019** | **27.06.2019** | ||
Jojo, Anja, Leon | Jojo, Anja, Leon | ||
+ | |||
+ | |||
+ | Stemmer: zu jedem Wort den "Wortstamm" finden Bsp: kategorisch zu kategor, für Deutsch Snowball http://snowball.tartarus.org/algorithms/german/stemmer.html | ||
+ | |||
+ | Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://github.com/WZBSocialScienceCenter/germalemma | ||
+ | |||
+ | -> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt | ||