Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
ss19:laborbuch [2019/07/01 12:51] anja00 |
ss19:laborbuch [2019/07/01 13:39] (aktuell) anja00 |
||
---|---|---|---|
Zeile 99: | Zeile 99: | ||
* diese ergeben dann: | * diese ergeben dann: | ||
* anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | ||
- | * anzahl verschiedener Wörter * ||| **idf** = log(3./4.) | + | * anzahl verschiedener Wörter * ||| **idf** = ln(3./4.) |
* tfidf-Wert = tf*idf | * tfidf-Wert = tf*idf | ||
Zeile 135: | Zeile 135: | ||
Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://github.com/WZBSocialScienceCenter/germalemma | Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://github.com/WZBSocialScienceCenter/germalemma | ||
- | --> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt | + | -> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt |