Benutzer-Werkzeuge

Webseiten-Werkzeuge


ss19:laborbuch

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ss19:laborbuch [2019/06/27 14:56]
anja00
ss19:laborbuch [2019/07/01 13:39] (aktuell)
anja00
Zeile 99: Zeile 99:
   * diese ergeben dann:   * diese ergeben dann:
     * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2.     * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2.
-    * anzahl verschiedener Wörter * ||| **idf** = log(3./4.)+    * anzahl verschiedener Wörter * ||| **idf** = ln(3./4.)
  
   * tfidf-Wert = tf*idf   * tfidf-Wert = tf*idf
Zeile 129: Zeile 129:
 **27.06.2019** **27.06.2019**
 Jojo, Anja, Leon Jojo, Anja, Leon
 +
 +
 +Stemmer: zu jedem Wort den "​Wortstamm"​ finden Bsp: kategorisch zu kategor, für Deutsch Snowball http://​snowball.tartarus.org/​algorithms/​german/​stemmer.html
 +
 +Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://​github.com/​WZBSocialScienceCenter/​germalemma
 +
 +-> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt
  
  
ss19/laborbuch.1561640213.txt.gz · Zuletzt geändert: 2019/06/27 14:56 von anja00