Benutzer-Werkzeuge

Webseiten-Werkzeuge


ss19:laborbuch

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ss19:laborbuch [2019/07/01 12:51]
anja00
ss19:laborbuch [2019/07/01 13:39] (aktuell)
anja00
Zeile 99: Zeile 99:
   * diese ergeben dann:   * diese ergeben dann:
     * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2.     * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2.
-    * anzahl verschiedener Wörter * ||| **idf** = log(3./4.)+    * anzahl verschiedener Wörter * ||| **idf** = ln(3./4.)
  
   * tfidf-Wert = tf*idf   * tfidf-Wert = tf*idf
Zeile 135: Zeile 135:
 Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://​github.com/​WZBSocialScienceCenter/​germalemma Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://​github.com/​WZBSocialScienceCenter/​germalemma
  
---> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt+-> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt
  
  
ss19/laborbuch.1561978298.txt.gz · Zuletzt geändert: 2019/07/01 12:51 von anja00