Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
ss19:laborbuch [2019/06/20 16:57] anja00 |
ss19:laborbuch [2019/07/01 13:39] (aktuell) anja00 |
||
---|---|---|---|
Zeile 82: | Zeile 82: | ||
<del>Klassen</del> Dictionary erstellen um nicht jedes Mal Texte aus der file-directory ziehen zu müssen. (Autoren und ihre Texte sind momentan extern (aka nicht in Python) gespeichert. D.h. um mit den Texten zu arbeiten müssen wir auf den Speicherort zu greifen. Und das ist anstrengend und kostet Rechenzeit und ist doof.) | <del>Klassen</del> Dictionary erstellen um nicht jedes Mal Texte aus der file-directory ziehen zu müssen. (Autoren und ihre Texte sind momentan extern (aka nicht in Python) gespeichert. D.h. um mit den Texten zu arbeiten müssen wir auf den Speicherort zu greifen. Und das ist anstrengend und kostet Rechenzeit und ist doof.) | ||
+ | ---- | ||
**20.06.2019** | **20.06.2019** | ||
Jojo, Leon, Anja | Jojo, Leon, Anja | ||
Zeile 98: | Zeile 99: | ||
* diese ergeben dann: | * diese ergeben dann: | ||
* anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | * anzahl-dokumente * anzahl-wörter-in-diesem-Dokument * ||| **tf** = 1./2. | ||
- | * anzahl verschiedener Wörter * ||| **idf** = log(3./4.) | + | * anzahl verschiedener Wörter * ||| **idf** = ln(3./4.) |
* tfidf-Wert = tf*idf | * tfidf-Wert = tf*idf | ||
Zeile 124: | Zeile 125: | ||
Wörterbuch, alle Autoren + dazugehörige Texte: Schnitt vs. Vereinigung (Schnitt: alle Wörter aus dieser Liste sind garantiert in jedem Text, aber seltenere Wörter fallen weg; Vereinigung: alle Wörter die in allen Texten auch nur einmal vorkommen --> Gewichtung häufigere Wörter, mittelhäufige Wörter, seltene Wörter? | Wörterbuch, alle Autoren + dazugehörige Texte: Schnitt vs. Vereinigung (Schnitt: alle Wörter aus dieser Liste sind garantiert in jedem Text, aber seltenere Wörter fallen weg; Vereinigung: alle Wörter die in allen Texten auch nur einmal vorkommen --> Gewichtung häufigere Wörter, mittelhäufige Wörter, seltene Wörter? | ||
+ | |||
+ | ---- | ||
+ | **27.06.2019** | ||
+ | Jojo, Anja, Leon | ||
+ | |||
+ | |||
+ | Stemmer: zu jedem Wort den "Wortstamm" finden Bsp: kategorisch zu kategor, für Deutsch Snowball http://snowball.tartarus.org/algorithms/german/stemmer.html | ||
+ | |||
+ | Lemmatizer: zu jedem Wort den Infinitiv finden Bsp: Kategorien zu Kategorie, für Deutsch germalemma https://github.com/WZBSocialScienceCenter/germalemma | ||
+ | |||
+ | -> kürzere Wortliste, aber signifikante Verwendung von Genitiv o.Ä. fällt weg, Stemmer u. Lemmatizer sind nicht perfekt | ||