Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2014/05/12 20:20] stefanborn [Zipf's law und erste Plots] |
ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2016/05/10 14:46] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | ===== Sitzung vom 8. Mai ===== | + | ===== List Comprehensions, Sortieren, pyplot, Zipf's law ===== |
Aus dem Programm, das ein "Wörterbuch" der Worthäufigkeiten in einem Text | Aus dem Programm, das ein "Wörterbuch" der Worthäufigkeiten in einem Text | ||
Zeile 20: | Zeile 20: | ||
eine neue Liste ''neueliste'' erzeugen: | eine neue Liste ''neueliste'' erzeugen: | ||
- | <code python> neueliste=[ f(x) for x in l] </code> | + | <code python> neueliste=[ f(x) for x in liste] </code> |
wobei ''f(x)'' für irgendeinen Ausdruck steht, in dem | wobei ''f(x)'' für irgendeinen Ausdruck steht, in dem | ||
Zeile 70: | Zeile 70: | ||
plt.show() | plt.show() | ||
</code> | </code> | ||
- | |||
Es wird an anderer Stelle noch mehr zum Plotten geben... | Es wird an anderer Stelle noch mehr zum Plotten geben... | ||
- | Als Beispiele Winnetou1, Die Buddenbrooks und Shakespeare's complete works: | + | |
+ | Als Beispiele Winnetou1, Die Buddenbrooks und Shakespeare's complete works | ||
+ | (hier wurde der natürliche Logarithmus verwendet): | ||
{{:ss14:zipf-winnetou.png?200|Winnetou 1}} | {{:ss14:zipf-winnetou.png?200|Winnetou 1}} | ||
Zeile 79: | Zeile 80: | ||
{{:ss14:zipf-Shakespeare.png?200|Shakespeare's complete works}} | {{:ss14:zipf-Shakespeare.png?200|Shakespeare's complete works}} | ||
- | Man sieht, dass bei diesen Graphen die lineare Abhänigkeit für die | + | Man sieht, dass bei diesen Graphen die lineare Abhängigkeit für die |
- | allerhäufigsten Wörter verletzt ist. Ich nehme an, dass Henrikas Vermutung zutrifft, | + | allerhäufigsten Wörter verletzt ist. Ca. ab dem 20.-häufigsten Wort lässt |
+ | sich der Graph allerdings gut durch eine Gerade beschreiben. | ||
+ | (Ich nehme an, dass Henrikas Vermutung zutrifft, | ||
dass Eigennamen eine Sonderrolle spielen. Wenn man aber ein | dass Eigennamen eine Sonderrolle spielen. Wenn man aber ein | ||
ganzes Textkorpus verschiedener Autoren einer Sprache nimmt, wird | ganzes Textkorpus verschiedener Autoren einer Sprache nimmt, wird | ||
- | die Beziehung sehr gut erfüllt. | + | die Beziehung sehr gut erfüllt.) |
+ | |||
+ | p.s. | ||
+ | - Fürs Polnische hat Ilona den folgenden [[http://www.ipipan.waw.pl/~ldebowsk/docs/seminaria/zipf1.pdf|Link]] (S. 15) gefunden. | ||
+ | - Es liegt nahe, die Untersuchung quantitativ zu machen, d.h. die optimalen Konstanten \( c\) und \( s\) im Zipf'schen Gesetz zu finden und nach Sprachen und Textsorten zu unterscheiden. | ||
+ | - Ich habe mehrere ganz verschiedene Erklärungsversuche für das Phänomen gefunden. Ein relativ neuer und interessanter findet sich [[http://www.pnas.org/content/100/3/788.full|hier]]. |