Benutzer-Werkzeuge

Webseiten-Werkzeuge


ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2014/05/12 18:47]
stefanborn [Zipf's law und erste Plots]
ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2016/05/10 14:46] (aktuell)
Zeile 1: Zeile 1:
-===== Sitzung vom 8. Mai =====+===== List Comprehensions,​ Sortieren, pyplot, Zipf's law =====
  
 Aus dem Programm, das ein "​Wörterbuch"​ der Worthäufigkeiten in einem Text  Aus dem Programm, das ein "​Wörterbuch"​ der Worthäufigkeiten in einem Text 
Zeile 20: Zeile 20:
 eine neue Liste ''​neueliste''​ erzeugen: eine neue Liste ''​neueliste''​ erzeugen:
  
-<code python> ​ neueliste=[ f(x) for x in l] </​code>​+<code python> ​ neueliste=[ f(x) for x in liste] </​code>​
  
 wobei ''​f(x)''​ für irgendeinen Ausdruck steht, in dem wobei ''​f(x)''​ für irgendeinen Ausdruck steht, in dem
Zeile 70: Zeile 70:
 plt.show() plt.show()
 </​code>​ </​code>​
- 
 Es wird an anderer Stelle noch mehr zum Plotten geben... Es wird an anderer Stelle noch mehr zum Plotten geben...
  
  
 +Als Beispiele Winnetou1, Die Buddenbrooks und Shakespeare'​s complete works
 +(hier wurde der natürliche Logarithmus verwendet):
 +
 +{{:​ss14:​zipf-winnetou.png?​200|Winnetou 1}}
 +{{:​ss14:​zipf-buddenbrooks.png?​200|Die Buddenbrooks}}
 +{{:​ss14:​zipf-Shakespeare.png?​200|Shakespeare'​s complete works}}
 +
 +Man sieht, dass bei diesen Graphen die lineare Abhängigkeit für die
 +allerhäufigsten Wörter verletzt ist. Ca. ab dem 20.-häufigsten Wort lässt
 +sich der Graph allerdings gut durch eine Gerade beschreiben.
 +(Ich nehme an, dass Henrikas Vermutung zutrifft,
 +dass Eigennamen eine Sonderrolle spielen. ​ Wenn man aber ein
 +ganzes Textkorpus verschiedener Autoren einer Sprache nimmt, wird
 +die Beziehung sehr gut erfüllt.)
 +
 +p.s. 
 +
 +   - Fürs Polnische hat Ilona den folgenden [[http://​www.ipipan.waw.pl/​~ldebowsk/​docs/​seminaria/​zipf1.pdf|Link]] (S. 15) gefunden.
 +   - Es liegt nahe, die Untersuchung quantitativ zu machen, d.h. die optimalen Konstanten ​ \( c\) und \( s\) im Zipf'​schen Gesetz zu finden und nach Sprachen und Textsorten zu unterscheiden. ​
 +   - Ich habe mehrere ganz verschiedene Erklärungsversuche für das Phänomen gefunden. Ein relativ neuer und interessanter findet sich [[http://​www.pnas.org/​content/​100/​3/​788.full|hier]].
ss14/list_comprehension_sortieren_pyplot_sitzung_vom_8._mai.1399913237.txt.gz · Zuletzt geändert: 2016/05/10 14:46 (Externe Bearbeitung)