Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

--- ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2014/05/12 18:34]
stefanborn [Zipf's law und erste Plots]
+++ ss14:list_comprehension_sortieren_pyplot_sitzung_vom_8._mai [2016/05/10 14:46] (aktuell)
@@ Zeile 1: / Zeile 1: @@
-===== Sitzung vom 8. Mai =====
+===== List Comprehensions, Sortieren, pyplot, Zipf's law =====
 Aus dem Programm, das ein "Wörterbuch" der Worthäufigkeiten in einem Text
@@ Zeile 20: / Zeile 20: @@
 eine neue Liste ''neueliste'' erzeugen:
-<code python>  neueliste=[ f(x) for x in l] </code>
+<code python>  neueliste=[ f(x) for x in liste] </code>
 wobei ''f(x)'' für irgendeinen Ausdruck steht, in dem
@@ Zeile 60: / Zeile 60: @@
 Dies bedeutet dass zwischen ''log f'' und ''log r'' eine lineare Beziehung
 mit negativer Steigung besteht.  Um das (qualitativ) zu überprüfen ist
-ein Plot nützlich. Ist ''x'' eine Liste von x-Werten und
+ein Plot nützlich. Ist ''x'' eine Liste von x-Werten und ''y'' eine Liste
+von gleich vielen y-Werten so lässt sich mit dem Modul matplotlib leicht
+ein Plot erstellen:
+<code python>
+from matplotlib import pyplot as plt
+plt.plot(x,y)
+plt.show()
+</code>
+Es wird an anderer Stelle noch mehr zum Plotten geben...
+Als Beispiele Winnetou1, Die Buddenbrooks und Shakespeare's complete works
+(hier wurde der natürliche Logarithmus verwendet):
+{{:ss14:zipf-winnetou.png?200|Winnetou 1}}
+{{:ss14:zipf-buddenbrooks.png?200|Die Buddenbrooks}}
+{{:ss14:zipf-Shakespeare.png?200|Shakespeare's complete works}}
+Man sieht, dass bei diesen Graphen die lineare Abhängigkeit für die
+allerhäufigsten Wörter verletzt ist. Ca. ab dem 20.-häufigsten Wort lässt
+sich der Graph allerdings gut durch eine Gerade beschreiben.
+(Ich nehme an, dass Henrikas Vermutung zutrifft,
+dass Eigennamen eine Sonderrolle spielen.  Wenn man aber ein
+ganzes Textkorpus verschiedener Autoren einer Sprache nimmt, wird
+die Beziehung sehr gut erfüllt.)
+p.s.
+   - Fürs Polnische hat Ilona den folgenden [[http://www.ipipan.waw.pl/~ldebowsk/docs/seminaria/zipf1.pdf|Link]] (S. 15) gefunden.
+   - Es liegt nahe, die Untersuchung quantitativ zu machen, d.h. die optimalen Konstanten  \( c\) und \( s\) im Zipf'schen Gesetz zu finden und nach Sprachen und Textsorten zu unterscheiden.
+   - Ich habe mehrere ganz verschiedene Erklärungsversuche für das Phänomen gefunden. Ein relativ neuer und interessanter findet sich [[http://www.pnas.org/content/100/3/788.full|hier]].

Mathesis Wiki

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Unterschiede

Seiten-Werkzeuge