Hier werden die Unterschiede zwischen zwei Versionen gezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung | |||
ws2021:wie_das_netz_lernt_erfahrt_ihr_hier [2021/04/06 19:37] annika_cibis |
ws2021:wie_das_netz_lernt_erfahrt_ihr_hier [2021/04/06 19:38] (aktuell) annika_cibis |
||
---|---|---|---|
Zeile 12: | Zeile 12: | ||
Für zweidimensionale Funktionen ist die Minimierung recht einfach: Man ermittle die Steigung durch ableiten und gehe einen kleinen Schritt in Richtung der negativen Steigung. Dies widerhole man, bis man näherungsweise bei einem Minima ankommt. | Für zweidimensionale Funktionen ist die Minimierung recht einfach: Man ermittle die Steigung durch ableiten und gehe einen kleinen Schritt in Richtung der negativen Steigung. Dies widerhole man, bis man näherungsweise bei einem Minima ankommt. | ||
Für mehr-dimensionale Funktionen ermittelt man die Steigung mithilfe des Gradienten. | Für mehr-dimensionale Funktionen ermittelt man die Steigung mithilfe des Gradienten. | ||
+ | [[https://shashank-ojha.github.io/ParallelGradientDescent/non-convex.png|Eine sehr hilfreiche Veranschaulichung findet ihr hier.]] | ||
Dies lässt sich auf unsere Netzwerk-Fehler-Funktion übertragen. Wir ermitteln also den Gradienten für unsere Funktion mit den aktuellen, zufälligen Gewichten und gehen dann einen kleinen Schritt entlang des Gradienten, verändern also unsere Gewichte etwas, sodass der Fehler kleiner wird. | Dies lässt sich auf unsere Netzwerk-Fehler-Funktion übertragen. Wir ermitteln also den Gradienten für unsere Funktion mit den aktuellen, zufälligen Gewichten und gehen dann einen kleinen Schritt entlang des Gradienten, verändern also unsere Gewichte etwas, sodass der Fehler kleiner wird. |