Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

--- some:05.12.2019 [2020/03/27 13:48]
benbaute angelegt
+++ some:05.12.2019 [2020/03/27 16:49] (aktuell)
benbaute
@@ Zeile 1: / Zeile 1: @@
 ===Protokoll===
-Anfangs infomierten wir uns noch in Bezug zu „Reinforcement Learning“ und einigten uns recht schnell darauf den Gegner mit Q-Learning zu entwickeln. Daraufhin haben wir uns mit der Methode intensiver beschäftigt und auch schon einen ersten Plan mithilfe des Buches von Richard S. Sutton „Reinforcement Learning An Introduction second edition“ (http://www.incompleteideas.net/book/RLbook2018trimmed.pdf)für den Spieler vom Tic-Tac-Toe-Spiel aufgestellt. Reinforcemts Learning funktioniert indem ein „Agent“ auf seine Umgebung reagiert und für seine Handlung belohnt oder bestraft wird. Er handelt entweder zufällig oder in dem Interesse eine Aktion durchzuführen, welche die größte Belohnung gibt. Beide Handlungsmöglichkeiten sind wichtig, da der Agent auch durch schlechte Aktionen dazulernt. Um den Computer dazu zu bringen so zu lernen, werden wir es mit der q-Formel versuchen, welche anhand seiner Aktionen die Bewertung für die Aktionen, die anfangs noch sehr ungenau sind, spezialisiert. In den nächsten Stunden werden wir uns dann damit beschäftigen wie man das auch in die Tat umsetzen kann.
+Heute haben wir uns weiter mit den theoretischen Gegenbenheiten von künstlicher Intelligenz im Bezug auf unser Spiel beschäftigt. Dabei haben wir uns vor allem über „Reinforcement Learning“ informiert und einigten uns recht schnell darauf den Gegner mit Q-Learning zu entwickeln. Daraufhin haben wir uns mit der Methode intensiver beschäftigt und auch schon einen ersten Plan mithilfe des Buches von Richard S. Sutton „Reinforcement Learning An Introduction second edition“ (http://www.incompleteideas.net/book/RLbook2018trimmed.pdf)für den Spieler vom Tic-Tac-Toe-Spiel aufgestellt. Reinforcemts Learning funktioniert indem ein „Agent“ auf seine Umgebung reagiert und für seine Handlung belohnt oder bestraft wird. Er handelt entweder zufällig oder in dem Interesse eine Aktion durchzuführen, welche die größte Belohnung gibt. Beide Handlungsmöglichkeiten sind wichtig, da der Agent auch durch schlechte Aktionen dazulernt. Um den Computer dazu zu bringen so zu lernen, werden wir es mit der q-Formel versuchen, welche anhand seiner Aktionen die Bewertung für die Aktionen, die anfangs noch sehr ungenau sind, spezialisiert. In den nächsten Stunden werden wir uns dann damit beschäftigen wie man das auch in die Tat umsetzen kann.
-Protokoll für den 19.12.2019
-Eine Woche vor Weihnachten haben wir nun einen selbstlernendem Gegner, den wir im Internet gefunden haben (https://github.com/agrawal-rohit/playing-games-with-python/blob/master/Tic%20Tac%20Toe/training_(AIvsAI)_ReinforcementLearning.py), versucht in Bens TikTakToe Spiel einzubauen. Außerdem haben wir schon angefangen den Computer aus dem Internet zu analysieren und auf ein „vier gewinnt“ Spiel zu übertragen. Für die nächsten Wochen haben wir uns vorgenommen, zum einen ein „vier gewinnt“ Spiel mit der Turtle zu schreiben, dass sich ähnlich wie Bens TicTacToe-Spiel verhält und zum anderen den Computeer weiter zu analysieren und anfangen ein AI für ein „vier gewinnt“ zu schreiben. Bens TicTacToe-Spiel:
+Vorheriger Termin: [[some:28.11.2019]]\\ Nächster Termin: [[some:19.12.2019]]

Mathesis Wiki

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Unterschiede

Seiten-Werkzeuge