פיתוח בינה מלאכותית עצמאית : –
המטרה שהשחן ימנע מכל המכשולים וידע להגיע למטרה


האלגוריתם של למידת המכונה למצוא את הדרך היעליה ולא ליפול לבורות

S התחלה
H חור המשחק ניגמר
F מקום ללכת אליו קפוא
G מטרה
בכל STATE – יש לנו אפשרות למספר 4 מצבים לבחור

המצבים הבאים נקראים סיום אפיסוד terminal episode

actions פעולות לכל אחד יש מספר

action space כל הפעולות
בדוגמא שלנו יש התסברות שאני ילך למשבצת למעלה ויחבר בפעול F למעלה

ויש גם את ההסתברות שניחבר דווקא במהלך

REWARD
Reinforcement RB25-02 Q-Learning
Python Reinforcement Learning Tutorial
Python Reinforcement Learning – ATARI