פיתוח בינה מלאכותית עצמאית : –
המטרה שהשחן ימנע מכל המכשולים וידע להגיע למטרה
האלגוריתם של למידת המכונה למצוא את הדרך היעליה ולא ליפול לבורות
S התחלה
H חור המשחק ניגמר
F מקום ללכת אליו קפוא
G מטרה
בכל STATE – יש לנו אפשרות למספר 4 מצבים לבחור
המצבים הבאים נקראים סיום אפיסוד terminal episode
actions פעולות לכל אחד יש מספר
action space כל הפעולות
בדוגמא שלנו יש התסברות שאני ילך למשבצת למעלה ויחבר בפעול F למעלה
ויש גם את ההסתברות שניחבר דווקא במהלך
REWARD
Reinforcement RB25-02 Q-Learning
Python Reinforcement Learning Tutorial
Python Reinforcement Learning – ATARI