בצורה הפשוטה שלה
: זה הערך (הנקרא "ערך Q") של פעולה מסוימת action במצב state
S. הוא מייצג כמה טוב לבצע את הפעולה הזו במצב הזה.
: זה התגמול (reward) שהסוכן מקבל מיד אחרי שהוא עושה את הפעולהaction A במצב S state
עלמנת לקחת בחשבון את הסביבה ולתת חיזור לסיבבה נעשה חישוב של QMAX
: זה הערך הכי טוב שהסוכן יכול לקבל מהמצב הבא S′S', אחרי שהוא עשה פעולה AA במצב SS.
עבור על כל הפעעולות במהלך הבא אפשרי למעלה למטה לצד ימין וצד שמאל רק מהלך הבא ונותן את הערך הכי טוב מכולם – הגבוהה
: זה מקדם הנחה. הוא מספר לנו כמה חשוב לנו לחשוב על העתיד. אם γ\gamma קרוב ל-1, זה אומר שאנחנו נותנים הרבה חשיבות לתגמולים העתידיים. אם הוא קרוב ל-0, אנחנו מתמקדים בעיקר בתגמול המיידי.
Bellmen Equation
איפה שיש 1- לא מחשבים כי זה סיום משחק כך גם ל 1+ שזה ניצחון משחק
חישבנו את S5 ואנחנו רואים , שהסוכן ב מצב S5 יש לו 4 אפשריות ללכת , והכי טוב ללכת או S9 שמאלה לא ניתן.
חשב את S10
חשב את S11
חשב את S12