בינה מלאכותית RL משוואת בלמאן – bellman rb24-01

בצורה הפשוטה  שלה

 

: זה הערך (הנקרא "ערך Q") של פעולה מסוימת  action במצב    state 
S
. הוא מייצג כמה טוב לבצע את הפעולה הזו במצב הזה.

: זה התגמול (reward) שהסוכן מקבל מיד אחרי שהוא עושה את הפעולהaction     במצב S  state

 

עלמנת לקחת בחשבון את הסביבה  ולתת חיזור לסיבבה  נעשה חישוב של QMAX

: זה הערך הכי טוב שהסוכן יכול לקבל מהמצב הבא S′S', אחרי שהוא עשה פעולה AA במצב SS.

עבור על כל הפעעולות במהלך הבא אפשרי למעלה למטה לצד ימין וצד שמאל רק מהלך הבא ונותן את הערך הכי טוב מכולם – הגבוהה

: זה מקדם הנחה. הוא מספר לנו כמה חשוב לנו לחשוב על העתיד. אם γ\gamma קרוב ל-1, זה אומר שאנחנו נותנים הרבה חשיבות לתגמולים העתידיים. אם הוא קרוב ל-0, אנחנו מתמקדים בעיקר בתגמול המיידי.

 

 

 

 

 


Bellmen Equation

איפה שיש 1-  לא מחשבים כי זה סיום משחק כך גם ל 1+ שזה ניצחון משחק

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 


חישבנו את S5 ואנחנו רואים , שהסוכן ב מצב S5 יש לו  4 אפשריות ללכת  , והכי טוב ללכת או S9 שמאלה לא ניתן.



חשב את S10

 


חשב את S11


חשב את S12

 

כתיבת תגובה