בינה מלאכותית RL משוואת בלמאן – bellman rb24-01

מחבר:admin
פורסם:אוגוסט 31, 2024
קטגוריה:רובוטרוניקס כללי
תגובות:אין תגובות

בצורה הפשוטה שלה

$Q (S, A)$ : זה הערך (הנקרא "ערך Q") של פעולה מסוימת action $A$ במצב state . הוא מייצג כמה טוב לבצע את הפעולה הזו במצב הזה.

$R (S, A)$ : זה התגמול (reward) שהסוכן מקבל מיד אחרי שהוא עושה את הפעולהaction במצב

עלמנת לקחת בחשבון את הסביבה ולתת חיזור לסיבבה נעשה חישוב של QMAX

$max_{a} Q (S^{'}, a)$ : זה הערך הכי טוב שהסוכן יכול לקבל מהמצב הבא $S^{'}$ , אחרי שהוא עשה פעולה $A$ במצב $S$ .

עבור על כל הפעעולות במהלך הבא אפשרי למעלה למטה לצד ימין וצד שמאל רק מהלך הבא ונותן את הערך הכי טוב מכולם – הגבוהה

$γ$ : זה מקדם הנחה. הוא מספר לנו כמה חשוב לנו לחשוב על העתיד. אם $γ\gamma$ קרוב ל-1, זה אומר שאנחנו נותנים הרבה חשיבות לתגמולים העתידיים. אם הוא קרוב ל-0, אנחנו מתמקדים בעיקר בתגמול המיידי.