אז מה זה המודל reinforcement learning
זה מודל שהסוכן לומד דרך ניסוי ותיהיה – הבינה המלאכותית (הרובוט)
או למשל עכבר במבוך נקרא סוכן
הלימוד נעשה דרך ניסוי ותוצאה בתוך סביבה
ולכן נקבל מושגים הבאים :
סוכן : רובוט
פעולה ACTION : הולך קדימה אחורה קופץ
מצב : מקבל פרס , קנס או כלום
תוצאה : אם הצליח נקודה , נכשל חוסר להתחלה לנסות שוב
סביבה : מבוך
בעצם הבינה המלאכותית רוצה תמיד לזכות במכה שיותר נקודת תוך מינימום פעולות
מקסימים נקודות במינימום פעלות
OPEN WORD הוא עולם וירטאולי שלומד בעולם וירטואלי
![]()
![]()

![]()
המטרה להצליח לשמור על העמוד על ידי דחיפה של כוח מימין או משמאל
יש 4 STATES
מיקום בציר ה X : מינוס 4.8 עד מינוס 4.8
…………………………………………………………………………………………….
מהירות בציר ה X : אין סוף לאין סוף …………………………………………………………………………………………….
זוית המוט : מינוס 24 מעלות עד 24 מעלות …………………………………………………………………………………………….
ומהירות זויתית : מינוס אין סוף , לאין סוף …………………………………………………………………………………………….
סיום ה אפיסודה EPISODE

בכל פעם שהוא מסיים STEP +1 והוא נספר – 500 צעדים זה נפלא
