אז מה זה המודל reinforcement learning
זה מודל שהסוכן לומד דרך ניסוי ותיהיה – הבינה המלאכותית (הרובוט)
או למשל עכבר במבוך נקרא סוכן
הלימוד נעשה דרך ניסוי ותוצאה בתוך סביבה
ולכן נקבל מושגים הבאים :
סוכן : רובוט
פעולה ACTION : הולך קדימה אחורה קופץ
מצב : מקבל פרס , קנס או כלום
תוצאה : אם הצליח נקודה , נכשל חוסר להתחלה לנסות שוב
סביבה : מבוך
בעצם הבינה המלאכותית רוצה תמיד לזכות במכה שיותר נקודת תוך מינימום פעולות
מקסימים נקודות במינימום פעלות
OPEN WORD הוא עולם וירטאולי שלומד בעולם וירטואלי
המטרה להצליח לשמור על העמוד על ידי דחיפה של כוח מימין או משמאל
יש 4 STATES
מיקום בציר ה X : מינוס 4.8 עד מינוס 4.8
…………………………………………………………………………………………….
מהירות בציר ה X : אין סוף לאין סוף …………………………………………………………………………………………….
זוית המוט : מינוס 24 מעלות עד 24 מעלות …………………………………………………………………………………………….
ומהירות זויתית : מינוס אין סוף , לאין סוף …………………………………………………………………………………………….
סיום ה אפיסודה EPISODE
בכל פעם שהוא מסיים STEP +1 והוא נספר – 500 צעדים זה נפלא