בינה מלאכותית עצמאית : RB25-03 Q-Learning

אז מה זה המודל reinforcement learning

זה מודל שהסוכן לומד דרך ניסוי ותיהיה – הבינה המלאכותית (הרובוט)

או למשל עכבר במבוך נקרא סוכן

הלימוד נעשה דרך ניסוי ותוצאה בתוך סביבה

ולכן נקבל מושגים הבאים :

סוכן : רובוט

פעולה ACTION : הולך קדימה אחורה קופץ

מצב : מקבל פרס , קנס או כלום

תוצאה : אם הצליח נקודה , נכשל חוסר להתחלה לנסות שוב

סביבה : מבוך

בעצם הבינה המלאכותית רוצה תמיד לזכות במכה שיותר נקודת תוך מינימום פעולות

מקסימים נקודות במינימום פעלות

OPEN WORD הוא עולם וירטאולי שלומד בעולם וירטואלי

המטרה להצליח לשמור על העמוד על ידי דחיפה של כוח מימין או משמאל

יש 4 STATES

מיקום בציר ה X : מינוס 4.8 עד מינוס 4.8

…………………………………………………………………………………………….

מהירות בציר ה X : אין סוף לאין סוף …………………………………………………………………………………………….

זוית המוט : מינוס 24 מעלות עד 24 מעלות …………………………………………………………………………………………….

ומהירות זויתית : מינוס אין סוף , לאין סוף …………………………………………………………………………………………….

סיום ה אפיסודה EPISODE

בכל פעם שהוא מסיים STEP +1 והוא נספר – 500 צעדים זה נפלא

יש להיות מחובר כדי לפרסם תגובה.