RB32 -01 מערכות בינה מלאוכתית ורובוטיקה – אבולציונות
הנושא שהכי חשוב להבאין זה את מטודת העל של מערכות עוברות אימון עצמאי וזה בלי תלות במנה שלהם
- בשלב הראושן המערכת מתחילה כמערכת אקראית וזה בתהליך אקספלולרר Exploration
- בשלב השני המערכת מתחילה ללמוד ואז היא עובדת ממצב ההקראי למצב לימוד Exploitation
הבנת השלב השני היא מאוד חשובה , המערכת כל הזמן אוגרת מידע וכל סיבוב למידה היא מוסיבה אותו לרשת ומריצה אימון לשרת
כלומר אם מאימון רשת רגילה האימון רץ בסוף אחרי אסיפת כל המידע , פה זה אחרת לגמרי כל פעם הסוכן עושה שלב ומתקבל ערך של פרס או עונש המערכת וזה נכנס לרשת ושוב עושה אימון .
ניראה למשל את ה Cart Pole דוגמא הכי בסיסית שיש
המטרה לאזן את המוט , עלידי הפעל כוח או לימין או לשמאל
אם מוט זז ימינה יש לדחוף את העגלה ימינה עד , אם המוט פונה שמאלה יש לדחוף את המוט שמאלה
למערכת נקרא סוכן – כלומר למוט והעגלה – סוכן
לכל המערכת קוראים סביבה