RB32 -01 מערכות בינה מלאוכתית ורובוטיקה – אבולציונות

RB32 -01 מערכות בינה מלאוכתית ורובוטיקה – אבולציונות

הנושא שהכי חשוב להבאין זה את מטודת העל של מערכות עוברות אימון עצמאי וזה בלי תלות במנה שלהם

  1. בשלב הראושן המערכת  מתחילה  כמערכת אקראית וזה בתהליך אקספלולרר Exploration
  2. בשלב השני  המערכת מתחילה ללמוד ואז היא עובדת ממצב ההקראי למצב לימוד Exploitation

הבנת השלב השני היא מאוד חשובה ,  המערכת כל הזמן אוגרת מידע  וכל סיבוב למידה היא מוסיבה אותו  לרשת ומריצה אימון לשרת

כלומר אם  מאימון רשת רגילה האימון רץ בסוף  אחרי אסיפת כל המידע , פה זה אחרת לגמרי כל פעם הסוכן עושה שלב ומתקבל ערך של פרס או עונש המערכת  וזה נכנס לרשת ושוב עושה אימון .

 

ניראה למשל את ה  Cart Pole דוגמא הכי בסיסית שיש 

המטרה לאזן את המוט , עלידי הפעל כוח או לימין או לשמאל

אם מוט זז ימינה יש לדחוף את העגלה ימינה עד   , אם המוט פונה שמאלה יש לדחוף את המוט שמאלה

למערכת נקרא סוכן – כלומר למוט והעגלה – סוכן

לכל המערכת קוראים סביבה

 

 

 

 

כתיבת תגובה