בינה מלאכותית עצמאית : RB25-01 Q-Learning

בינה מלאכותית עצמאית : RB25-01

 

 

 

 

הסוכן צריך לדעת מה עשות שלא ליפול בחור

מאוד מזכיר את

שלבים שי 16 אמצבים ו 4 פעולות


 


עברו משחק שח מט יש 10 בחזקת 43 ש אפשריות  לכן כל מצב של השחקנים ניקרא STATE

אז איך Q מחושב ?

ולא חד פעמי


 

 


 

 

 

 

כתיבת תגובה