בינה מלאכותית RB108-8 :עיצוב בתים , מבוא ל RL

 חלק א:

עיצוב בית , בניית בתים , בעזרת בינה מלאכותית

חלק א : עיצוב חדר בעזרת בינה מלאכותית

 

 

 


 


 

 

 

 

 


תרגיל כיתה 1: 

בחר כ 3 תמונות משלך או מהדוגמא למעלה

שימוש ב chatgpt

 


חלק ב

רובוטים בעולם הבניה והנדל"ן

3D – הדפסת בתים  (3D Concrete Printing)

עקרון עבודה בסיסי

  1. רובוט (לרוב זרוע על מסילה או מנוף) מזרים בטון אקסטרוזיה דרך פייה.
  2. התוכנה מייצרת שכבות לפי תכנון CAD.
  3. כל שכבה מתקשה מהר מספיק כדי לשאת את השכבה מעליה.
  4. התהליך מדפיס קירות ושלדים בלבד. גג, חלונות, אינסטלציה וחשמל נעשים לאחר מכן.

הרכב הבטון להדפסת בתים

הבטון שונה מבטון רגיל. הוא נקרא Printable Concrete:

הרכב טיפוסי:

  • מלט (OPC)
  • חול דק מאוד (0–2 מ"מ)
  • אפר פחם או סיליקה פיום
  • סיבי פוליפרופילן לחיזוק
  • תוספים כימיים ל־
    • האצת התקשות
    • שליטה בצמיגות
    • מניעת קריסה של שכבות
  • מים בכמות נמוכה (יחס מים/מלט נמוך כדי לשמור על יציבות)

הבטון חייב להיות:

  • סמיך מספיק כדי לא ליפול.
  • נוזלי מספיק כדי לצאת מהפייה.
  • מתקשה מהר אך לא מהר מדי.

זמן הדפסת בית

תלוי בגודל. הערכה ריאלית:

  • בית קטן 40–60 מ"ר: כ־20–30 שעות הדפסה נטו.
  • בית 100 מ"ר: כ־30–48 שעות הדפסה נטו.
  • כל הבית כולל עבודות גמר: שבועיים עד חודש.

ההדפסה עצמה מהירה; העיכוב הוא בגמרים ובחיבורים.


יתרונות במזג אוויר

יתרונות:

  • אפשר לעבוד גם בלילה.
  • פחות תלות בכוח אדם.
  • בקרת איכות גבוהה – אותו חומר בדיוק בכל שכבה.
  • כמעט אין פסולת בנייה.
  • קירות מאוד אחידים.

חסרונות במזג אוויר

גשם:

  • גשם בזמן הדפסה הורס את שכבות הבטון; חייבים אוהל/חופה.
  • לחות גבוהה מאטה התקשות.

חום קיצוני:

  • טמפרטורה גבוהה מייבשת את הבטון מהר מדי – סדקים.
  • נדרש ריסוס מים או צל.

קור/כפור:

  • מתחת ל־5°C הבטון מתקשה לאט מאוד.
  • כפור יכול להרוס לחלוטין שכבה מודפסת.

רוח חזקה:

  • עלולה להזיז את הזרוע או לשנות את צורת הפס.
  • עלולה לקרר את השכבה מהר מדי.

 

1. עקרון מדעי־הנדסי של הדפסת בתים

המערכת נקראת 3D Concrete Printing (3DCP) ופועלת כמו מדפסת FDM רגילה אך בקנה מידה גדול:

  1. תוכנית CAD/CAM מייצרת מסלולי הדפסה מדויקים (G-code).

  2. רובוט זרוע / מערכת גנרי / מסילות XY-Z מזינות את הפייה במסלול מדויק.

  3. הבטון יוצא מחומרת Extruder ונמרח שכבה־על־שכבה.

  4. כל שכבה חייבת לעמוד בעומס של השכבה מעליה, ולכן יש בקרת צמיגות, זמן התקשות, גובה שכבה, ולחץ אקסטרוזיה.

המטרה: ליצור קירות מבניים בעלי חוזק לחיצה גבוה אך משקל נמוך יחסית, עם מינימום טפסנות.


2. סוגי המדפסות הרובוטיות

יש שלושה דגמים נפוצים:

א. מערכת גנטרי (Gantry)

  • מסילות XY ארוכות, Z עולה ויורד.

  • יציבות גבוהה, מתאימה למבנים עד ~12×12 מ'.

  • חסרון: חייבת שטח ישר.

ב. זרוע רובוטית (כמו ABB / KUKA)

  • גמישות בתנועות.

  • אפשר להדפיס צורות מורכבות.

  • חסרון: טווח מוגבל, דורש החלפת מיקומים.

ג. הדפסה על גבי מסועים ניידים

  • מתאימה לאתרים גדולים.

  • מודפסים מודולים שמועברים להרכבה.


3. הרכב הבטון (Printable Concrete) – פירוט מלא

המטרה: יציבות מיידית + זרימה מתונה + התקשות מהירה ללא סדקים.

מרכיבים סטנדרטיים:

  1. מלט OPC – 30–50% נפח מוצק.

  2. חול דק מאוד (0–2 מ"מ) – כדי לעבור אקסטרוזיה חלקה.

  3. סיליקה פיום / אפר פחם FLy Ash – משפר חוזק, מפחית מים.

  4. סיבים:

    • סיבי PP למניעת סדקים.

    • לעיתים סיבי זכוכית GFRP לשיפור קשיחות.

  5. תוספים כימיים:

    • Superplasticizer – מאפשר בטון דל מים שעדיין זורם.

    • Retarder/Accelerator – שליטה בזמן התקשות.

    • Viscosity Modifier – מונע קריסה בין שכבות.

  6. מים במינימום אפשרי (יחס מים/מלט נמוך – 0.30–0.40).

תכונות הנדרשות:

  • צמיגות גבוהה בזמן היציאה.

  • יציבות מיידית (Green Strength).

  • היעדר רטט – הבטון לא מהודק, חייב להיות אחיד כבר ביציאה.

  • זמן התקשות של 2–5 דקות בין שכבות.


4. זמן הדפסת בית – פירוט הנדסי

זמן הדפסה נטו:

  • בית 40–60 מ"ר: 20–30 שעות.

  • בית 100–120 מ"ר: 30–48 שעות.

  • מבנה דו־קומתי: 50–70 שעות הדפסה מצטברת.

זמני מסביב (לא הדפסה):

  • תכנון והכנת תוכנית הדפסה: 1–3 ימים.

  • יציקת יסודות רגילה: 2–4 ימים ייבוש.

  • התקנת חשמל, אינסטלציה, חלונות: 2–3 שבועות.

  • טיח פנימי/חיצוני: חלק מבוצע ישירות עם ההדפסה, חלק אחרי.

זמן כולל לבית מוכן:

2–4 שבועות, תלוי גודל וצוות.


5. חוזק מכני של קירות מודפסים

  • חוזק לחיצה: 25–60 MPa (כמו בטון חזק רגיל).

  • התנהגות שונה מבטון יצוק:

    • שכבות הן אנאיזוטרופיות (חוזק שונה בכיוון שכבות).

    • לעיתים מוסיפים מוטות ברזל בין שכבות או ממלאים חללים בבטון יצוק.

הדפסה מאפשרת צורות גאומטריות שמגבירות חוזק טבעי (גלים, חללים פנימיים).


6. יתרונות במזג אוויר

גשם קל עד גשם כבד:

  • ההדפסה נעצרת.

  • גשם הורס את הפרופיל הצורני.

  • אך עבודה תחת אוהל תעשייתי מאפשרת הדפסה כל השנה.

חום גבוה:

  • ההתקשות מהירה מדי.

  • כדי למנוע סדקים:

    • מרססים מים.

    • עובדים בלילה.

    • מוסיפים Retarder.

קור נמוך:

  • מתחת 5°C ההדפסה לא יציבה.

  • פתרון: תוספים מחממי-התקשות.

רוח:

  • יכולה להזיז את הזרוע או לעוות שכבה.

  • נדרש מבנה הצללה/מחסה.


7. יתרונות כלכליים ותפעוליים

  1. חיסכון של 30–60% בעלויות בנייה.

  2. מעט מאוד עובדים – 2–3 אנשים במקום 10–20.

  3. עמידות גבוהה – קירות בטון הומוגניים.

  4. תכנון חופשי – כמעט כל גאומטריה אפשרית.

  5. מהירות – בנייה שלדית בתוך יומיים.


8. חסרונות

  1. תלות בתנאי מזג אוויר.

  2. הבטון יקר יותר פר ק"ג מבטון רגיל.

  3. לא מדפיסים גג, אינסטלציה, חשמל – עדיין עבודה רגילה.

  4. דרוש ציוד כבד ותוכנה מורכבת.

  5. שכבות עלולות להיפרד אם הפרמטרים לא מדויקים.


9. אילו בתים לא מתאימים להדפסה?

  • גגות מרחפים גדולים.

  • בנייה בקומות רבות.

  • אתרים עמוסים ללא שטח להזזת רובוט.


 

 

 

 

 


 

 

1. מודלי תפיסה (Perception Models)

תפקיד כללי: הפיכת מידע גולמי מחיישנים לייצוגים מתמטיים הניתנים לחישוב, לצורך הבנת סביבה, יצירת מפה ותכנון תנועה.

1.1 YOLOv8/YOLOv9 – Object Detection

מה המודל עושה:
מבצע רגרסיה ישירה (direct regression) מנפח תמונה מרחבי למרחב דיסקרטי של bounding boxes וקטגוריות. זהו מודל CNN/Transformer היברידי הלומד פונקציה f: Image → Object Set.

קלט:

  • טנזור תמונה בגודל H×W×3 (לעיתים 640×640×3).
    ערכים מנורמלים [0–1].

פלט:

  • מטריצת אובייקטים בגודל N×(cx,cy,w,h,class_id,confidence).

  • לעיתים embedding נוסף ל-tracking.

תפקיד רובוטי מדויק:

  • הפיכת עולם חזותי לאוסף ישויות עם גבולות גיאומטריים מדידים.

  • הפלט שלו נכנס ל־LLM ול־SLAM לשילוב עם מידע מרחבי.


1.2 SAM / MobileSAM – Image Segmentation

מה המודל עושה:
מחלק את התמונה למסכת פיקסלים. ה-SAM מבצע mapping מהתמונה וה"prompt" (נקודה, תיבה) למסכת פיקסלים בינארית M(x,y) ∈ {0,1}.
פועל על self-attention וביצוע ניתוח מבני לתמונה.

קלט:

  • טנזור תמונה H×W×3.

  • Prompt: נקודה/Bounding Box/טקסט.

פלט:

  • Binary Mask בגודל H×W.

  • לעיתים Mask logits.

תפקיד רובוטי:

  • יצירת צורה מדויקת של אובייקט לצורך אחיזה (grasp synthesis).

  • חישוב מרכז מסה, משטחים נגישים, צירי אחיזה.


1.3 ViT – Vision Transformer

מה המודל עושה:
מקודד תמונה לפיצ'רים גלובליים.
מחשב embedding מרחבי בשיטת self-attention, המאפשר להבין יחסים טופולוגיים בין חלקים שונים בתמונה.

קלט:

  • תמונת RGB בגודל סטנדרטי (224×224×3).

  • מומרת ל-patches K×(p×p×3).

פלט:

  • וקטור embedding בגודל 256–1024.

  • לעיתים מפה מרחבית של tokens.

תפקיד רובוטי:

  • ייצוג מופשט של סצנה: סוג חדר, סידור חפצים, זיהוי unusual patterns.

  • מיועד ל־LLM integration ("vision-language grounding").


1.4 MiDaS / ZoeDepth – Depth Estimation

מה המודל עושה:
מבצע רגרסיה פיקסל-לפיקסל לעומק משוער באמצעות אפיון cues מונוקולריים (shading, geometry priors).
זהו פתרון לבעיה ill-posed ולכן משתמש בידע גיאומטרי סטטיסטי.

קלט:

  • תמונה רגילה RGB.

פלט:

  • מפה D(x,y) ∈ ℝ של עומקים יחסיים או מוחלטים.

תפקיד רובוטי:

  • יצירת ענן נקודות (pseudo-LiDAR).

  • מאפשר לבחור safe grasp distance.

  • משמש אינטגרציה עם SLAM.


2. מודלי SLAM – Localization & Mapping

תפקיד: הערכת pose (מיקום + אוריינטציה) + בניית מפה תלת־ממדית בזמן אמת.

2.1 ORB-SLAM3

מה המודל עושה:
מחשב feature descriptors (ORB) → מבצע matching בין תמונות → מבנה משוואות Bundle Adjustment → מחלץ את ה-pose של המצלמה.
זהו אלגוריתם לא־רעיוני (לא deep learning), אך קריטי.

קלט:

  • רצף תמונות.

  • IMU raw signals (ax,ay,az,gx,gy,gz).

פלט:

  • Pose מדויק: (x,y,z,roll,pitch,yaw).

  • Keyframe map.

  • Point cloud על בסיס feature triangulation.

תפקיד רובוטי:

  • הרובוט יודע "איפה הוא נמצא".

  • מאפשר תכנון מסלולים אמינים.


2.2 Cartographer

מה המודל עושה:
מבצע optimization של LiDAR scan matching.
לוקח ענני נקודות וממקסם פונקציית התאמה לשכבות קודמות.

קלט:

  • LiDAR point cloud (אלפי נקודות).

  • IMU.

פלט:

  • מפה תלת־ממדית Occupancy Grid.

  • Pose estimations.

תפקיד רובוטי:

  • דיוק גבוה בניווט, במיוחד במעברים צפופים.


3. מודלים לעיבוד קול בסביבה ביתית

3.1 Whisper – Automatic Speech Recognition

מה המודל עושה:
רשת טרנספורמר המקבלת סיגנל אודיו גולמי וממפה לסדרת טוקנים טקסטואליים.

קלט:

  • גל אודיו (16 kHz).

  • מומש כטנזור [T].

פלט:

  • טוקנים ממויינים לווקטורים של טקסט.

  • תזמונים.

תפקיד רובוטי:

  • קבלת הוראות מילוליות.

  • אינטראקציה טבעית עם משתמש.


3.2 AudioCLIP

מה המודל עושה:
מבצע embedding משותף לאודיו, טקסט ותמונה.

קלט:

  • קטע אודיו קצר (1–3 שניות).

פלט:

  • embedding וקטורי המייצג סוג הסאונד.

תפקיד רובוטי:

  • זיהוי אירועים (“צלחת נפלה", “דלת נסגרה”).

  • שילוב סונאר־קולי בהתנהגות.


4. מודלי תכנון (Planning & Reasoning)

4.1 LLM – Large Language Model for Robotics

מה המודל עושה:
מבצע מיפוי מייצוג עולם (structured state) → רצף פעולות (semantic action plan).
פועל על self-attention רב־שכבתי, לומד חוקיות סמנטית.

קלט:

  • JSON של מצב עולם:

    • אובייקטים בסביבה

    • מיקומים

    • מצבי דלתות/משטחים

  • הוראה טקסטואלית אנושית.

פלט:

  • רצף פעולות מוכלל ברמת high-level:

    ["navigate(kitchen)", "locate(cup)", "grasp(cup)", "deliver(user)"]

תפקיד רובוטי:

  • פירוק משימות מורכבות.

  • העברת שליטה למודלי RL ברמת low-level.


4.2 PDDL Planner (symbolic logic)

מה המודל עושה:
מקבל עולם כמערכת מצבים לוגיים ומחשב תוכנית אופטימלית על פי אילוצים.

קלט:

  • הגדרת בעיה:

    • Operators

    • Preconditions

    • Effects

  • מצב התחלה + מטרה.

פלט:

  • תוכנית אופטימלית (או חסומה).

תפקיד ברובוט:

  • לוודא שהפעולות שמציע ה־LLM חוקיות פיזית.

  • למנוע פעולות מסוכנות או בלתי אפשריות.


5. מודלים לשליטה פיזית (Control Models)

5.1 Behavior Cloning (BC)

מה המודל עושה:
מבצע רגרסיה f: State → Action על בסיס דוגמאות אדם.
מודל זה לומד ישירות לשלוח פקודות מנוע מתצפיות.

קלט:

  • State:

    • תמונה/מסכה

    • joint angles

    • joint velocities

    • depth map

  • Action:

    • Δθ לכל מפרק

    • או וקטור מהירויות.

פלט:

  • פוליסה שיכולה להפעיל מנוע:
    action = π(state)

תפקיד רובוטי:

  • אחיזה, סיבוב ידית, פתיחת דלת.


5.2 PPO / SAC / TD3 – Reinforcement Learning

מה המודל עושה:
מחשב פוליסה מיטבית דרך חקר־ניסוי.
לומד דינמיקה מורכבת שהתנהגות אדם לא מכסה.

קלט:

  • state vector מלא:
    [vision embedding, proprioception, force sensors]

  • reward.

פלט:

  • policy π(a|s).

  • value function.

תפקיד רובוטי:

  • תנועות עדינות.

  • איזון משקל.

  • פעולות רגישות לכוח.


5.3 Diffusion Policies

מה המודל עושה:
מחולל מסלול רציף (trajectory) באמצעות דיפוזיה הפוכה (reverse diffusion).
המודל לומד את התפלגות המסלולים הטובים.

קלט:

  • תמונה/עומק

  • pose נוכחי

  • pose יעד

  • Constraints

פלט:

  • Trajectory מוגדר כוקטורי joint positions לאורך זמן T.

תפקיד רובוטי:

  • יצירת תנועות חלקות ללא רעידות.

  • High-precision manipulation.


6. מודל ייצוג עולם (World Model)

6.1 Neural World Model

מה המודל עושה:
יוצר מצב פנימי f(s_t) המתאר:
אובייקטים → יחסים → מפה → דינמיקה עתידית.

קלט:

  • תוצאות vision

  • SLAM pose

  • קלטים פנימיים מהזרוע

  • מידע משימות.

פלט:

  • State embedding (לרוב 256–2048 ממדים).

  • לפעמים גם מנבא next state.

תפקיד רובוטי:

  • מאפשר תכנון רב־שלבי.

  • משמש base ל־LLM.


7. מודלי ניווט

7.1 A* / D* / RRT* (Classical Planners)

מה המודל עושה:
פתרון בעיה של חיפוש מסלול במרחב מצבים.
מבצע אופטימיזציה על גרף.

קלט:

  • מפה (occupancy grid).

  • pose נוכחי.

  • pose יעד.

פלט:

  • מסלול בדיד: רשימת נקודות (x,y,z).

  • או וקטורי steering.

תפקיד רובוטי:

  • תנועה בחדר בלי התנגשות.


8. מודלי Touch & Force

8.1 Force Estimation Neural Net

מה המודל עושה:
מעריך כוח אמיתי על בסיס חיישני מתח ועיוות (strain sensors), לעיתים ללא חיישן כוח ישיר.

קלט:

  • ערכי מתח/זרם מנועים

  • encoder feedback

  • optional tactile sensors

פלט:

  • וקטור כוחות (Fx,Fy,Fz,τx,τy,τz).

תפקיד רובוטי:

  • מניעת שבירת חפצים.

  • אחיזה בטוחה.


9. טבלה מסכמת: קלט → פלט → תפקיד

מודל קלט פלט תפקיד
YOLO תמונה bounding boxes זיהוי אובייקטים
SAM תמונה + prompt מסכת פיקסלים צורת אובייקט
ViT תמונה embedding הבנת סצנה
MiDaS תמונה מפה עומק מידול תלת־ממד
ORB-SLAM3 תמונה+IMU pose+map ניווט
Cartographer LiDAR map+pose ניווט מדויק
Whisper אודיו טקסט פקודות קוליות
AudioCLIP צליל embedding הבנת אירועים
LLM world state + text תכנית פעולות תכנון משימות
PDDL סמנטיקה תוכנית פורמלית אימות לוגי
BC (state,action) policy חיקוי תנועות
PPO/SAC state+reward policy אופטימיזציית תנועה
Diffusion Policy state+goal trajectory תנועה חלקה
World Model מכל החיישנים state embedding זיכרון פנימי
A* מפה+יעד מסלול ניווט
Force NN חיישני כוח vectors of force אחיזה בטוחה

 

 

 

 


חלק ג

ניתוח קובץ אקסל :

תרגיל כיתה א  – שימוש בבינה מלאכותית לניתוח תוצאות של קובץ אקסל CHATGPT 

  1. נתח את קובץ האקסל  exp1  יבא אותו ל chatGpt

1.1 בקשו גרף קורציות מפת חום בין הטבאלות איפה ניראה שיש קורלציות   Correlation Map Between Columns

  1. בקשו הבינה המלאכותית – לנתח את הנתונים

2.1  כמה קבוצות של רמה בחשבון יש  ?

2.2 מה הפרמטרים שמשפעים  על כל קבוצה  – הנמוכה 0 , והקבוצה 3 הגבוהה ביותר

2.3 איזה עצה היית נותן שיש לאנשים הכנסה נמוכה ואין כסף למורים פרטים עבור שילהם שלהם יהיו טובים בחשבון  ?

3.3 לפי הנתונים האלה האם לכל ילד שנולד יש הזדמנות טובה להיות טוב במטמתיקה  ?

 

 

 

 

  1. נתח את קובץ האקסל  exp1  יבא אותו ל chatGpt

1.1 בקשו גרף קורלציות מפת חום בין הטבלאות איפה ניראה שיש קורלציות   Correlation Map Between Columns

  1. בקשו הבינה המלאכותית – לנתח את הנתונים

2.1  כמה קבוצות של רמה בחשבון יש  ?

2.2 מה הפרמטרים שמשפעים  על כל קבוצה  – הנמוכה 0 , והקבוצה 3 הגבוהה ביותר

2.3 איזה עצה היית נותן שיש לאנשים הכנסה נמוכה ואין כסף למורים פרטים עבור שלהם שלהם יהיו טובים בחשבון  ?

3.3 לפי הנתונים האלה האם לכל ילד שנולד יש הזדמנות טובה להיות טוב במתמטיקה  ?

 

 

חלק ד: מבוא  –  deep reinforcement learning

Q-Learning הומצא בשנת 1989 על-ידי החוקר:

Christopher J. C. Watkins

(מאוניברסיטת קיימברידג', בריטניה)

המאמר המקורי:
Watkins & Dayan, 1992 – Q-Learning

זהו אחד האלגוריתמים החשובים ביותר בתולדות למידת החיזוק.

האות Q מסמלת:

Quality of an Action

כלומר: איכות הפעולה במצב מסוים.

Q-Learning הוא אלגוריתם שמנסה ללמוד:

כמה טובה כל פעולה בכל מצב?

המודל בונה "מפת החלטות" Q(s, a) שמחזירה מספר שמייצג:

ציון פעולה a כאשר אני במצב s.

מהם הכללים של Q-Learning? (בקצרה)

האלגוריתם מבוסס על כלל עדכון אחד:

כלל העדכון המרכזי

Q(s, a) ← Q(s, a) + α [ r + γ maxₐ′ Q(s′, a′) − Q(s, a) ]

פירוש כל חלק:

s – מצב נוכחי
a – פעולה שבוצעה
r – פרס שקיבלנו
s′ – מצב חדש
α – קצב למידה
γ – חשיבות העתיד (Discount factor)
maxₐ′ Q(s′, a′) – מהו הציון הכי טוב שניתן להשיג מהמצב הבא

המשמעות:
המודל מעדכן את הציון של פעולה לפי מה שקרה בפועל ועוד מה שצפוי בעתיד.


מה הייחוד של Q-Learning?

  1. Off-Policy – לומד גם מצעדים שאינם "הפעולות הכי טובות".

  2. מבוסס טבלה – פשוט לחישוב.

  3. מבטיח התכנסות בתנאים מסוימים.

  4. בסיס לכל מה שבא אחריו – כולל DQN.

 

 

מה זה Deep Reinforcement Learning? RL

Deep Reinforcement Learning הוא תחום בבינה מלאכותית שבו מלמדים מחשב לקבל החלטות בדרך של ניסוי וטעייה, בדיוק כמו ילד שלומד לרכב על אופניים.

זה שילוב של שני דברים:

  1. Reinforcement Learning (למידת חיזוק)
    אלגוריתם שלומד לפי פרסים ועונשים.
    הוא עושה פעולה, רואה מה קרה, ומנסה בפעם הבאה להשתפר.

  2. Deep Learning (רשתות עמוקות)
    רשת נוירונים עמוקה שמאפשרת להבין מצבים מורכבים ולהחליט טוב יותר.


איך זה עובד בפועל?

תדמיין שיש סוכן (Agent) שמשחק במשחק או מפעיל רובוט.

בכל רגע יש 3 שלבים:

1. קלט – מצב (State)

הסוכן מקבל תמונה או מידע על המצב.
לדוגמה: איפה הוא במשחק, מה מהירות, מה המרחק למכשול.

2. פלט – פעולה (Action)

הסוכן מחליט מה לעשות:
לזוז ימינה, לבלום, לקפוץ, לפנות.

ההחלטה נעשית בעזרת רשת עמוקה שמנסה לנחש איזו פעולה תביא לתוצאה הטובה ביותר.

3. פרס (Reward)

אם עשה פעולה טובה → מקבל מספר חיובי.
אם עשה פעולה רעה → מקבל מספר שלילי.

לדוגמה:
פגע בקיר → פרס שלילי.
התקדם למטרה → פרס חיובי.

לאט-לאט, דרך ניסוי וטעייה, הסוכן לומד אסטרטגיה.


 

אז איך רובוט בעצם לומד לזוז –  RL  Reinforcement Learning