בינה מלאכותית ומודל מתקדם : Stable Diffusion – סיכום בנקודות
אימון :
Stable Diffusion is conceptually closer to CNNs, and very different from YOLO
What the model sees:
If your training prompt is: "a photo of xyz dog"
But every image has 7 consistent objects, it won’t know which one is “xyz dog”.
It will try to associate all 7 subjects as part of the “xyz dog” concept.
for best results, each training image should:
Be:
-
Centered: The subject (your dog "xyz") should be the main focus.
-
Clear and high-quality.
-
Only one subject per image (i.e., only xyz, not 10 dogs).
“During training, the model looks at all images and finds what’s common between them. From that, it learns what the word (like 'dog' or 'xyz dog') should look like.
Stable Diffusion (and CLIP):
-
Learns global patterns and concepts.
-
Works with full images and text prompts.
-
Uses attention (like in transformers), not bounding boxes.
-
More like a CNN in that it processes the whole image and extracts abstract features.
אימון תמונות חדשות ל Stable Diffusion
חלק 1: מבנה התמונה
-
האובייקט שברצונך ללמד (לדוגמה, הכלב בשם "xyz") צריך להיות במרכז התמונה ולמלא חלק משמעותי ממנה.
- התמונות צריכות להיות שונות בתאורה שונה רקעים שונים זויות שונות אחרת המודל יתן תוצרים נמוכים
-
הרקע צריך להיות פשוט ולא עמוס בפרטים. רצוי להשתמש ברקע אחיד, טבעי או ניטרלי. תמונות עם רקע עמוס עלולות לבלבל את המודל.
-
יש להקפיד שהתמונה תהיה חדה, מוארת היטב, ובאיכות גבוהה.
-
חשוב שבתמונה לא יופיעו אובייקטים דומים או חיות נוספות, כדי שהמודל לא יתבלבל בזיהוי "xyz".
-
כדאי לכלול גיוון בין התמונות:
-
זוויות שונות (חזית, צד, אלכסון)
-
תנוחות שונות של האובייקט
-
מרחקים שונים (צילום מקרוב ומרחוק)
-
סביבות שונות (רצפה, דשא, שולחן וכו') אך ללא עומס ויזואלי
-
חלק 2: ניסוח הטקסט (הפרומפטים)
-
כל תמונה צריכה להיות מלווה בטקסט שמתאר אותה באופן אחיד.
-
חשוב להשתמש בטוקן ייחודי (מילה שלא קיימת במודל), לדוגמה: "xyz".
-
דוגמאות לפרומפטים:
-
"a photo of xyz dog"
-
"a close-up of xyz dog"
-
"a side view of xyz dog"
-
"xyz dog standing on a wooden floor"
-
-
שמור על עקביות: בכל הטקסטים השתמש תמיד באותו שם ("xyz dog"), כדי שהמודל ילמד לזהות את הדמות.
-
אל תשתמש במילים כלליות בלבד (כמו רק "a dog"), כי אז המודל ילמד "כלב" כללי, ולא את הדמות הייחודית שלך.
חלק 3: מספר תמונות ואיכות אימון
-
לאימון DreamBooth נדרשות לרוב 10 עד 15 תמונות. ככל שהמגוון רחב יותר (זוויות, רקעים פשוטים), התוצאה תהיה מדויקת יותר.
-
לאימון LoRA אפשר להסתפק גם ב־6 עד 10 תמונות, כל עוד הן ממוקדות וברורות.
-
אין חובה לבצע חיתוך אובייקט או סגמנטציה, אך רצוי שהתמונה תציג רק את האובייקט וללא הסחות דעת.