אפל זורקת את הכובע שלה לטבעת התמונה שנוצרת בינה מלאכותית

אפל, בשיתוף עם חוקרים מאוניברסיטת קליפורניה, פרסמה מודל עריכת תמונות מבוסס AI משלה שכל אחד יכול לנסות.

הדגם זכה לכינוי "MGIE", ראשי תיבות של MLLM-Guided Image Editing ומאפשר למשתמשים לערוך תמונות על סמך הוראות שפה טבעית. הוא ממנף מודלים של שפות גדולות מולטי-מודאליות (MLLMs), המשלבים סוגים שונים של מידע, כגון טקסט, תמונות וסרטונים, כדי להבין וליצור שפה דמוית אדם.

בעוד שמחקרים על MLLMs הראו תוצאות מבטיחות בהבנה ויצירת תמונות, הם עדיין לא יושמו באופן נרחב.

MGIE הוצג במאמר בכנס הבינלאומי על ייצוגי למידה 2024.הניירמציג כיצד MGIE יכולה לשפר מדדים אוטומטיים והערכה אנושית תוך שמירה על יעילות מסקנות תחרותית.

MGIE משתמשת ב-MLLMs כדי להפיק הוראות אקספרסיביות מקלט המשתמש.Venture Beatהצעותדוגמה:משתמש יכול לומר ל-MGIE "להפוך את השמיים לכחולים יותר", ו-MGIE יפרש זאת כ"הגדלת הרוויה של אזור השמיים ב-20%".

איך MGIE מפרשת שפה טבעית | קרדיט תמונה: אפל, UC סנטה ברברה

לאחר מכן, ברגע שההוראות נגזרות מהקלט בשפה הטבעית, הוא יוצר גרסה ערוכה של התמונה. ניתן להשתמש בו כדי ליצור מגוון רחב של עריכות, החל מהתאמות צבע ועד להפקה או הסרה של חלקים מתמונה.

MGIE הוא קוד פתוח וזמין ב-GitHub לכל אחד לנסות. העמוד GitHubמאפשר למשתמשים לתפוס את הקוד, הנתונים והדגמים שהוכשרו מראש.

מהירות יצירת התמונות תשתנה משמעותית בהתאם לביצועי החומרה. כמו כן, דגמים כגון זה הם רעבים להפליא RAM.

אפל עובדת מאחורי הקלעים על התכונות הנעזרות בבינה מלאכותית כבר זמן מה.בינואר,קוד בגרסת הבטא של iOS 17.4 הציע שאפל עובדת על גרסה חדשה המונעת בינה מלאכותית שלסירי.

מניית אפל ספגה מכות לאחרונה, בין השאר משום שאנליסטים הכריזו בקול רם שהחברה עומדת מאחורי Meta, גוגל ומיקרוסופט בהטמעת בינה מלאכותית. לא ברור מדוע זו לא הייתה בעיה כאשר זה לא היה קודם לטלפון נייד, טאבלט, שעון חכם או אוזניות VR, אלא עם AI גנרטיבי.

אולי כדי להניא את האנליסטים האלה, מנכ"ל אפלטים קוקלאחרונה אמרה כי אפל משקיעה "כמות עצומה של זמן ומאמץ" על תכונות AI שיוכרזו בחודשים הקרובים. הוּאגם ציינושאפל עבדה באופן פנימי על AI גנרטיבי.