Ferret LLM של אפל יכול לעזור לאפשרסיריכדי להבין את הפריסה של אפליקציות בתצוגת אייפון, מה שעלול להגדיל את היכולות של העוזרת הדיגיטלית של אפל.
אפל עבדה על מספר רב של למידת מכונה ופרויקטים של AIזֶהזה יכול להציקבְּ-WWDC2024. במאמר שזה עתה פורסם, נראה כעת שלחלק מהעבודה הזו יש פוטנציאל לסירי להבין איך נראים אפליקציות ו-iOS עצמה.
העיתון, שפורסם על ידי אוניברסיטת קורנלביום שני, הוא הכותרת "Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs." זה בעצם מסביר מודל רב-מודאלי חדש של שפה גדולה (MLLM) שיש לו פוטנציאל להבין את ממשקי המשתמש של צגים ניידים.
השם Ferret בא במקור מ-LLM רב-מודאלי בקוד פתוחשוחרר באוקטובר, על ידי חוקרים מאוניברסיטת קורנל שעובדים עם עמיתים מאפל. באותה תקופה, Ferret היה מסוגל לזהות ולהבין אזורים שונים בתמונה עבור שאילתות מורכבות, כגון זיהוי מין של בעל חיים בחלק נבחר בתצלום.
התקדמות LLM
המאמר החדש עבור Ferret-UI מסביר שלמרות שחלו התקדמות ראויה לציון בשימוש ב-MLLM, הם עדיין "נופלים ביכולתם להבין ולקיים אינטראקציה יעילה עם מסכי ממשק משתמש (UI). Ferret-UI מתואר כ-MLLM חדש המותאם להבנת מסכי ממשק משתמש ניידים, הכולל "יכולות הפניה, הארקה והנמקה".
חלק מהבעיה שיש ל-LLM בהבנת הממשק של תצוגה ניידת היא איך היא מתרגלת מלכתחילה. לעתים קרובות בכיוון דיוקן, זה אומר לעתים קרובות שסמלים ופרטים אחרים יכולים לתפוס חלק מאוד קומפקטי מהתצוגה, מה שמקשה על הבנת המכונות.
כדי לעזור עם זה, לפרט יש מערכת הגדלה לשיפור התמונות ל"כל רזולוציה" כדי להפוך סמלים וטקסט לקריאה יותר.
דוגמה של Ferret-UI לניתוח תצוגה של אייפון
לעיבוד ואימון, Ferret גם מחלק את המסך לשני חלקים קטנים יותר, חותך את המסך לשניים. המאמר מציין כי LLMs אחרים נוטים לסרוק תמונה גלובלית ברזולוציה נמוכה יותר, מה שמפחית את היכולת לקבוע בצורה מספקת איך נראים אייקונים.
הוספת איסוף משמעותי של נתונים להדרכה, זה הביא למודל שיכול להבין מספיק שאילתות משתמשים, להבין את האופי של אלמנטים שונים על המסך ולהציע תגובות הקשריות.
לדוגמה, משתמש יכול לשאול כיצד לפתוח את אפליקציית התזכורות, ויגיד לו להקיש על כפתור הפתיחה שעל המסך. שאילתה נוספת ששואלת אם ילד בן 15 יכול להשתמש באפליקציה יכולה לבדוק את הנחיות הגיל, אם הן גלויות בתצוגה.
עוזר מסייע
למרות שאיננו יודעים אם הוא ישולב במערכות כמו Siri, Ferret-UI מציע אפשרות לשליטה מתקדמת על מכשיר כמואייפון. על ידי הבנת רכיבי ממשק משתמש, היא מציעה את האפשרות של Siri לבצע פעולות עבור משתמשים באפליקציות, על ידי בחירת אלמנטים גרפיים בתוך האפליקציה בעצמה.
יש גם יישומים שימושיים עבור לקויי ראייה. LLM כזה יכול להיות מסוגל יותר להסביר את מה שמופיע על המסך בפירוט, ואפשר לבצע פעולות עבור המשתמש מבלי שהם יצטרכו לעשות שום דבר אחר מלבד לבקש שזה יקרה.