אפל לא עומדת במקום על AI גנרטיבי, ולגרום לדוגמניות אנושיות לרקוד זו הוכחה

אפל פרסמה מאמר מחקר שדן במה שהיא מכנה HUGS, טכנולוגיית AI מחוללת שיכולה ליצור אווטאר אנושי דיגיטלי מסרטון קצר בתוך כ-30 דקות.

שוחרר באמצעות Machine Learning Research של אפלעַמוּדושותף על ידי חוקר אפל אנורג רנג'אןב-X, "HUGS: Human Gaussian Splats" דן בטכניקות ליצירת אווטרים דיגיטליים של בני אדם. באמצעות למידת מכונה וראייה ממוחשבת, המחקר מפרט את תהליך היצירה, תוך שימוש בחומר מקור קטן יחסית.

טכניקות רינדור עצביות נוכחיות מהוות שיפור ניכר ביחס לגרסאות קודמות, אך הן עדיין מתאימות ביותר ל"פוטוגרמטריה של סצנות סטטיות ואינן מכלילות היטב לתנועה חופשית של בני אדם בסביבה", מסבירות פסקאות מבוא.

הקונספט של Human Gaussian Splats, HUGS, משתמש בטכניקה הנקראת 3D Gaussian Splatting כדי ליצור אדם הניתן להנפשה בתוך סצנה.

השיטה עצמה דורשת כמות קטנה של וידאו של הנושא, בדרך כלל בתנועה בתוך סצנה ומראה כמה שיותר משטחים למערכת לעבוד מהם. הטכניקה יכולה להשתמש בקליפים קצרים מאוד במקרים מסוימים, לפעמים וידאו מונוקולרי עם מעט כמו 50 עד 100 פריימים, השווה לשניים עד ארבע שניות של וידאו 24fps.

המערכת הוכשרה "לנתק את הסצנה הסטטית ואוואטר אנושי שניתן להנפשה במלואה בתוך 30 דקות", טוענת אפל.

בעוד שמודל הגוף SMPL משמש לאתחול המודלים הגאוסים האנושיים, הוא לא יכול לתפוס כל פרט. מותר לתהליך לחרוג ממודל SMPL עבור אלמנטים שאינם מעוצבים, כגון בד ושיער, כדי להשלים את החסר של מה שנלכד ונכלל בדגם.

יש גם הצעה לייעל משקלי עור מיזוג ליניארי כך שיוכלו לתאם עם התנועות של מודל גאוסי במהלך האנימציה, ולשפר את מראה הדגם.

בסופו של דבר, הזמן מסרטון האימון ועד לאנימציה של "איכות רינדור חדישה" של הדגם האנושי והסצנה, המופקת במהירות עיבוד של 60fps ברזולוציית HD, הוא כחצי שעה. טוענים שזה מהיר פי 100 משיטות אחרות, כולל NeuMan ו-Vid2Avatar.

מאמר המחקר מפרט את מחבריו כמוחמד קקובאס, ריק צ'אנג, ג'יימס גבריאל, Oncel Tuzel ו-Anurag Ranjan, והוא הופק בשיתוף פעולה עם מכון מקס פלנק למערכות חכמות.

אפל עבדה על הרעיון של יצירת אווטארים דיגיטליים כבר די הרבה זמן, כשהקונספט של גרסה מפורטת מופיע ב-Apple Vision Pro. כדי להפעילFaceTimeשיחות, כמו גם מבט חיצוני של עיני המשתמש, האוזניות יוצרת א"אדם" דיגיטליהמשמש בדרכים שונות לייצוג המשתמש.