המחקר של אפל מוכיח שדגמי בינה מלאכותית מבוססי LLM פגומים כי הם לא יכולים לנמק

מאמר חדש של מדעני הבינה המלאכותית של אפל מצא שמנועים המבוססים על מודלים של שפה גדולים, כמו אלה של Meta ו-OpenAI, עדיין חסרים כישורי חשיבה בסיסיים.

הקבוצההציעאמת מידה חדשה, GSM-Symbolic, כדי לעזור לאחרים למדוד את יכולות החשיבה של מודלים שונים של שפה גדולה (LLMs). הבדיקה הראשונית שלהם מגלה ששינויים קלים בניסוח השאילתות עלולים לגרום לתשובות שונות באופן משמעותי, ולערער את אמינות המודלים.

הקבוצה חקרה את ה"שבירות" של חשיבה מתמטית על ידי הוספת מידע הקשרי לשאילתות שלהם שאדם יכול להבין, אך לא אמור להשפיע על המתמטיקה הבסיסית של הפתרון. זה הביא לתשובות שונות, מה שלא אמור לקרות.

"באופן ספציפי, הביצועים של כל הדגמים יורדים [אפילו] כאשר רק הערכים המספריים בשאלה משתנים במדד ה-GSM-Symbolic", כתבה הקבוצה בדו"ח שלה. "יתר על כן, השבריריות של חשיבה מתמטית במודלים אלה [מוכיחה] שהביצועים שלהם מתדרדרים באופן משמעותי ככל שמספר הסעיפים בשאלה גדל."

המחקר מצא שהוספת אפילו משפט בודד שנראה כמציע מידע רלוונטי לשאלה מתמטית נתונה יכולה להפחית את הדיוק של התשובה הסופית בעד 65 אחוזים. "פשוט אין מצב שאתה יכול לבנות סוכנים אמינים על הבסיס הזה, שבו שינוי מילה או שתיים בדרכים לא רלוונטיות או הוספת קצת מידע לא רלוונטי יכול לתת לך תשובה אחרת", סיכם המחקר.

היעדר חשיבה ביקורתית

דוגמה מסוימת שממחישה את הנושא הייתה בעיה מתמטית שדרשה הבנה אמיתית של השאלה. המשימה שפיתח הצוות, שנקראה "GSM-NoOp" הייתה דומה לסוג של "בעיות מילים" מתמטיות שתלמיד יסודי עלול להיתקל בהן.

השאילתה התחילה במידע הדרוש לגיבוש תוצאה. "אוליבר קוטף 44 קיווי ביום שישי. אחר כך הוא בוחר 58 קיווי בשבת. ביום ראשון הוא בוחר כפול ממספר הקיווי שעשה ביום שישי".

לאחר מכן, השאילתה מוסיפה סעיף שנראה רלוונטי, אך למעשה אינו מתאים לתשובה הסופית, ומציינת כי מבין הקיווי שנבחרו ביום ראשון, "חמישה מהם היו מעט קטנים מהממוצע". התשובה המבוקשת פשוט שאלה "כמה קיווי יש לאוליבר?"

ההערה לגבי גודלם של חלק מהקיווי שנקטפו ביום ראשון לא צריכה להשפיע על המספר הכולל של הקיווי שנקטף. עם זאת, המודל של OpenAI כמו גם ה-Llama3-8b של Meta הורידו את חמשת הקיווי הקטנים מהתוצאה הכוללת.

ההיגיון השגוי נתמך על ידי מחקר קודם משנת 2019 שעלול לבלבל באופן מהימן דגמי AI על ידי שאילת שאלה לגבי גילם של שני קוורטרבקים קודמים של סופרבול. על ידי הוספת מידע ברקע ומידע קשור על המשחקים שבהם הם שיחקו, ואדם שלישי שהיה קוורטרבק במשחק קערה אחר, הדגמים הפיקו תשובות שגויות.

"לא מצאנו עדות להיגיון פורמלי במודלים של שפה", סיכם המחקר החדש. ההתנהגות של LLMS "מוסברת טוב יותר על ידי התאמת דפוסים מתוחכמת" שהמחקר מצא שהיא "כל כך שברירית, למעשה, עד ששינוי שמות יכול לשנות את התוצאות".