אינטליגנציה של נתונים גנרטיביים

איך מכונות 'גרוק' נתונים? | מגזין קוונטה

תאריך:

מבוא

עם כל הזוהר שלהן, רשתות עצבים מלאכותיות נותרות בלתי ניתנות לבדיקה כתמיד. ככל שהרשתות הללו מתגברות, היכולות שלהן מתפוצצות, אבל פענוח הפעילות הפנימית שלהן תמיד היה כמעט בלתי אפשרי. חוקרים מחפשים כל הזמן כל תובנות שהם יכולים למצוא לגבי המודלים הללו.

לפני כמה שנים הם גילו אחד חדש.

בינואר 2022, חוקרים ב-OpenAI, החברה שמאחורי ChatGPT, דיווח שמערכות אלו, כאשר בטעות הורשו ללעוס נתונים הרבה יותר מהרגיל, פיתחו דרכים ייחודיות לפתרון בעיות. בדרך כלל, כאשר מהנדסים בונים מודלים של למידת מכונה מתוך רשתות עצביות - המורכבות מיחידות חישוב הנקראות נוירונים מלאכותיים - הם נוטים להפסיק את האימון בנקודה מסוימת, הנקראת משטר התאמת יתר. זה כאשר הרשת בעצם מתחילה לשנן את נתוני האימון שלה ולעתים קרובות לא תכליל למידע חדש שלא נראה. אבל כאשר צוות OpenAI אימן בטעות רשת קטנה מעבר לנקודה זו, נראה היה שהוא פיתח הבנה של הבעיה שחרגה מעבר לשינון פשוט - הוא יכול לפתע לצבור כל נתוני בדיקה.

החוקרים כינו את התופעה "גרוקינג", מונח שטבע מחבר המדע הבדיוני רוברט א. היינליין במשמעות של הבנה של משהו "כל כך יסודי שהצופה הופך לחלק מהתהליך הנצפה". הרשת העצבית שאומנה יתר על המידה, שנועדה לבצע פעולות מתמטיות מסוימות, למדה את המבנה הכללי של המספרים והפנימה את התוצאה. זה התבלבל והפך לפתרון.

"זה [היה] מאוד מרגש ומעורר מחשבה", אמר מיכאיל בלקין מאוניברסיטת קליפורניה, סן דייגו, שחוקר את התכונות התיאורטיות והאמפיריות של רשתות עצביות. "זה עורר הרבה עבודת מעקב."

ואכן, אחרים שיכפלו את התוצאות ואף הנדסו אותן לאחור. המאמרים האחרונים לא רק הבהירו מה עושות הרשתות העצביות הללו כשהן מתרוצצות, אלא גם סיפקו עדשה חדשה שדרכה ניתן לבחון את הקרביים שלהן. "מערך ה-grokking הוא כמו מודל אורגניזם טוב להבנת הרבה היבטים שונים של למידה עמוקה", אמר אריק מישו של המכון הטכנולוגי של מסצ'וסטס.

הצצה בתוך האורגניזם הזה היא לפעמים די חושפנית. "לא רק שאתה יכול למצוא מבנה יפה, אלא שהמבנה היפה הזה חשוב להבנת מה שקורה בפנים", אמר ניל ננדה, עכשיו ב-Google DeepMind בלונדון.

מעבר לגבולות

ביסודו, העבודה של מודל למידת מכונה נראית פשוטה: הפוך קלט נתון לפלט רצוי. תפקידו של אלגוריתם הלמידה הוא לחפש את הפונקציה הטובה ביותר שיכולה לעשות זאת. כל מודל נתון יכול לגשת רק לקבוצה מוגבלת של פונקציות, והקבוצה הזו מוכתבת לרוב על ידי מספר הפרמטרים במודל, שבמקרה של רשתות עצביות שווה בערך למספר הקשרים בין נוירונים מלאכותיים.

מבוא

כאשר רשת מתאמנת, היא נוטה ללמוד פונקציות מורכבות יותר, והפער בין התפוקה הצפויה לתפוקה בפועל מתחילה ליפול לנתוני אימון. אפילו יותר טוב, הפער הזה, המכונה הפסד, מתחיל לרדת גם עבור נתוני מבחן, שהם נתונים חדשים שלא נעשה בהם שימוש באימון. אבל בשלב מסוים, המודל מתחיל להתאים יתר על המידה, ובעוד ההפסד בנתוני האימון ממשיך לרדת, ההפסד של נתוני הבדיקה מתחיל לעלות. אז, בדרך כלל, זה הזמן שבו החוקרים מפסיקים לאמן את הרשת.

זו הייתה החוכמה הרווחת כאשר הצוות ב-OpenAI החל לחקור כיצד רשת נוירונים יכולה לעשות מתמטיקה. הם השתמשו בקטן שנאי - ארכיטקטורת רשת שחוללה לאחרונה מהפכה במודלים של שפות גדולות - לעשות סוגים שונים של אריתמטיקה מודולרית, שבה אתה עובד עם קבוצה מוגבלת של מספרים החוזרים על עצמם. Modulo 12, למשל, יכול להיעשות על לוח שעון: 11 + 2 = 1. הצוות הראה דוגמאות לרשת של הוספת שני מספרים, a ו b, כדי לייצר פלט, c, במודולו 97 (שווה ערך ללוח שעון עם 97 מספרים). לאחר מכן הם בדקו את השנאי על שילובים בלתי נראים של a ו b כדי לראות אם הוא יכול לחזות נכון c.

כצפוי, כאשר הרשת נכנסה למשטר התאמת יתר, ההפסד בנתוני האימונים התקרב לאפס (היא החלה לשנן את מה שראתה), וההפסד בנתוני המבחן החל לטפס. זה לא היה הכללה. "ואז יום אחד, התמזל מזלנו", אמרה ראש הצוות אלתיאה פאוור, נואם בספטמבר 2022 בכנס בסן פרנסיסקו. "ובמזל, אני מתכוון לשכחן."

חבר הצוות שהכשיר את הרשת יצא לחופשה ושכח להפסיק את האימון. כשהגרסה הזו של הרשת המשיכה להתאמן, היא פתאום הפכה מדויקת בנתונים שלא נראים. בדיקה אוטומטית גילתה את הדיוק הבלתי צפוי הזה לשאר הצוות, ועד מהרה הם הבינו שהרשת מצאה דרכים חכמות לסדר את המספרים a ו b. מבחינה פנימית, הרשת מייצגת את המספרים במרחב בעל ממדים גבוהים, אך כאשר החוקרים הקרינו את המספרים הללו למרחב הדו-ממדי ומיפו אותם, המספרים יצרו מעגל.

זה היה מדהים. הצוות מעולם לא אמר לדגם שהוא עושה מתמטיקה של מודולו 97, או אפילו למה מודולו מתכוון - הם רק הראו לו דוגמאות של חשבון. נראה שהמודל נתקל באיזה פתרון אנליטי עמוק יותר - משוואה שהכללה לכל השילובים של a ו b, אפילו מעבר לנתוני ההכשרה. הרשת התפרעה, והדיוק בנתוני הבדיקה עלה ל-100%. "זה מוזר," אמרה פאוור לקהל שלה.

הצוות אימת את התוצאות באמצעות משימות שונות ורשתות שונות. התגלית החזיקה מעמד.

של שעונים ופיצות

אבל מה הייתה המשוואה שהרשת מצאה? העיתון של OpenAI לא אמר, אבל התוצאה משכה את תשומת ליבה של ננדה. "אחת מתעלומות הליבה והדברים המעצבנים של רשתות עצביות היא שהן טובות מאוד במה שהן עושות, אבל כברירת מחדל, אין לנו מושג איך הן פועלות", אמרה ננדה, שעבודתה מתמקדת בהנדסה לאחור. רשת כדי להבין אילו אלגוריתמים היא למדה.

ננדה היה מוקסם מתגלית OpenAI, והוא החליט להפריד בין רשת עצבית שהתבלבלה. הוא עיצב גרסה פשוטה אפילו יותר של הרשת העצבית OpenAI כך שיוכל לבחון מקרוב את הפרמטרים של המודל כשהוא למד לעשות חשבון מודולרי. הוא ראה את אותה התנהגות: התאמת יתר שפנתה את מקומו להכללה ושיפור פתאומי בדיוק הבדיקה. הרשת שלו גם סידרה מספרים במעגל. זה לקח קצת מאמץ, אבל ננדה בסופו של דבר הבינה למה.

בזמן שהיא מייצגת את המספרים במעגל, הרשת לא פשוט ספרה ספרות כמו גננת שצופה בשעון: היא עשתה כמה מניפולציות מתמטיות מתוחכמות. על ידי לימוד ערכי הפרמטרים של הרשת, ננדה ועמיתיו חשפו שזה היה הוספת מספרי השעון על ידי ביצוע "טרנספורמציות פורייה נפרדות" עליהם - הפיכת המספרים באמצעות פונקציות טריגונומטריות כגון סינוס וקוסינוס ולאחר מכן מניפולציה של ערכים אלו באמצעות זהויות טריגונומטריות כדי להגיע לפתרון. לפחות, זה מה שהרשת הספציפית שלו עשתה.

כאשר צוות ב-MIT עוקבים אחריו על עבודתה של ננדה, הם הראו שהרשתות הנוירונים השוקקות לא תמיד מגלות את אלגוריתם ה"שעון" הזה. לפעמים הרשתות מוצאות את מה שהחוקרים מכנים אלגוריתם "פיצה". גישה זו מדמיינת פיצה מחולקת לפרוסות וממוספרת לפי הסדר. כדי להוסיף שני מספרים, דמיינו לעצמכם ציור חיצים ממרכז הפיצה למספרים המדוברים, ואז מחשבים את הקו שחוצה את הזווית שיצרו שני החצים הראשונים. קו זה עובר באמצע פרוסה כלשהי מהפיצה: מספר הפרוסה הוא סכום שני המספרים. ניתן לרשום את הפעולות הללו גם במונחים של מניפולציות טריגונומטריות ואלגבריות של הסינוסים והקוסינוסים של a ו b, והם תיאורטית מדויקים בדיוק כמו שמתקרב השעון.

מבוא

"גם לשעון וגם לאלגוריתמים לפיצה יש את הייצוג המעגלי הזה", אמר צימינג ליו, חבר בצוות MIT. "אבל... איך הם ממנפים את הסינוסים והקוסינוסים האלה שונים. לכן אנחנו קוראים להם אלגוריתמים שונים".

וזה עדיין לא היה הכל. לאחר הכשרה של רשתות רבות לעשות מתמטיקה מודולו, ליו ועמיתיו גילו שכ-40% מהאלגוריתמים שהתגלו על ידי רשתות אלו היו זנים של אלגוריתמי פיצה או שעון. הצוות לא הצליח לפענח מה הרשתות עושות בשאר הזמן. לגבי האלגוריתמים של הפיצה והשעון, "זה קורה שהוא מוצא משהו שאנחנו בני אדם יכולים לפרש", אמר ליו.

ולא משנה מה האלגוריתם שרשת לומדת כשהיא מעוררת בעיה, הוא אפילו חזק יותר בהכללה ממה שחשדו החוקרים. כאשר צוות באוניברסיטת מרילנד הזנה ברשת עצבית פשוטה נתוני אימון עם שגיאות אקראיות, הרשת תחילה התנהגה כמצופה: התאמת יתר על המידה את נתוני האימון, שגיאות והכל, וביצוע גרוע בנתוני בדיקה לא פגומים. עם זאת, ברגע שהרשת גרסה והחלה לענות נכון על שאלות המבחן, היא יכלה להפיק תשובות נכונות אפילו עבור הערכים השגויים, לשכוח את התשובות השגויות ששוננו ולהכליל אפילו לנתוני ההדרכה שלה. "משימת ההפקה היא למעשה די חזקה לשחיתויות מסוג זה," אמר דרשיל דושי, אחד ממחברי העיתון.

קרב על שליטה

כתוצאה מכך, החוקרים מתחילים כעת להבין את התהליך שמוביל לרשת שמעבירה את הנתונים שלה. ננדה רואה בפתאומיות החיצונית הנראית של גרקינג תוצאה של מעבר פנימי הדרגתי משינון להכללה, המשתמשים בשני אלגוריתמים שונים בתוך הרשת העצבית. כאשר רשת מתחילה ללמוד, הוא אמר, היא מבינה תחילה את אלגוריתם השינון הקל יותר; עם זאת, למרות שהאלגוריתם פשוט יותר, הוא דורש משאבים ניכרים, מכיוון שהרשת צריכה לשנן כל מופע של נתוני האימון. אבל אפילו תוך כדי שינון, חלקים מהרשת העצבית מתחילים ליצור מעגלים שמיישמים את הפתרון הכללי. שני האלגוריתמים מתחרים על משאבים במהלך האימון, אבל ההכללה בסופו של דבר מנצחת אם הרשת מאומנת עם מרכיב נוסף שנקרא רגוליזציה.

"הרגולציה מסיטה את הפתרון לאט לכיוון פתרון ההכללה", אמר ליו. זהו תהליך שמפחית את היכולת התפקודית של המודל - מורכבות הפונקציה שהמודל יכול ללמוד. ככל שההסדרה גוזרת את מורכבות המודל, האלגוריתם ההכללה, שהוא פחות מורכב, מנצח בסופו של דבר. "הכללה פשוטה יותר עבור אותה [רמת] ביצועים", אמרה ננדה. לבסוף, הרשת העצבית משליכה את אלגוריתם השינון.

לכן, בעוד שנראה שהיכולת המושהית להכליל מופיעה פתאום, בפרמטרים הפנימיים של הרשת לומדים בהתמדה את האלגוריתם ההכללה. רק כשהרשת גם למדה את האלגוריתם ההכללה וגם הסירה לחלוטין את אלגוריתם השינון, אתה מתחיל להתעסק. "ייתכן שדברים שנראים פתאומיים למעשה יהיו הדרגתיים מתחת לפני השטח", אמרה ננדה - בעיה שעלתה גם ב מחקר אחר למידת מכונה.

למרות פריצות הדרך הללו, חשוב לזכור כי מחקר גרפיקה נמצא עדיין בחיתוליו. עד כה, חוקרים חקרו רק רשתות קטנות במיוחד, ולא ברור אם הממצאים הללו יתקיימו עם רשתות גדולות וחזקות יותר. בלקין גם מזהיר שחשבון מודולרי הוא "טיפה בים" בהשוואה לכל המשימות השונות הנעשות על ידי הרשתות העצביות של ימינו. הנדסה לאחור של פתרון של רשת עצבית למתמטיקה כזו אולי לא יספיק כדי להבין את העקרונות הכלליים שמניעים את הרשתות הללו לקראת הכללה. "זה נהדר ללמוד את העצים," אמר בלקין. "אבל אנחנו גם צריכים ללמוד את היער."

עם זאת, ליכולת להציץ בתוך הרשתות הללו ולהבין אותן בצורה אנליטית יש השלכות עצומות. עבור רובנו, טרנספורמציה של פורייה וקשתות עיגולים לחצייה הן דרך מוזרה מאוד לעשות הוספת מודולו - נוירונים אנושיים פשוט לא חושבים ככה. "אבל אם אתה בנוי מאלגברה לינארית, זה באמת הגיוני לעשות את זה ככה," אמרה ננדה.

"המוחים המוזרים [המלאכותיים] האלה עובדים אחרת משלנו", אמר. "ל[להם] חוקים ומבנה משלהם. אנחנו צריכים ללמוד לחשוב איך רשת נוירונים חושבת".

ספוט_ימג

המודיעין האחרון

ספוט_ימג