محققان تکنیکی را نشان میدهند که میتوان از آن برای بررسی یک مدل برای دیدن آنچه در مورد موضوعات جدید میداند استفاده کرد
مدلهای زبان بزرگ، مانند آنهایی که چترباتهای هوش مصنوعی محبوب مانند ChatGPT را نیرو میدهند، بسیار پیچیده هستند. اگرچه این مدلها به عنوان ابزار در بسیاری از زمینهها، مانند پشتیبانی مشتری، تولید کد و ترجمه زبان استفاده میشوند، دانشمندان هنوز به طور کامل نحوه عملکرد آنها را درک نکردهاند.
در تلاش برای درک بهتر آنچه در زیر سرپوش میگذرد، محققان MIT و جاهای دیگر مکانیسمهایی را مطالعه کردند که این مدلهای عظیم یادگیری ماشینی دانش ذخیرهشده را بازیابی میکنند.
آنها نتیجه شگفت انگیزی پیدا کردند: مدل های زبان بزرگ (LLM) اغلب از یک تابع خطی بسیار ساده برای بازیابی و رمزگشایی حقایق ذخیره شده استفاده می کنند. علاوه بر این، مدل از همان تابع رمزگشایی برای انواع مشابهی از حقایق استفاده می کند. توابع خطی، معادلات تنها با دو متغیر و بدون توان، رابطه مستقیم و مستقیم بین دو متغیر را نشان میدهند.
محققان نشان دادند که با شناسایی توابع خطی برای حقایق مختلف، میتوانند مدل را بررسی کنند تا ببینند در مورد موضوعات جدید چه میداند و آن دانش در کجای مدل ذخیره میشود.
محققان با استفاده از تکنیکی که برای تخمین این توابع ساده ایجاد کردند، دریافتند که حتی زمانی که یک مدل به یک درخواست نادرست پاسخ میدهد، اغلب اطلاعات صحیح را ذخیره میکند. در آینده، دانشمندان میتوانند از چنین رویکردی برای یافتن و تصحیح کاذبهای درون مدل استفاده کنند، که میتواند تمایل مدل را به دادن پاسخهای نادرست یا بیمعنی کاهش دهد.
اگرچه این مدلها توابع غیرخطی و پیچیدهای هستند که بر روی دادههای زیادی آموزش داده میشوند و درک آنها بسیار سخت است، گاهی اوقات مکانیزمهای واقعاً سادهای در درون آنها کار میکنند. این یکی از نمونههای آن است.
هرناندز این مقاله را با همکار نویسنده ارشد آرناب شارما، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه نورث ایسترن نوشت. مشاور او، جاکوب آندریاس، دانشیار EECS و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). نویسنده ارشد دیوید باو، استادیار علوم کامپیوتر در Northeastern. و دیگران در MIT، دانشگاه هاروارد، و موسسه فناوری اسرائیل. این تحقیق در کنفرانس بینالمللی نمایشهای یادگیری ارائه خواهد شد.
یافتن حقایق
اکثر مدل های زبان بزرگ که مدل های ترانسفورماتور نیز نامیده می شوند، شبکه های عصبی هستند. شبکههای عصبی بر اساس مغز انسان، حاوی میلیاردها گره به هم پیوسته یا نورون هستند که در لایههای زیادی گروهبندی میشوند و دادهها را رمزگذاری و پردازش میکنند.
بسیاری از دانش ذخیره شده در یک ترانسفورماتور را می توان به عنوان روابطی نشان داد که موضوعات و اشیاء را به هم متصل می کند. به عنوان مثال، «مایلز دیویس ترومپت مینوازد» رابطهای است که سوژه، مایلز دیویس را به شیء، ترومپت متصل میکند.
همانطور که یک ترانسفورماتور دانش بیشتری به دست می آورد، حقایق اضافی در مورد یک موضوع خاص را در چندین لایه ذخیره می کند. اگر کاربر در مورد آن موضوع سؤال کند، مدل باید مرتبط ترین واقعیت را رمزگشایی کند تا به پرس و جو پاسخ دهد.
اگر کسی ترانسفورماتور را با گفتن «مایلز دیویس بازی میکند. . ” مدل باید با “ترومپت” و نه “ایلینوی” (ایالتی که مایلز دیویس در آن متولد شد) پاسخ دهد.
جایی در محاسبات شبکه، باید مکانیزمی وجود داشته باشد که به دنبال این واقعیت باشد که مایلز دیویس ترومپت مینوازد، و سپس آن اطلاعات را بیرون میآورد و به تولید کلمه بعدی کمک میکند. هرناندز میگوید: ما میخواستیم بفهمیم که این مکانیسم چیست.
محققان مجموعهای از آزمایشها را برای کاوش LLMها راهاندازی کردند و دریافتند که با وجود اینکه بسیار پیچیده هستند، مدلها اطلاعات رابطهای را با استفاده از یک تابع خطی ساده رمزگشایی میکنند. هر تابع مخصوص نوع واقعیتی است که بازیابی می شود.
به عنوان مثال، ترانسفورماتور هر زمان که بخواهد ابزاری را که یک فرد می نوازد را خروجی دهد، از یک تابع رمزگشایی استفاده می کند و هر بار که می خواهد وضعیتی را که در آن شخص متولد شده است را خروجی دهد.
محققان روشی برای تخمین این توابع ساده ابداع کردند و سپس توابعی را برای 47 رابطه مختلف مانند “پایتخت یک کشور” و “خواننده اصلی یک گروه” محاسبه کردند.
در حالی که ممکن است تعداد نامحدودی از روابط ممکن وجود داشته باشد، محققان مطالعه این زیرمجموعه خاص را انتخاب کردند زیرا آنها نماینده انواع حقایقی هستند که می توان به این روش نوشت.
آنها هر تابع را با تغییر موضوع آزمایش کردند تا ببینند آیا می تواند اطلاعات شی درست را بازیابی کند یا خیر. به عنوان مثال، تابع “پایتخت یک کشور” باید اسلو را بازیابی کند اگر موضوع نروژ باشد و لندن اگر موضوع انگلستان باشد.
توابع در بیش از 60 درصد مواقع اطلاعات صحیح را بازیابی می کنند، که نشان می دهد برخی از اطلاعات در یک ترانسفورماتور به این روش کدگذاری و بازیابی می شوند.
اما همه چیز به صورت خطی رمزگذاری نشده است. برای برخی از حقایق، حتی اگر مدل آنها را میداند و متنی را پیشبینی میکند که با این حقایق سازگار است، ما نمیتوانیم توابع خطی برای آنها پیدا کنیم. این نشان می دهد که مدل در حال انجام کارهای پیچیده تری برای ذخیره آن اطلاعات است.
تجسم دانش یک مدل
آنها همچنین از توابع برای تعیین اینکه مدل معتقد است در مورد موضوعات مختلف درست است، از توابع استفاده کردند.
در یک آزمایش، آنها با اعلان «بیل بردلی یک بود» شروع کردند و از توابع رمزگشایی برای «بازیهای ورزشی» و «حضور در دانشگاه» استفاده کردند تا ببینند آیا مدل میداند که سن بردلی یک بسکتبالیست است که در پرینستون تحصیل کرده است یا خیر.
هرناندز میگوید: «ما میتوانیم نشان دهیم که اگرچه مدل ممکن است هنگام تولید متن روی اطلاعات مختلف تمرکز کند، اما تمام آن اطلاعات را رمزگذاری میکند.
آنها از این تکنیک کاوشگر برای تولید آنچه «عدسی ویژگی» مینامند، استفاده کردند، شبکهای که محل ذخیره اطلاعات خاص در مورد یک رابطه خاص در لایههای متعدد ترانسفورماتور را تجسم میکند.
لنزهای مشخصه را می توان به طور خودکار تولید کرد و روشی ساده برای کمک به محققان برای درک بیشتر در مورد یک مدل ارائه می دهد. این ابزار تجسم میتواند دانشمندان و مهندسان را قادر سازد تا دانش ذخیرهشده را تصحیح کنند و به جلوگیری از ارائه اطلاعات نادرست چت ربات هوش مصنوعی کمک کند.
در آینده، هرناندز و همکارانش می خواهند بهتر بفهمند در مواردی که حقایق به صورت خطی ذخیره نمی شوند چه اتفاقی می افتد. آنها همچنین مایلند آزمایش هایی را با مدل های بزرگتر انجام دهند و همچنین دقت توابع رمزگشایی خطی را مطالعه کنند.
“این یک کار هیجان انگیز است که بخش گمشده ای را در درک ما از اینکه چگونه مدل های زبان بزرگ دانش واقعی را در طول استنتاج به یاد می آورند، آشکار می کند. کار قبلی نشان داد که LLM ها بازنمایی های غنی از اطلاعات موضوعات داده شده را می سازند، که از آنها ویژگی های خاصی در طول استنتاج استخراج می شود. این کار نشان میدهد که محاسبات غیرخطی پیچیده LLM برای استخراج ویژگیها را میتوان با یک تابع خطی ساده به خوبی تقریب داد”. این مطلب را مور گوا پیپک، استادیار دانشکده علوم کامپیوتر که با این کار درگیر نبوده می گوید.