مدل‌های زبان بزرگ از یک مکانیسم ساده و شگفت‌آور برای بازیابی دانش ذخیره‌شده استفاده می‌کنند

محققان تکنیکی را نشان می‌دهند که می‌توان از آن برای بررسی یک مدل برای دیدن آنچه در مورد موضوعات جدید می‌داند استفاده کرد

مدل‌های زبان بزرگ، مانند آن‌هایی که چت‌ربات‌های هوش مصنوعی محبوب مانند ChatGPT را نیرو می‌دهند، بسیار پیچیده هستند. اگرچه این مدل‌ها به عنوان ابزار در بسیاری از زمینه‌ها، مانند پشتیبانی مشتری، تولید کد و ترجمه زبان استفاده می‌شوند، دانشمندان هنوز به طور کامل نحوه عملکرد آنها را درک نکرده‌اند.

در تلاش برای درک بهتر آنچه در زیر سرپوش می‌گذرد، محققان MIT و جاهای دیگر مکانیسم‌هایی را مطالعه کردند که این مدل‌های عظیم یادگیری ماشینی دانش ذخیره‌شده را بازیابی می‌کنند.

آنها نتیجه شگفت انگیزی پیدا کردند: مدل های زبان بزرگ (LLM) اغلب از یک تابع خطی بسیار ساده برای بازیابی و رمزگشایی حقایق ذخیره شده استفاده می کنند. علاوه بر این، مدل از همان تابع رمزگشایی برای انواع مشابهی از حقایق استفاده می کند. توابع خطی، معادلات تنها با دو متغیر و بدون توان، رابطه مستقیم و مستقیم بین دو متغیر را نشان می‌دهند.

محققان نشان دادند که با شناسایی توابع خطی برای حقایق مختلف، می‌توانند مدل را بررسی کنند تا ببینند در مورد موضوعات جدید چه می‌داند و آن دانش در کجای مدل ذخیره می‌شود.

محققان با استفاده از تکنیکی که برای تخمین این توابع ساده ایجاد کردند، دریافتند که حتی زمانی که یک مدل به یک درخواست نادرست پاسخ می‌دهد، اغلب اطلاعات صحیح را ذخیره می‌کند. در آینده، دانشمندان می‌توانند از چنین رویکردی برای یافتن و تصحیح کاذب‌های درون مدل استفاده کنند، که می‌تواند تمایل مدل را به دادن پاسخ‌های نادرست یا بی‌معنی کاهش دهد.

اگرچه این مدل‌ها توابع غیرخطی و پیچیده‌ای هستند که بر روی داده‌های زیادی آموزش داده می‌شوند و درک آن‌ها بسیار سخت است، گاهی اوقات مکانیزم‌های واقعاً ساده‌ای در درون آنها کار می‌کنند. این یکی از نمونه‌های آن است.

هرناندز این مقاله را با همکار نویسنده ارشد آرناب شارما، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه نورث ایسترن نوشت. مشاور او، جاکوب آندریاس، دانشیار EECS و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). نویسنده ارشد دیوید باو، استادیار علوم کامپیوتر در Northeastern. و دیگران در MIT، دانشگاه هاروارد، و موسسه فناوری اسرائیل. این تحقیق در کنفرانس بین‌المللی نمایش‌های یادگیری ارائه خواهد شد.

یافتن حقایق

اکثر مدل های زبان بزرگ که مدل های ترانسفورماتور نیز نامیده می شوند، شبکه های عصبی هستند. شبکه‌های عصبی بر اساس مغز انسان، حاوی میلیاردها گره به هم پیوسته یا نورون هستند که در لایه‌های زیادی گروه‌بندی می‌شوند و داده‌ها را رمزگذاری و پردازش می‌کنند.

بسیاری از دانش ذخیره شده در یک ترانسفورماتور را می توان به عنوان روابطی نشان داد که موضوعات و اشیاء را به هم متصل می کند. به عنوان مثال، «مایلز دیویس ترومپت می‌نوازد» رابطه‌ای است که سوژه، مایلز دیویس را به شیء، ترومپت متصل می‌کند.

همانطور که یک ترانسفورماتور دانش بیشتری به دست می آورد، حقایق اضافی در مورد یک موضوع خاص را در چندین لایه ذخیره می کند. اگر کاربر در مورد آن موضوع سؤال کند، مدل باید مرتبط ترین واقعیت را رمزگشایی کند تا به پرس و جو پاسخ دهد.

اگر کسی ترانسفورماتور را با گفتن «مایلز دیویس بازی می‌کند. . ” مدل باید با “ترومپت” و نه “ایلینوی” (ایالتی که مایلز دیویس در آن متولد شد) پاسخ دهد.

جایی در محاسبات شبکه، باید مکانیزمی وجود داشته باشد که به دنبال این واقعیت باشد که مایلز دیویس ترومپت می‌نوازد، و سپس آن اطلاعات را بیرون می‌آورد و به تولید کلمه بعدی کمک می‌کند. هرناندز می‌گوید: ما می‌خواستیم بفهمیم که این مکانیسم چیست.

محققان مجموعه‌ای از آزمایش‌ها را برای کاوش LLM‌ها راه‌اندازی کردند و دریافتند که با وجود اینکه بسیار پیچیده هستند، مدل‌ها اطلاعات رابطه‌ای را با استفاده از یک تابع خطی ساده رمزگشایی می‌کنند. هر تابع مخصوص نوع واقعیتی است که بازیابی می شود.

به عنوان مثال، ترانسفورماتور هر زمان که بخواهد ابزاری را که یک فرد می نوازد را خروجی دهد، از یک تابع رمزگشایی استفاده می کند و هر بار که می خواهد وضعیتی را که در آن شخص متولد شده است را خروجی دهد.

محققان روشی برای تخمین این توابع ساده ابداع کردند و سپس توابعی را برای 47 رابطه مختلف مانند “پایتخت یک کشور” و “خواننده اصلی یک گروه” محاسبه کردند.

در حالی که ممکن است تعداد نامحدودی از روابط ممکن وجود داشته باشد، محققان مطالعه این زیرمجموعه خاص را انتخاب کردند زیرا آنها نماینده انواع حقایقی هستند که می توان به این روش نوشت.

آنها هر تابع را با تغییر موضوع آزمایش کردند تا ببینند آیا می تواند اطلاعات شی درست را بازیابی کند یا خیر. به عنوان مثال، تابع “پایتخت یک کشور” باید اسلو را بازیابی کند اگر موضوع نروژ باشد و لندن اگر موضوع انگلستان باشد.

توابع در بیش از 60 درصد مواقع اطلاعات صحیح را بازیابی می کنند، که نشان می دهد برخی از اطلاعات در یک ترانسفورماتور به این روش کدگذاری و بازیابی می شوند.

اما همه چیز به صورت خطی رمزگذاری نشده است. برای برخی از حقایق، حتی اگر مدل آنها را می‌داند و متنی را پیش‌بینی می‌کند که با این حقایق سازگار است، ما نمی‌توانیم توابع خطی برای آنها پیدا کنیم. این نشان می دهد که مدل در حال انجام کارهای پیچیده تری برای ذخیره آن اطلاعات است.

تجسم دانش یک مدل

آنها همچنین از توابع برای تعیین اینکه مدل معتقد است در مورد موضوعات مختلف درست است، از توابع استفاده کردند.

در یک آزمایش، آنها با اعلان «بیل بردلی یک بود» شروع کردند و از توابع رمزگشایی برای «بازی‌های ورزشی» و «حضور در دانشگاه» استفاده کردند تا ببینند آیا مدل می‌داند که سن بردلی یک بسکتبالیست است که در پرینستون تحصیل کرده است یا خیر.

هرناندز می‌گوید: «ما می‌توانیم نشان دهیم که اگرچه مدل ممکن است هنگام تولید متن روی اطلاعات مختلف تمرکز کند، اما تمام آن اطلاعات را رمزگذاری می‌کند.

آن‌ها از این تکنیک کاوشگر برای تولید آنچه «عدسی ویژگی» می‌نامند، استفاده کردند، شبکه‌ای که محل ذخیره اطلاعات خاص در مورد یک رابطه خاص در لایه‌های متعدد ترانسفورماتور را تجسم می‌کند.

لنزهای مشخصه را می توان به طور خودکار تولید کرد و روشی ساده برای کمک به محققان برای درک بیشتر در مورد یک مدل ارائه می دهد. این ابزار تجسم می‌تواند دانشمندان و مهندسان را قادر سازد تا دانش ذخیره‌شده را تصحیح کنند و به جلوگیری از ارائه اطلاعات نادرست چت ربات هوش مصنوعی کمک کند.

در آینده، هرناندز و همکارانش می خواهند بهتر بفهمند در مواردی که حقایق به صورت خطی ذخیره نمی شوند چه اتفاقی می افتد. آنها همچنین مایلند آزمایش هایی را با مدل های بزرگتر انجام دهند و همچنین دقت توابع رمزگشایی خطی را مطالعه کنند.

“این یک کار هیجان انگیز است که بخش گمشده ای را در درک ما از اینکه چگونه مدل های زبان بزرگ دانش واقعی را در طول استنتاج به یاد می آورند، آشکار می کند. کار قبلی نشان داد که LLM ها بازنمایی های غنی از اطلاعات موضوعات داده شده را می سازند، که از آنها ویژگی های خاصی در طول استنتاج استخراج می شود. این کار نشان می‌دهد که محاسبات غیرخطی پیچیده LLM برای استخراج ویژگی‌ها را می‌توان با یک تابع خطی ساده به خوبی تقریب داد”. این مطلب را مور گوا پیپک، استادیار دانشکده علوم کامپیوتر که با این کار درگیر نبوده می گوید.

منبع