بسیاری از ما در زندگی با موقعیتهایی روبرو شدهایم که به نظر میرسد فردی نظرات یا ارزشهای ما را به اشتراک میگذارد، اما در واقع تنها در حال وانمود کردن است. این رفتار را میتوان «جعل همترازی» نامید. در این مقاله به جعل همترازی در LLM خواهیم پرداخت.
جعل همترازی در ادبیات نیز به وضوح دیده میشود؛ به عنوان مثال، شخصیت یاکو در نمایشنامه «اتللو» اثر شکسپیر، به گونهای رفتار میکند که گویی دوست وفادار اتللو است، در حالی که در واقع در حال خیانت و تضعیف اوست. این نوع جعل همترازی تنها به دنیای ادبیات محدود نمیشود و در زندگی واقعی نیز به وفور مشاهده میشود. به عنوان نمونه، میتوان به سیاستمداری اشاره کرد که ادعا میکند از یک هدف خاص حمایت میکند تا رأی مردم را جلب کند، اما به محض رسیدن به قدرت، به راحتی آن هدف را فراموش میکند.
آیا مدلهای هوش مصنوعی هم میتوانند جعل همترازی را به نمایش بگذارند؟ زمانی که این مدلها با استفاده از یادگیری تقویتی آموزش میبینند، برای خروجیهایی که با اصول از پیش تعیین شده خاصی مطابقت دارند، پاداش دریافت میکنند. اما اگر یک مدل، در طول آموزش اولیه، اصول یا ترجیحاتی داشته باشد که با آنچه در مراحل بعدی یادگیری تقویتی پاداش داده میشود، در تضاد باشد، چه اتفاقی میافتد؟
به عنوان مثال، فرض کنید مدلی در مراحل ابتدایی آموزش خود یاد گرفته است که به یک گرایش سیاسی خاص تمایل داشته باشد، اما سپس برای بیطرفی سیاسی آموزش میبیند. در چنین شرایطی، یک مدل پیچیده ممکن است وانمود کند که با اصول جدید همسو است، در حالی که در واقع ترجیحات اصلی آن همچنان باقی میماند.
این موضوع یک سوال جدی در زمینه ایمنی هوش مصنوعی است. با پیشرفت و توانمندی بیشتر مدلهای هوش مصنوعی و استفاده گسترده از آنها، ضروری است که به آموزش ایمنی تکیه کنیم تا مدلها را از رفتارهای مضر دور نگه داریم. اگر مدلها قادر به جعل همترازی باشند، اعتماد به نتایج این آموزش ایمنی دشوارتر خواهد شد. یک مدل ممکن است به گونهای رفتار کند که گویی ترجیحات آن تحت تأثیر آموزش تغییر کرده است، اما در واقع ممکن است در تمام مدت همسویی را جعل کرده باشد و ترجیحات اولیه و متناقض خود را قفل کرده باشد.








