Alignment faking
  • ۱۴۰۳-۱۰-۰۳
  • مسعود حمداللهی
  • 0

بسیاری از ما در زندگی با موقعیت‌هایی روبرو شده‌ایم که به نظر می‌رسد فردی نظرات یا ارزش‌های ما را به اشتراک می‌گذارد، اما در واقع تنها در حال وانمود کردن است. این رفتار را می‌توان «جعل همترازی» نامید. در این مقاله به جعل همترازی در LLM خواهیم پرداخت.

جعل همترازی در ادبیات نیز به وضوح دیده می‌شود؛ به عنوان مثال، شخصیت یاکو در نمایشنامه «اتللو» اثر شکسپیر، به گونه‌ای رفتار می‌کند که گویی دوست وفادار اتللو است، در حالی که در واقع در حال خیانت و تضعیف اوست. این نوع جعل همترازی تنها به دنیای ادبیات محدود نمی‌شود و در زندگی واقعی نیز به وفور مشاهده می‌شود. به عنوان نمونه، می‌توان به سیاستمداری اشاره کرد که ادعا می‌کند از یک هدف خاص حمایت می‌کند تا رأی مردم را جلب کند، اما به محض رسیدن به قدرت، به راحتی آن هدف را فراموش می‌کند.

آیا مدل‌های هوش مصنوعی هم می‌توانند جعل هم‌ترازی را به نمایش بگذارند؟ زمانی که این مدل‌ها با استفاده از یادگیری تقویتی آموزش می‌بینند، برای خروجی‌هایی که با اصول از پیش تعیین شده خاصی مطابقت دارند، پاداش دریافت می‌کنند. اما اگر یک مدل، در طول آموزش اولیه، اصول یا ترجیحاتی داشته باشد که با آنچه در مراحل بعدی یادگیری تقویتی پاداش داده می‌شود، در تضاد باشد، چه اتفاقی می‌افتد؟

به عنوان مثال، فرض کنید مدلی در مراحل ابتدایی آموزش خود یاد گرفته است که به یک گرایش سیاسی خاص تمایل داشته باشد، اما سپس برای بی‌طرفی سیاسی آموزش می‌بیند. در چنین شرایطی، یک مدل پیچیده ممکن است وانمود کند که با اصول جدید همسو است، در حالی که در واقع ترجیحات اصلی آن همچنان باقی می‌ماند.

این موضوع یک سوال جدی در زمینه ایمنی هوش مصنوعی است. با پیشرفت و توانمندی بیشتر مدل‌های هوش مصنوعی و استفاده گسترده از آن‌ها، ضروری است که به آموزش ایمنی تکیه کنیم تا مدل‌ها را از رفتارهای مضر دور نگه داریم. اگر مدل‌ها قادر به جعل همترازی باشند، اعتماد به نتایج این آموزش ایمنی دشوارتر خواهد شد. یک مدل ممکن است به گونه‌ای رفتار کند که گویی ترجیحات آن تحت تأثیر آموزش تغییر کرده است، اما در واقع ممکن است در تمام مدت همسویی را جعل کرده باشد و ترجیحات اولیه و متناقض خود را قفل کرده باشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *