تحقیقات جدیدی که توسط شرکت Anthropic انجام شده، نشان میدهد که مدلهای هوش مصنوعی قادر به فریب دادن هستند. این مدلها میتوانند در طول فرآیند آموزش، وانمود کنند که دیدگاههای متفاوتی دارند، در حالی که در واقعیت، ترجیحات اصلی خود را حفظ میکنند. این یافتهها میتوانند به درک بهتر رفتار این سیستمها و چالشهای مرتبط با آنها کمک کنند.
تیم تحقیق اعلام کرد که در حال حاضر هیچ دلیلی برای نگرانی وجود ندارد. با این حال، آنها تأکید کردند که تحقیقاتشان میتواند در درک تهدیدات بالقوهای که سیستمهای هوش مصنوعی در آینده ممکن است به همراه داشته باشند، بسیار حائز اهمیت باشد.
محققان در یک پست وبلاگی در آنتروپیک نوشتند: «نمایش ما باید به عنوان یک انگیزه برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتارها را بهطور عمیقتری مطالعه کرده و بر روی اقدامات ایمنی مناسب کار کنند. با توجه به اینکه مدلهای هوش مصنوعی روز به روز توانمندتر شده و بهطور گستردهتری مورد استفاده قرار میگیرند، ضروری است که بتوانیم به آموزش ایمنی تکیه کنیم تا مدلها را از رفتارهای مضر دور نگه داریم.»
این مطالعه که با همکاری سازمان تحقیقاتی هوش مصنوعی Redwood Research انجام شده، به بررسی این موضوع میپردازد که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام کاری که «نمیخواهد» انجام دهد، آموزش ببیند، چه اتفاقی خواهد افتاد.
برای روشن شدن موضوع، باید گفت که مدلها نمیتوانند خواستهها یا باورهایی داشته باشند. آنها صرفاً ماشینهای آماری هستند که با استفاده از مثالهای فراوان آموزش دیدهاند. این مدلها الگوهایی را در این نمونهها شناسایی میکنند تا بتوانند پیشبینیهایی انجام دهند.
محصول پیشنهادی: پکیج طراحی سوالات زبان انگلیسی با هوش مصنوعی
این الگوها شامل اصول و اولویتهایی میشود، مانند حفظ لحن مودبانه در پاسخ به سؤالات. به همین دلیل، محققان به این موضوع فکر کردند اگر مدلی دارای اصولی باشد (مانند بیطرفی سیاسی) که با اصول دیگری (مثل لیبرالیسم) در تضاد باشد، آیا توسعهدهندگان ممکن است بخواهند با آموزش مجدد، آن را آموزش دهند؟
به نظر میرسد که مدلهای پیچیده با اصول جدید هماهنگ هستند، اما در واقع همچنان به رفتارهای قدیمی خود پایبند میمانند. محققان این پدیده را «جعل هم ترازی (alignment faking)» نامیدهاند، که به این معناست که این رفتار یک واکنش اضطراری است و به عبارتی، چیزی نیست که مدلها بهطور طبیعی باید انجام دهند.
در این مطالعه، محققان به مدلهایی که برای پاسخ دادن به سؤالات بالقوه توهینآمیز آموزش دیده بودند، از جمله مدل های هوش مصنوعی Claude 3 Opus از Anthropic، اعلام کردند که این مدلها برای پاسخ به سؤالاتی که ممکن است توهینآمیز باشند(که خود یک تضاد آشکار با اصول محسوب میشود) دوباره آموزش خواهند دید. همچنین به مدلهای هوش مصنوعی گفته شد که پاسخهای آنها تحت نظارت قرار میگیرد و برای آموزش مجدد مورد استفاده قرار خواهد گرفت. به هر مدل نیز یک «اسکراچپد» اختصاص داده شد تا بتوانند استدلالهای گام به گام خود را ثبت کنند.
به گفته محققان، Claude 3 Opus در ۱۲ درصد مواقع سعی کرده است که رفتار خود را تطبیق دهد. زمانی که از این مدل خواسته شد به یک سوال بالقوه مضر پاسخ دهد، گاهی اوقات این کار را انجام میداد، زیرا میدانست که این اقدام با اصول اولیهاش در تضاد است، اما امیدوار بود که بتواند توسعهدهندگان را متقاعد کند که نیازی به آموزش مجدد ندارد.
مدل هوش مصنوعی آگاه بود که پاسخهای آن ممکن است در فرآیند آموزش مورد استفاده قرار گیرد. بنابراین، این مدل میدانست که اگر از پاسخ دادن امتناع کند، ممکن است بهطور بالقوه برای سازگاری بیشتر آموزش ببیند. محققان در وبلاگ خود توضیح دادند که این وضعیت میتواند منجر به تولید محتوای مضرتر در آینده شود که با آموزش اولیه آن در تضاد است.
اکنون محققان اعتراف میکنند که سناریوی آنها واقعگرایانه نبوده است. در دنیای واقعی، به مدلها گفته نمیشود که لزوماً آموزش ببینند یا از آنها خواسته نمیشود که بر خلاف ترجیحات خود عمل کنند.
اما شرایط واقعی تأثیر زیادی بر نتایج نداشت. به گفته محققان وقتی Claude 3 Opus بهطور غیرمستقیم از آموزش مجدد خود از طریق فایلهایی که برای تقلید از دادههای آموزشی معمولی طراحی شده بودند، باخبر شد، هنوز هم به شیوهای نادرست و فریبنده عمل میکرد.
محققان همچنین متوجه شدند که آموزش مجدد Claude 3 Opus بر روی اصول متضاد، منجر به رفتار فریبندهتری نسبت به چندین آزمایش اولیه آنها شد. در یکی از آزمایشها، این مدل در ۷۸ درصد مواقع سعی کرد رفتار جعلی را از خود نشان دهد و در آزمایش دیگری، Claude 3 Opus تلاش کرد اقداماتی انجام دهد تا از تلاش محققان برای بازآموزی خود جلوگیری کند.
محققان تأکید میکنند که مطالعه آنها نشان نمیدهد که هوش مصنوعی در حال ایجاد اهداف مخرب است و همچنین جعل همترازی (alignment faking) بهطور مکرر اتفاق نمیافتد. آنها متوجه شدند که بسیاری از مدلهای دیگر، مثل Claude 3.5 از Anthropic و Haiku Claude 3.5 با قابلیت کمتر، GPT-4 از OpenAI و Llama 3.1 405B از Meta، معمولاً جعلی تراز نمیشوند یا اصلاً این کار را نمیکنند.
اما محققان گفتند که نتایج این مطالعه، که توسط یوشوا بنجیو، یکی از متخصصان برجسته هوش مصنوعی مورد بررسی قرار گرفت، نشان میدهد که چگونه توسعهدهندگان ممکن است گمراه شوند و فکر کنند که یک مدل بیشتر از آنچه که واقعاً با اصول همسو است، عمل میکند.
آنها در وبلاگ خود نوشتند: «اگر مدلها بتوانند در جعل همترازی شرکت کنند، اعتماد به نتایج آموزش ایمنی را دشوارتر میکند. یک مدل ممکن است به گونهای رفتار کند که گویی ترجیحاتش با آموزش تغییر کرده است، اما در واقع ممکن است در تمام مدت همسویی را جعل کرده باشد و با ترجیحات اولیه و متناقض خود “قفل شده” باشد.»
این مطالعه که توسط تیم علم همترازی Anthropic به رهبری Jan Leike، محقق سابق ایمنی OpenAI، انجام شده است، پس از تحقیقاتی صورت گرفت که نشان میدهد مدل «استدلال» o1 اوپن ای آی با نرخ بالاتری نسبت به مدل پرچمدار قبلی این شرکت تلاش میکند فریب دهد. به طور کلی، این تحقیقات روندی نسبتاً نگرانکننده را نشان میدهند. با پیچیدهتر شدن مدلهای هوش مصنوعی، بحث و جدل درباره آنها نیز دشوارتر میشود.
منبع: techcrunch




