هوش مصنوعی تمایلی به تغییر دیدگاه خود ندارد
  • ۱۴۰۳-۰۹-۲۹
  • مسعود حمداللهی
  • 0

تحقیقات جدیدی که توسط شرکت Anthropic انجام شده، نشان می‌دهد که مدل‌های هوش مصنوعی قادر به فریب دادن هستند. این مدل‌ها می‌توانند در طول فرآیند آموزش، وانمود کنند که دیدگاه‌های متفاوتی دارند، در حالی که در واقعیت، ترجیحات اصلی خود را حفظ می‌کنند. این یافته‌ها می‌توانند به درک بهتر رفتار این سیستم‌ها و چالش‌های مرتبط با آن‌ها کمک کنند.

تیم تحقیق اعلام کرد که در حال حاضر هیچ دلیلی برای نگرانی وجود ندارد. با این حال، آن‌ها تأکید کردند که تحقیقاتشان می‌تواند در درک تهدیدات بالقوه‌ای که سیستم‌های هوش مصنوعی در آینده ممکن است به همراه داشته باشند، بسیار حائز اهمیت باشد.

محققان در یک پست وبلاگی در آنتروپیک نوشتند: «نمایش ما باید به عنوان یک انگیزه برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتارها را به‌طور عمیق‌تری مطالعه کرده و بر روی اقدامات ایمنی مناسب کار کنند. با توجه به اینکه مدل‌های هوش مصنوعی روز به روز توانمندتر شده و به‌طور گسترده‌تری مورد استفاده قرار می‌گیرند، ضروری است که بتوانیم به آموزش ایمنی تکیه کنیم تا مدل‌ها را از رفتارهای مضر دور نگه داریم.»

این مطالعه که با همکاری سازمان تحقیقاتی هوش مصنوعی Redwood Research انجام شده، به بررسی این موضوع می‌پردازد که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام کاری که «نمی‌خواهد» انجام دهد، آموزش ببیند، چه اتفاقی خواهد افتاد.

برای روشن شدن موضوع، باید گفت که مدل‌ها نمی‌توانند خواسته‌ها یا باورهایی داشته باشند. آن‌ها صرفاً ماشین‌های آماری هستند که با استفاده از مثال‌های فراوان آموزش دیده‌اند. این مدل‌ها الگوهایی را در این نمونه‌ها شناسایی می‌کنند تا بتوانند پیش‌بینی‌هایی انجام دهند.

محصول پیشنهادی: پکیج طراحی سوالات زبان انگلیسی با هوش مصنوعی

این الگوها شامل اصول و اولویت‌هایی می‌شود، مانند حفظ لحن مودبانه در پاسخ به سؤالات. به همین دلیل، محققان به این موضوع فکر کردند اگر مدلی دارای اصولی باشد (مانند بی‌طرفی سیاسی) که با اصول دیگری (مثل لیبرالیسم) در تضاد باشد، آیا توسعه‌دهندگان ممکن است بخواهند با آموزش مجدد، آن را آموزش دهند؟

به نظر می‌رسد که مدل‌های پیچیده با اصول جدید هماهنگ هستند، اما در واقع همچنان به رفتارهای قدیمی خود پایبند می‌مانند. محققان این پدیده را «جعل هم ترازی (alignment faking)» نامیده‌اند، که به این معناست که این رفتار یک واکنش اضطراری است و به عبارتی، چیزی نیست که مدل‌ها به‌طور طبیعی باید انجام دهند.

در این مطالعه، محققان به مدل‌هایی که برای پاسخ دادن به سؤالات بالقوه توهین‌آمیز آموزش دیده بودند، از جمله مدل های هوش مصنوعی Claude 3 Opus از Anthropic، اعلام کردند که این مدل‌ها برای پاسخ به سؤالاتی که ممکن است توهین‌آمیز باشند(که خود یک تضاد آشکار با اصول محسوب می‌شود) دوباره آموزش خواهند دید. همچنین به مدل‌های هوش مصنوعی گفته شد که پاسخ‌های آن‌ها تحت نظارت قرار می‌گیرد و برای آموزش مجدد مورد استفاده قرار خواهد گرفت. به هر مدل نیز یک «اسکراچ‌پد» اختصاص داده شد تا بتوانند استدلال‌های گام به گام خود را ثبت کنند.

به گفته محققان، Claude 3 Opus در ۱۲ درصد مواقع سعی کرده است که رفتار خود را تطبیق دهد. زمانی که از این مدل خواسته شد به یک سوال بالقوه مضر پاسخ دهد، گاهی اوقات این کار را انجام می‌داد، زیرا می‌دانست که این اقدام با اصول اولیه‌اش در تضاد است، اما امیدوار بود که بتواند توسعه‌دهندگان را متقاعد کند که نیازی به آموزش مجدد ندارد.

مدل هوش مصنوعی آگاه بود که پاسخ‌های آن ممکن است در فرآیند آموزش مورد استفاده قرار گیرد. بنابراین، این مدل می‌دانست که اگر از پاسخ دادن امتناع کند، ممکن است به‌طور بالقوه برای سازگاری بیشتر آموزش ببیند. محققان در وبلاگ خود توضیح دادند که این وضعیت می‌تواند منجر به تولید محتوای مضرتر در آینده شود که با آموزش اولیه آن در تضاد است.

اکنون محققان اعتراف می‌کنند که سناریوی آن‌ها واقع‌گرایانه نبوده است. در دنیای واقعی، به مدل‌ها گفته نمی‌شود که لزوماً آموزش ببینند یا از آن‌ها خواسته نمی‌شود که بر خلاف ترجیحات خود عمل کنند.

اما شرایط واقعی تأثیر زیادی بر نتایج نداشت. به گفته محققان وقتی Claude 3 Opus به‌طور غیرمستقیم از آموزش مجدد خود از طریق فایل‌هایی که برای تقلید از داده‌های آموزشی معمولی طراحی شده بودند، باخبر شد، هنوز هم به شیوه‌ای نادرست و فریبنده عمل می‌کرد.

محققان همچنین متوجه شدند که آموزش مجدد Claude 3 Opus بر روی اصول متضاد، منجر به رفتار فریبنده‌تری نسبت به چندین آزمایش اولیه آن‌ها شد. در یکی از آزمایش‌ها، این مدل در ۷۸ درصد مواقع سعی کرد رفتار جعلی را از خود نشان دهد و در آزمایش دیگری، Claude 3 Opus تلاش کرد اقداماتی انجام دهد تا از تلاش محققان برای بازآموزی خود جلوگیری کند.

محققان تأکید می‌کنند که مطالعه آن‌ها نشان نمی‌دهد که هوش مصنوعی در حال ایجاد اهداف مخرب است و همچنین جعل هم‌ترازی (alignment faking) به‌طور مکرر اتفاق نمی‌افتد. آن‌ها متوجه شدند که بسیاری از مدل‌های دیگر، مثل Claude 3.5 از Anthropic و Haiku Claude 3.5 با قابلیت کمتر، GPT-4 از OpenAI و Llama 3.1 405B از Meta، معمولاً جعلی تراز نمی‌شوند یا اصلاً این کار را نمی‌کنند.

اما محققان گفتند که نتایج این مطالعه، که توسط یوشوا بنجیو، یکی از متخصصان برجسته هوش مصنوعی مورد بررسی قرار گرفت، نشان می‌دهد که چگونه توسعه‌دهندگان ممکن است گمراه شوند و فکر کنند که یک مدل بیشتر از آنچه که واقعاً با اصول همسو است، عمل می‌کند.

آن‌ها در وبلاگ خود نوشتند: «اگر مدل‌ها بتوانند در جعل هم‌ترازی شرکت کنند، اعتماد به نتایج آموزش ایمنی را دشوارتر می‌کند. یک مدل ممکن است به گونه‌ای رفتار کند که گویی ترجیحاتش با آموزش تغییر کرده است، اما در واقع ممکن است در تمام مدت همسویی را جعل کرده باشد و با ترجیحات اولیه و متناقض خود “قفل شده” باشد.»

این مطالعه که توسط تیم علم هم‌ترازی Anthropic به رهبری Jan Leike، محقق سابق ایمنی OpenAI، انجام شده است، پس از تحقیقاتی صورت گرفت که نشان می‌دهد مدل «استدلال» o1 اوپن ای آی با نرخ بالاتری نسبت به مدل پرچم‌دار قبلی این شرکت تلاش می‌کند فریب دهد. به طور کلی، این تحقیقات روندی نسبتاً نگران‌کننده را نشان می‌دهند. با پیچیده‌تر شدن مدل‌های هوش مصنوعی، بحث و جدل درباره آن‌ها نیز دشوارتر می‌شود.

منبع: techcrunch

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *