در سالهای اخیر، پیشرفتهای چشمگیری در زمینه تولید تصاویر با استفاده از هوش مصنوعی صورت گرفته است. یکی از این مدلهای نوآورانه «Stable Diffusion» نام دارد که در سال ۲۰۲۲ و با استفاده از تکنیکهای پیشرفته یادگیری عمیق معرفی شد.
در این مقاله همه چیز درباره هوش مصنوعی استیبل دیفیوژن (Stable Diffusion) را خواهیم دانست و آن را معرفی و بررسی خواهیم کرد. با ویژگی های آن آشنا خواهیم شد و نحوه استفاده از استیبل دیفیوژن را یاد خواهیم گرفت.
استیبل دیفیوژن چیست؟
«استیبل دیفیوژن» یک مدل متن به تصویر با منبع باز است که امکان تولید تصاویر بر اساس توضیحات متنی(پرامپت) را فراهم میکند. به عبارت دیگر، این مدل قادر است متن ورودی را به یک نمایش بصری تبدیل نماید. بدین ترتیب، کاربر میتواند با توضیح دادن دقیق موضوع مورد نظرش تصویر مرتبطی تولید کند. این امکانات پیشرفته «Stable Diffusion» آن را به یکی از پیشروترین مدلهای تولید تصویر با هوش مصنوعی تبدیل کرده است.
تاریخچه استیبل دیفیوژن
استیبل دیفیوژن در سال ۲۰۲۲ توسط Stability AI منتشر شد. مجوز فنی این مدل توسط گروه CompVis در دانشگاه لودویگ ماکسیمیلیان مونیخ منتشر شد. توسعه این مدل هوش مصنوعی توسط پاتریک اسر از Runway و رابین رومباخ از CompVis، که از جمله محققانی بودند که قبلاً معماری مدل انتشار پنهان مورد استفاده توسط Stable Diffusion را اختراع کرده بودند، رهبری شد. Stability AI همچنین EleutherAI و LAION (یک غیرانتفاعی آلمانی که مجموعه دادههایی را که Stable Diffusion بر روی آن آموزش داده شده بود جمعآوری کرد) به عنوان حامیان این پروژه معرفی کرد. در اکتبر ۲۰۲۲، هوش مصنوعی استیبل دیفیوژن 101 میلیون دلار آمریکا را به رهبری شرکای سرمایه گذاری لایت اسپید و مدیریت Coatue جمع آوری کرد.
استیبل دیفیوژن چگونه کار می کند؟
مدل انتشار Stable Diffusion در مقایسه با بسیاری از مدلهای دیگر تولید تصویر، متفاوت است. این مدل برخلاف دیگر مدلها از روش رمزگذاری تصویر با نویز گاوسی استفاده میکند. در این روش، نویزی تصادفی به تصویر اضافه میشود تا اطلاعات آن رمز شود. سپس با استفاده از یک الگوریتم پیشبینی کننده نویز همراه با فرآیند معکوسسازی انتشار، تصویر بازسازی میشود. این روش باعث میشود تا مدل Stable Diffusion بتواند تصاویر با کیفیت بالاتری نسبت به دیگر مدلها تولید کند.
از نکات منحصر به فرد مدل انتشار Stable Diffusion این است که از فضای پنهانی با کیفیت کاهشیافته به جای فضای پیکسلی تصویر استفاده میکند. یک تصویر رنگی با وضوح ۵۱۲×۵۱۲ حاوی ۷۸۶۴۳۲ مقدار است اما Stable Diffusion از تصویری فشردهتر استفاده میکند که حجم آن ۴۸ برابر کمتر با ۱۶۳۸۴ مقدار است. این کاهش حجم باعث میشود نیازهای پردازشی به شدت کمتر شود بهطوریکه میتوان از این مدل روی دسکتاپ با پردازنده گرافیکی ۸ گیگابایتی هم استفاده کرد.
فضای پنهان کوچکتر به دلیل غیرتصادفی بودن دادههای ورودی کارآمدتر عمل میکند. رمزگذار خودکارمتغیر (VAE) برای بازسازی جزئیات ریز تصویر نقش مهمی دارد تا تصاویر واقعیتری خلق شود.
ویژگی های استیبل دیفیوژن چیست؟
استیبل دیفیوژن ویژگی های منحصر به فردی دارد که آن را از بقیه مدل های هوش مصنوعی تولید عکس از متن، متمایز می کند. استیبل دیفیوژن برخلاف رقبا متن باز است. ویژگی متن باز بودن استیبل دیفیوژن باعث شده چندین هزار مدل سفارشی و شخصی سازی شده برپایه آن ایجاد شود که مهم ترین نقطه قوت استیبل دیفیوژن است. مدل های سفارشی باعث ایجاد تصاویر خلاقانه تر و باکیفیت تر می شود.
مدل های سفارشی برپایه سبک های هنری (انیمه، واقعی، کارتونی و…) و یا متناسب با فرهنگ یک منطقه خاص شخصی سازی شده اند. برای مثال مدل های DALL-E و میدجرنی به استفاده از اسامی شخص خاص و یا محتوای غیر اخلاقی حساس هستند و ممکن است در صورت درخواست این موارد توسط کاربر، منجر به تعلیق حساب کاربری شود. اما مدل های سفارشی استیبل دیفیوژن این محدودیت ها را دور می زنند و کاربر می تواند هر نوع عکس که بخواهد، ایجاد کند.
از دیگر ویژگی های استیبل دیفیوژن می توان به رایگان بودن آن اشاره کرد. رقبای استیبل دیفیوژن در بستر آنلاین ارائه می شوند و این منجر به دریافت هزینه از کاربر می شود، اما می توان استیبل دیفیوژن را به صورت رایگان بر روی رایانه شخصی نصب کرد و از آن استفاده کرد.
شاید شنیدن استفاده رایگان از استیبل دیفیوژن خبر خوشحال کننده ای باشد اما چند مشکل وجود دارد. مشکل اول این است که استیبل دیفیوژن به خودی خود فاقد رابط کاربری است. به دلیل نداشتن رابط کاربری نصب آن کمی سخت است و نیاز به آموزش دارد. همچنین استفاده از استیبل دیفیوژن بر روی رایانه شخصی نیازمند یک سیستم گرافیکی نسبتا قوی ( حداقل 4 گیگابایت VRAM) است.
اگر شرایط نصب استیبل دیفیوژن بر روی رایانه شخصی تان را ندارید و حس می کنید که از استفاده از استیبل دیفیوژن محروم شده اید، نگران نباشید. چرا که سرویس ها و سایت های آنلاین مختلفی وجود دارند که امکان استفاده آنلاین از استیبل دیفیوژن را به کاربر ارائه می دهند. فقط تنها ایراد استفاده از این سایت ها این است که اغلب رایگان نیستند و برای استفاده نیازمند تهیه اشتراک هستید. هرچند که امکان استفاده ی رایگان به صورت محدود را نیز به کاربر می دهند.
در ادامه مقاله طریقه استفاده از استیبل دیفیوژن را آموزش دادیم و سایت هایی که امکان استفاده رایگان از استیبل دیفیوژن را به ما می دهند را معرفی کرده ایم.
یکی دیگر از ویژگی های منحصر به فرد استیبل دیفیوژن که سایر رقبا ندارند، پارامتر های مختلفی است که هرکدام امکان ویرایش و شخصی سازی بیشتر عکس تولیدی و همچنین تولید عکس های با کیفیت تر را برای کاربر فراهم می کنند. در ادامه مقاله هر یک از این پارامتر ها را به طور جداگانه معرفی کرده ایم.
چگونه از استیبل دیفیوژن استفاده کنیم؟
همانطور که گفته شد دو روش برای استفاده از استیبل دیفیوژن وجود دارد. روش اول نصب استیبل دیفیوژن روی رایانه شخصی و روش دوم استفاده از سایت های آنلاین ارائه دهنده استیبل دیفیوژن. در زیر چندین سایت ارائه دهنده استیبل دیفیوژن به صورت پولی و رایگان را به طور خلاصه معرفی کرده ایم:
سایت Dream Studio: این سایت توسط استبیلتی اِی آی منتشر شده است و می توانید با هر حساب کاربری ۱۲۵ عکس بسازید. می توانید از انواع پارامتر ها برای تولید عکس باکیفیت استفاده کنید.
سایت Tensor.Art: سایت Tensor Art یکی از بهترین های لیست ماست. این سایت در واقع یک شبکه اجتماعی است که کاربران می توانند هم با استیبل دیفیوژن عکس تولید کنند و هم آن ها را با دیگران به اشتراک بگذارند. این سایت مدل های سفارشی مختلفی را ارائه می دهد. Tensor Art روزانه ۱۰۰ اعتبار رایگان برای تولید تصاویر در اختیار ما می گذارد.
سایت Civitai: این سایت هم مشابه Tensor Art می باشد و همان امکانات را در اختیارمان قرار می دهد. سایت Civitai روزانه برای ما ۱۰۰ اعتبار رایگان می دهد.
سایت AI Easypic: این سایت مدل های سفارشی زیادی در اختیارتان قرار می دهد. از دیگر امکانات این سایت می توان به ارائه پارامتر هایی مثل Seed ،Sampler ،Steps اشاره کرد. همچنین بخشی به نام اکسپلور دارد که می توانید عکس های مختلف را کاوش کنید. این سایت ۳۰ اعتبار رایگان برای استفاده در اختیار ما قرار می دهد.
سایت novita: سایت novita دیگر سایت لیست ماست که اعتبار رایگان برای تولید تصاویر در اختیار ما قرار می دهد. این سایت امکاناتی نظیر ارائه مدل های سفارشی مختلف و پارامتر های مختلف دارد.
سایت Poe: این سایت تنها یک مدل سفارشی رسمی استیبل دیفیوژن را پشتیبانی می کند و روزانه می توانید چندین عکس رایگان بسازید.
Leonardo AI: لئوناردو خود یک ابزار هوش مصنوعی تولید عکس از متن است. با این حال مدل های رسمی استیبل دیفیوژن را هم پشتیبانی می کند که می توانید استیبل دیفیوژن را از لیست مدل های آن انتخاب کنید.
مطلب پیشنهادی: ۵ سایت آنلاین برای استفاده رایگان از Stable Diffusion
پارامتر های مختلف استیبل دیفیوژن
استیبل دیفیوژن پارامتر های مختلفی برای ساخت عکس های دقیق تر و با جزئیات تر دارد.
Negative Prompt یا پرامپت منفی : پرامپت منفی پارامتری است که کاربر می تواند آن چیزی که نمی خواهد در تصویر ساخته شده باشد را مشخص کند. برای مثال با نوشتن کلمه خورشید به عنوان پرامپت منفی در ایجاد یک عکس، استیبل دیفیوژن، خورشید را در عکس خروجی قرار نخواهد داد.
مطلب پیشنهادی: پرامپت منفی یا Negative Prompt چیست؟
پارامتر Seed: پارامتر Seed یا بذر، یک عدد تصادفی است که به عنوان الگویی از رنگ و نورپردازی عمل می کنند. تغییر عدد Seed باعث میشود نتایج متفاوتتری تولید شوند. یعنی اگر دو بار متون، تصاویر یا اطلاعاتی تولید کنیم و هر بار سید دیگری را وارد کنیم، نتیجه با هم تفاوت پیدا میکند
مطلب پیشنهادی: پارامتر Seed در Stable Diffusion چیست؟
پارامتر CFG scale: عبارت CFG در استیبل دیفیوژن مخفف Classifier Free Guidance scale است. مقیاس CFG پارامتری است که استیبل دیفیوژن را کنترل می کند که چقدر باید از ورودی سریع در تولید تصویر پیروی کند. مقدار CFG پایین به هوش مصنوعی آزادی بیشتری برای خلاقیت میدهد، در حالی که اعداد بالاتر، آن را مجبور میکند بیشتر به پرامپت های نوشته شده پایبند باشد.
مطلب پیشنهادی: پارامتر CFG Scale در استیبل دیفیوژن چیست؟ و چگونه از آن استفاده کنیم؟
پارامتر Sampling Steps: در استیبل دیفیوژن، مراحل نمونهگیری که به آنها سمپلینگ استپز هم میگویند، به تعداد مراحلی اشاره دارند که هوش مصنوعی در حین تولید تصویر یا متن طی میکند تا آن را بهبود ببخشد. هرچه این مراحل بیشتر باشند، تولید نهایی وقت بیشتری میبرد اما کیفیت بهتری خواهد داشت. چرا که هوش مصنوعی فرصت بیشتری برای تکمیل و بهینهسازی محتوا دارد. معمولاً مقدار پیشفرض این مراحل در استیبل دیفیوژن برابر 25 است اما کاربر میتواند آن را تغییر دهد.
پارامتر Upscaler: در استیبل دیفیوژن، ابزاری به نام آپ اسکیلر وجود دارد که وظیفه افزایش رزولوشن تصاویر ورودی را بر عهده دارد. این ابزار به صورت خودکار تصاویری را که رزولوشن پایینتر مانند ۱۲۸ تا ۲۵۶ پیکسل دارند را به تصاویری با رزولوشن بالاتری بالای ۵۱۲ یا حتی ۱۰۲۴ پیکسل تبدیل میکند. این امکان کارآمد آپ اسکیلر اجازه میدهد تصاویری با کیفیت بالاتر و بدون استفاده از الگوریتمهای سنگینی مانند GAN در استیبل دیفیوژن تولید شوند.
مدل های هوش مصنوعی روز به روز در حال توسعه هستند. استیبل دیفیوژن نیز به خاطر متن باز بودن چشم انداز روشنی دارد. در این مقاله مدل هوش مصنوعی استیبل دیفیوژن را معرفی کردیم و ویژگی های آن را بررسی کردیم. امیدواریم این مطلب برای شما مفید بوده باشد.