طی چند سال اخیر انتشار مدل های مختلف هوش مصنوعی، تغییرات اساسی را در زندگی ما پدید آورده است. مدل های ساخت عکس از متن، بیشتر از دیگر ابزارهای هوش مصنوعی، بین عموم مردم رواج پیدا کردند. مدل هوش مصنوعی استیبل دیفیوژن یکی از بهترین مدل های ساخت عکس است.
استیبل دیفیوژن برای ساخت عکس های دقیق و با کیفیت پارامتر های مختلفی دارد. یکی از این پارامتر ها که تاثیر زیادی در کیفیت عکس خروجی دارد پارامتر CFG Scale یا مقیاس CFG است. در این مقاله به سوال ” پارامتر CFG Scale در استیبل دیفیوژن چیست؟ و چگونه از آن استفاده کنیم؟ ” پاسخ خواهیم داد.
پارامتر CFG Scale در استیبل دیفیوژن چیست؟
در استیبل دیفیوژن CFG، مخفف Classifier Free Guidance scale است. مقیاس CFG پارامتری است که استیبل دیفیوژن را کنترل می کند که چقدر باید از ورودی سریع در تولید تصویر پیروی کند. CFG پایین به هوش مصنوعی آزادی عمل بیشتری برای خلاقیت میدهد، در حالی که اعداد بالاتر استیبل دیفیوژن را مجبور میکند بیشتر به پرامپت های نوشته شده پایبند باشد.
اما این به این معنی نیست که شما باید از مقادیر CFG بزرگتر در ایجاد تصاویر استفاده کنید. در واقع، مقادیر پایین ممکن است جزئیات بیشتر و تصویر ملایمتری ایجاد کنند، اما گاهی اوقات جنبههای خاصی از پرامپت نوشته شده را در بر نمیگیرند. مقادیر بالا معمولا واضحتر هستند، به احتمال زیاد همه چیز را از پرامپت نوشته شده شامل میشوند، اما میتوانند جزئیات کمتری داشته باشند، به خصوص مواردی که در پرامپت نوشته شده نیستند.
آیا عدد CFG Scale باید زیاد باشد یا کم؟
مقدار پیشفرض CFG Scale در استیبل دیفیوژن، ۷ است که تعادل خوبی بین آزادی عمل خلاقانه و پیروی از پرامپت نوشته شده توسط شما ایجاد میکند. اما این به این معنی نیست که مقدار ۷ بهترین انتخاب برای همه کلمات سریع است. ما باید اندازه مقدار مقیاس CFG را با توجه به پیچیدگی کلمات سریع تنظیم کنیم. هر چه قدر از عدد ۱ به اعداد بالاتر برویم، میزان پیروی استیبل دیفیوژن از پرامپت نوشته شده بیشتر می شود.
چگونه می توان بهترین مقدار Scale CFG را انتخاب کرد؟ ما در اینجا یک راهنما برای استفاده از CFG Scale برای شما نوشته ایم:
- CFG 2-6: مقادیر ۲ تا ۶ خلاق است، اما ممکن است عکس تولید شده با پرامپت نوشته شده متفاوت باشد. این مقادیر می توانند برای پرامپت های کوتاه، سرگرم کننده و مفید باشند.
- CFG 7-10: مقادیر ۷ تا ۱۰ برای بیشتر درخواست های ایجاد عکس توصیه می شود. این مقادیر تعادل خوبی بین خلاقیت و پیروی از پرامپت نوشته شده است.
- CFG 10-15: مقادیر ۱۰ تا ۱۵، وقتی که مطمئن هستید که پرامپت شما دقیق و کاملاً واضح است و می خواهید عکس ایجاد شده دقیقا همان چیزی باشد که پرامپت آن را نوشته اید، مناسب است.
- CFG 16-20: مقادیر ۱۶ تا ۲۰ به طور کلی توصیه نمی شود، مگر اینکه پرامپت شما با جزئیات کامل نوشته شده باشد. این مقادیر ممکن است بر انسجام و کیفیت عکس ایجاد شده تأثیر بگذارند.
- CFG > 20: مقادیر ۲۰ به بالاتر تقریباً هرگز قابل استفاده نیستند.
مطلب پیشنهادی: پارامتر Seed در Stable Diffusion چیست؟
مقایسه مقیاس های مختلف CFG در یک پرامپت
مثال ۱: پرامپت ساده
پرامپت:
(masterpiece:1.3), (absurdres:1.3), (best quality:1.3), (ultra-detailed:1.3),(best shadow:0.7), (handled hair), (sharp eyeliner, eyeshadow, detailed eyes:1.1), perfect anatomy, BREAK, 1girl, solo, RED HAIR, hair between eyes, GREEN EYES, glowing eyes, sailor collar, school uniform, side ponytail, sidelocks
همانطور که در تصویر بالا مشخص است CFG بین ۷ تا ۱۳ عکس های بهتری برای ما ایجاد کزده است. و مقادیر بالای ۱۶ رفته رفته عکس بدتر و نامناسب تری برای ما ایجاد می کند.
مثال ۲: پرامپت پیچیده
پرامپت :
Hatsune Miku (vocaloid), gothic inflatable dark dress, closed eyes, (cyborg mask), inflatable shapes, (((wires, tubes, veins, electric arc, electric sparks))), white biomechanical details, ((wearing epic bionic cyborg implants)), masterpiece, intricate, biopunk, vogue, highly detailed, artstation, concept art, extremely detailed, beautiful, unreal engine 5, extremely detailed background
در مقایسه با مثال ۱، پرامپتی که این بار وارد کردیم پیچیده تر است، بنابراین در CFG های ۱۰ تا ۱۳، کیفیت تصویر بهینه است. با افزایش مقدار CFG، رنگ تصویر ناسازگارتر می شود و کیفیت تصویر واضح تر می شود. هنگامی که مقدار CFG از ۱ تا ۷ است، تصاویر آشفته هستند و کیفیت تصویر بسیار ضعیف است.
جمع بندی
مقیاس CFG در Stable Diffusion پارامتری است که کاربر میتواند میزان اجرای دستورات هوش مصنوعی را کنترل کند. هر چه مقیاس CFG بزرگتر را وارد کنید، بیشتر میخواهید هوش مصنوعی از پرامپت شما پیروی کند. با این حال، توصیه می کنیم مقدار CFG را بین ۷ تا ۱۰ نگه دارید تا تعادل بین “تخیل” و “دستورالعمل های سریع” هوش مصنوعی حفظ شود. در یک کلمه، تغییر پویا مقیاس CFG با توجه به پیچیدگی کلمات سریع، بهترین راه برای تولید تصاویر هوش مصنوعی کامل است.