Gemini 2.0، جدیدترین پرچمدار هوش مصنوعی گوگل، می تواند متن، تصویر و گفتار تولید کند

۱۴۰۳-۰۹-۲۱
مسعود حمداللهی
اخبار
0

Gemini 2.0، جدیدترین پرچمدار هوش مصنوعی گوگل به منظور مقابله با مجموعه‌ای از ایده های جدید از سوی OpenAI معرفی شده است.

روز چهارشنبه، گوگل از مدل Gemini 2.0 Flash رونمایی کرد. به گفته این شرکت، این مدل قادر است علاوه بر تولید متن، تصاویر و صدا را به صورت بومی نیز ایجاد کند. همچنین Gemini 2.0 Flash می‌تواند از برنامه‌ها و سرویس‌های شخص ثالث بهره‌برداری کند و به این ترتیب امکان جستجو در گوگل، اجرای کد و انجام فعالیت‌های دیگر را فراهم می‌آورد.

نسخه آزمایشی Gemini 2.0 Flash از امروز از طریق API Gemini و پلتفرم‌های توسعه‌دهنده هوش مصنوعی گوگل، یعنی AI Studio و Vertex AI در دسترس قرار خواهد گرفت. با این حال، قابلیت‌های تولید صدا و تصویر تنها برای «شریک‌های دسترسی زودهنگام» قبل از عرضه عمومی در ماه ژانویه فعال خواهد شد.

گوگل اعلام کرده است که در ماه‌های آینده مدل ۲.۰ Flash را در انواع مختلف به محصولاتی نظیر Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و دیگر ابزارها اضافه خواهد کرد.

نسخه اول این مدل، یعنی ۱.۵ Flash، تنها قادر به تولید متن بود و برای بارهای کاری سنگین طراحی نشده بود. اما گوگل می‌گوید که مدل جدید، یعنی ۲.۰ Flash، بسیار چندمنظوره‌تر است و این قابلیت را دارد که ابزارهایی مانند جستجو را فراخوانی کرده و با APIهای خارجی تعامل داشته باشد.

مطلب پیشنهادی: ۵ سایت آنلاین برای استفاده رایگان از Stable Diffusion

تولسی دوشی، رئیس محصول مدل Gemini در گوگل، در یک نشست خبری روز سه‌شنبه گفت: «ما می‌دانیم که Flash به دلیل تعادل بین سرعت و عملکرد، در میان توسعه‌دهندگان بسیار محبوب است. با ۲.۰ Flash، این مدل همچنان سریع است، اما اکنون حتی قدرتمندتر شده است.»

گوگل ادعا می‌کند که مدل ۲.۰ Flash، که در برخی از معیارها دو برابر سریع‌تر از مدل Gemini 1.5 Pro است، بر اساس آزمایش‌های داخلی این شرکت، در زمینه‌هایی مانند کدنویسی و تجزیه و تحلیل تصویر به طور قابل توجهی بهبود یافته است. در واقع، این شرکت اعلام کرده است که ۲.۰ Flash به لطف مهارت‌های ریاضی برتر و قابلیت‌های واقعیت (factuality)، به عنوان پرچم‌دار مدل Gemini جایگزین ۱.۵ Pro خواهد شد.

همان‌طور که پیش‌تر اشاره شد، مدل ۲.۰ Flash قادر است تصاویر را به همراه متن تولید کند و همچنین این تصاویر را ویرایش نماید. علاوه بر این، این مدل می‌تواند عکس‌ها، ویدیوها و ضبط‌های صوتی را برای پاسخ به سؤالات مرتبط با آن‌ها (مانند «او چه گفت؟») تحلیل کند.

تولید صدا یکی دیگر از ویژگی‌های کلیدی مدل ۲.۰ Flash است که دوشی آن را به عنوان ویژگی‌ای قابل هدایت و قابل تنظیم توصیف کرده است. به عنوان مثال، این مدل می‌تواند متن را با استفاده از یکی از هشت صدای بهینه‌شده برای لهجه‌ها و زبان‌های مختلف روایت کند.

او افزود: «شما می‌توانید از آن بخواهید که آهسته‌تر صحبت کند، می‌توانید از او بخواهید که سریع‌تر صحبت کند، یا حتی می‌توانید از او بخواهید که چیزی شبیه دزدان دریایی بگوید.»

اکنون، به عنوان یک نویسنده، لازم است اشاره کنم که گوگل هنوز تصاویر یا نمونه‌های صوتی از مدل ۲.۰ Flash ارائه نکرده است. در حال حاضر، ما هیچ راهی برای مقایسه کیفیت این مدل با خروجی‌های مدل‌های دیگر نداریم، حداقل تا زمان نگارش این متن.

گوگل اعلام کرده است که از فناوری SynthID خود برای واترمارک کردن تمامی صداها و تصاویری که توسط مدل ۲.۰ Flash تولید می‌شوند، استفاده می‌کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند، یعنی محصولات منتخب گوگل، خروجی‌های این مدل به عنوان محتوای مصنوعی علامت‌گذاری می‌شوند.

این اقدام به منظور کاهش نگرانی‌ها در مورد سوء استفاده از فناوری‌های جدید انجام شده است. در واقع، دیپ فیک‌ها به عنوان یک تهدید رو به رشد شناخته می‌شوند. بر اساس گزارش ها، تعداد دیپ فیک‌های شناسایی شده در سطح جهانی از سال ۲۰۲۳ تا ۲۰۲۴ چهار برابر افزایش یافته است.

نسخه نهایی مدل ۲.۰ Flash در دی ماه عرضه خواهد شد. اما در این میان، گوگل یک API جدید به نام Multimodal Live API را منتشر می‌کند تا به توسعه‌دهندگان کمک کند برنامه‌هایی با قابلیت پخش صدا و ویدیوی بلادرنگ ایجاد کنند.

گوگل اعلام کرده است که با استفاده از Multimodal Live API، توسعه‌دهندگان می‌توانند اپلیکیشن‌های چندوجهی را به صورت بلادرنگ با ورودی‌های صوتی و تصویری از دوربین‌ها یا صفحه‌نمایش‌ها ایجاد کنند. این API از یکپارچه‌سازی ابزارها برای انجام وظایف مختلف پشتیبانی می‌کند و قادر است الگوهای مکالمه طبیعی (natural conversation patterns) مانند وقفه‌ها را مدیریت کند، که این ویژگی در راستای خطوط Realtime API OpenAI قرار دارد.

Multimodal Live API از امروز صبح به طور عمومی در دسترس قرار گرفته است.

منبع: techcrunch