Gemini 2.0، جدیدترین پرچمدار هوش مصنوعی گوگل به منظور مقابله با مجموعهای از ایده های جدید از سوی OpenAI معرفی شده است.
روز چهارشنبه، گوگل از مدل Gemini 2.0 Flash رونمایی کرد. به گفته این شرکت، این مدل قادر است علاوه بر تولید متن، تصاویر و صدا را به صورت بومی نیز ایجاد کند. همچنین Gemini 2.0 Flash میتواند از برنامهها و سرویسهای شخص ثالث بهرهبرداری کند و به این ترتیب امکان جستجو در گوگل، اجرای کد و انجام فعالیتهای دیگر را فراهم میآورد.
نسخه آزمایشی Gemini 2.0 Flash از امروز از طریق API Gemini و پلتفرمهای توسعهدهنده هوش مصنوعی گوگل، یعنی AI Studio و Vertex AI در دسترس قرار خواهد گرفت. با این حال، قابلیتهای تولید صدا و تصویر تنها برای «شریکهای دسترسی زودهنگام» قبل از عرضه عمومی در ماه ژانویه فعال خواهد شد.
گوگل اعلام کرده است که در ماههای آینده مدل ۲.۰ Flash را در انواع مختلف به محصولاتی نظیر Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و دیگر ابزارها اضافه خواهد کرد.
نسخه اول این مدل، یعنی ۱.۵ Flash، تنها قادر به تولید متن بود و برای بارهای کاری سنگین طراحی نشده بود. اما گوگل میگوید که مدل جدید، یعنی ۲.۰ Flash، بسیار چندمنظورهتر است و این قابلیت را دارد که ابزارهایی مانند جستجو را فراخوانی کرده و با APIهای خارجی تعامل داشته باشد.
مطلب پیشنهادی: ۵ سایت آنلاین برای استفاده رایگان از Stable Diffusion
تولسی دوشی، رئیس محصول مدل Gemini در گوگل، در یک نشست خبری روز سهشنبه گفت: «ما میدانیم که Flash به دلیل تعادل بین سرعت و عملکرد، در میان توسعهدهندگان بسیار محبوب است. با ۲.۰ Flash، این مدل همچنان سریع است، اما اکنون حتی قدرتمندتر شده است.»
گوگل ادعا میکند که مدل ۲.۰ Flash، که در برخی از معیارها دو برابر سریعتر از مدل Gemini 1.5 Pro است، بر اساس آزمایشهای داخلی این شرکت، در زمینههایی مانند کدنویسی و تجزیه و تحلیل تصویر به طور قابل توجهی بهبود یافته است. در واقع، این شرکت اعلام کرده است که ۲.۰ Flash به لطف مهارتهای ریاضی برتر و قابلیتهای واقعیت (factuality)، به عنوان پرچمدار مدل Gemini جایگزین ۱.۵ Pro خواهد شد.
همانطور که پیشتر اشاره شد، مدل ۲.۰ Flash قادر است تصاویر را به همراه متن تولید کند و همچنین این تصاویر را ویرایش نماید. علاوه بر این، این مدل میتواند عکسها، ویدیوها و ضبطهای صوتی را برای پاسخ به سؤالات مرتبط با آنها (مانند «او چه گفت؟») تحلیل کند.
تولید صدا یکی دیگر از ویژگیهای کلیدی مدل ۲.۰ Flash است که دوشی آن را به عنوان ویژگیای قابل هدایت و قابل تنظیم توصیف کرده است. به عنوان مثال، این مدل میتواند متن را با استفاده از یکی از هشت صدای بهینهشده برای لهجهها و زبانهای مختلف روایت کند.
او افزود: «شما میتوانید از آن بخواهید که آهستهتر صحبت کند، میتوانید از او بخواهید که سریعتر صحبت کند، یا حتی میتوانید از او بخواهید که چیزی شبیه دزدان دریایی بگوید.»
اکنون، به عنوان یک نویسنده، لازم است اشاره کنم که گوگل هنوز تصاویر یا نمونههای صوتی از مدل ۲.۰ Flash ارائه نکرده است. در حال حاضر، ما هیچ راهی برای مقایسه کیفیت این مدل با خروجیهای مدلهای دیگر نداریم، حداقل تا زمان نگارش این متن.
گوگل اعلام کرده است که از فناوری SynthID خود برای واترمارک کردن تمامی صداها و تصاویری که توسط مدل ۲.۰ Flash تولید میشوند، استفاده میکند. در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند، یعنی محصولات منتخب گوگل، خروجیهای این مدل به عنوان محتوای مصنوعی علامتگذاری میشوند.
این اقدام به منظور کاهش نگرانیها در مورد سوء استفاده از فناوریهای جدید انجام شده است. در واقع، دیپ فیکها به عنوان یک تهدید رو به رشد شناخته میشوند. بر اساس گزارش ها، تعداد دیپ فیکهای شناسایی شده در سطح جهانی از سال ۲۰۲۳ تا ۲۰۲۴ چهار برابر افزایش یافته است.
نسخه نهایی مدل ۲.۰ Flash در دی ماه عرضه خواهد شد. اما در این میان، گوگل یک API جدید به نام Multimodal Live API را منتشر میکند تا به توسعهدهندگان کمک کند برنامههایی با قابلیت پخش صدا و ویدیوی بلادرنگ ایجاد کنند.
گوگل اعلام کرده است که با استفاده از Multimodal Live API، توسعهدهندگان میتوانند اپلیکیشنهای چندوجهی را به صورت بلادرنگ با ورودیهای صوتی و تصویری از دوربینها یا صفحهنمایشها ایجاد کنند. این API از یکپارچهسازی ابزارها برای انجام وظایف مختلف پشتیبانی میکند و قادر است الگوهای مکالمه طبیعی (natural conversation patterns) مانند وقفهها را مدیریت کند، که این ویژگی در راستای خطوط Realtime API OpenAI قرار دارد.
Multimodal Live API از امروز صبح به طور عمومی در دسترس قرار گرفته است.
منبع: techcrunch









