Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد

برای آشنایی بیشتر با هوش مصنوعی گوگل مقاله ی پیش رو را مطالعه نمایید تا اطلاعات زیادی در این زمینه کسب کنید .

Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد

Google در تلاش است تا با Gemini، مجموعه پرچمدار مدل‌ها، برنامه‌ها و خدمات هوش مصنوعی مولد خود، موجی ایجاد کند.Gemini چیست؟ چگونه می توانید از آن استفاده کنید؟ و چگونه با رقبا مقایسه می شود؟

برای آسان‌تر کردن همگام شدن با آخرین پیشرفت‌های Gemini، این راهنمای مفید را گردآوری کرده‌ایم که با انتشار مدل‌ها، ویژگی‌ها و اخبار جدید Gemini در مورد برنامه‌های Google برای Gemini، به‌روزرسانی خواهیم کرد.

جِمینی چیست؟

جِمینی خانواده مدل‌های نسل بعدی هوش مصنوعی عمومی (GenAI) است که توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، دیپ‌مایند و گوگل رسرچ توسعه یافته‌اند. این مدل‌ها در سه نوع ارائه می‌شوند:

جِمینی اولترا: قدرتمندترین مدل جِمینی.
جِمینی پرو: مدل "سبک" جِمینی.
جِمینی نانو: مدل "فیلتر شده" کوچکتر که روی دستگاه‌های تلفن همراه مانند Pixel 8 Pro اجرا می‌شود.

همه مدل‌های جِمینی برای "چندرسانه‌ای بومی" آموزش دیده‌اند - به عبارت دیگر، می‌توانند با بیش از کلمات کار کنند و از آنها استفاده کنند. آنها بر روی مجموعه متنوعی از صداها، تصاویر و ویدیوها، مجموعه بزرگی از پایگاه‌های کد و متن به زبان‌های مختلف پیش آموزش دیده و تنظیم دقیق شده‌اند.

این امر جِمینی را از مدل‌هایی مانند LaMDA گوگل متمایز می‌کند که به طور انحصاری روی داده‌های متنی آموزش دیده‌اند. LaMDA نمی‌تواند چیزی غیر از متن را درک یا تولید کند (مانند مقاله، پیش‌نویس ایمیل) اما این مورد در مورد مدل‌های جِمینی صدق نمی‌کند.

تفاوت بین برنامه‌های جِمینی و مدل‌های جِمینی چیست؟

Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد

گوگل، یک بار دیگر نشان داد که در نامگذاری مهارت ندارد. این شرکت از ابتدا به درستی تفکیک بین «مدل‌های جِمینی» و «برنامه‌های جِمینی» (که قبلا بارد نامیده می‌شد) در وب و موبایل را مشخص نکرد. برنامه‌های جِمینی صرفاً رابطی برای دسترسی به برخی مدل‌های جِمینی هستند - آن‌ها را می‌توان به عنوان «کاربری» برای هوش مصنوعی عمومی گوگل در نظر گرفت.

همچنین، لازم به ذکر است که برنامه‌ها و مدل‌های جِمینی کاملاً مستقل از Imagen 2، مدل تبدیل متن به تصویر گوگل هستند که در برخی از ابزارها و محیط‌های توسعه این شرکت در دسترس است.

جِمینی چه کاری می‌تواند انجام دهد؟

از آنجایی که مدل‌های جِمینی «چندرسانه‌ای» هستند، از لحاظ نظری می‌توانند طیف وسیعی از کارهای چندرسانه‌ای را انجام دهند، از رونوشت‌برداری گفتار تا زیرنویس تصاویر و ویدیوها و ایجاد آثار هنری. برخی از این قابلیت‌ها هنوز به مرحله‌ی محصول نرسیده‌اند (در ادامه به این موضوع بیشتر خواهیم پرداخت) و گوگل قول می‌دهد که همه‌ی این موارد و موارد بیشتری را در آینده‌ی نه چندان دور ارائه دهد.

البته، کمی سخت است که حرف شرکت را به طور کامل باور کنیم.

گوگل با راه‌اندازی اولیه‌ی بارد عملکردی به شدت ضعیف داشت. و اخیراً نیز با ویدیویی که ادعا می‌کرد توانایی‌های جِمینی را نشان می‌دهد، اما به شدت دستکاری شده بود و بیشتر جنبه‌ی تبلیغاتی داشت، جنجال‌آفرین شد.

جمینی اولترا

Google می‌گوید که Gemini Ultra — به لطف چندوجهی بودن آن— می‌تواند برای کمک به مواردی مانند تکالیف فیزیک، حل گام به گام مسائل در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخ‌های از قبل پر شده استفاده شود.

گوگل می گوید Gemini Ultra می تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص - استخراج اطلاعات از آن مقالات و "به روز رسانی" نمودار از یکی با ایجاد فرمول های لازم برای ایجاد مجدد نمودار با داده های جدیدتر استفاده شود. .

همانطور که قبلا اشاره شد، Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است - شاید به این دلیل که مکانیسم پیچیده‌تر از نحوه تولید تصاویر توسط برنامه‌هایی مانند ChatGPT است. جمینی به‌جای درخواست‌های فید به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، تصاویر را به‌صورت «بومی» و بدون مرحله‌ای میانجی خروجی می‌کند.

Gemini Ultra به‌عنوان یک API از طریق Vertex AI، پلتفرم توسعه‌دهنده هوش مصنوعی کاملاً مدیریت‌شده Google، و AI Studio، ابزار مبتنی بر وب Google برای توسعه‌دهندگان برنامه‌ها و پلتفرم‌ها در دسترس است. همچنین برنامه های Gemini را تقویت می کند - اما نه به صورت رایگان. دسترسی به Gemini Ultra از طریق چیزی که Google آن را Gemini Advanced می نامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت ۲۰ دلار در ماه است.

طرح AI Premium همچنین Gemini را به حساب گسترده‌تر Google Workspace شما متصل می‌کند - ایمیل‌های فکری در Gmail، اسناد در Docs، ارائه‌ها در Sheets و ضبط‌های Google Meet. مثلاً برای خلاصه کردن ایمیل‌ها یا گرفتن یادداشت‌های Gemini در طول تماس ویدیویی مفید است.

جمینی پرو

گوگل می گوید که Gemini Pro نسبت به LaMDA در توانایی های استدلال، برنامه ریزی و درک آن پیشرفت کرده است.

یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که نسخه اولیه Gemini Pro در مدیریت زنجیره‌های استدلال طولانی‌تر و پیچیده‌تر در واقع بهتر از GPT-3.5 OpenAI بود. اما این مطالعه همچنین نشان داد که مانند همه مدل‌های زبان بزرگ، این نسخه از Gemini Pro به‌ویژه با مشکلات ریاضی شامل چندین رقم دست و پنجه نرم می‌کرد و کاربران نمونه‌هایی از استدلال بد و اشتباهات آشکار را پیدا کردند.با این حال، Google وعده‌های درمانی را داده است - و اولین نسخه به شکل Gemini 1.5 Pro ارائه شد.

Gemini 1.5 Pro که به‌عنوان جایگزینی طراحی شده است، در بسیاری از زمینه‌ها در مقایسه با نسل قبلی خود بهبود یافته است، که شاید مهم‌ترین آن در میزان داده‌ای است که می‌تواند پردازش کند. Gemini 1.5 Pro می‌تواند در حدود ۷۰۰۰۰۰ کلمه یا ۳۰۰۰۰ خط کد بنویسد - ۳۵ برابر مقداری که Gemini 1.0 Pro می‌تواند تحمل کند. و - مدل چندوجهی است - به متن محدود نمی شود. Gemini 1.5 Pro می‌تواند تا ۱۱ ساعت صدا یا یک ساعت ویدیو را به زبان‌های مختلف، هرچند آهسته، آنالیز کند (به عنوان مثال، جستجوی یک صحنه در یک ویدیوی یک ساعته، ۳۰ ثانیه تا یک دقیقه پردازش طول می‌کشد).

Gemini 1.5 Pro در آوریل وارد پیش‌نمایش عمومی Vertex AI شد.یک نقطه پایانی اضافی، Gemini Pro Vision، می‌تواند متن و تصویر - از جمله عکس‌ها و ویدیوها - را پردازش کند و متن را مطابق با مدل OpenAI GPT-4 با Vision تولید کند.

Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد

در Vertex AI، توسعه‌دهندگان می‌توانند Gemini Pro را در زمینه‌های خاص سفارشی کنند و از موارد با استفاده از فرآیند تنظیم دقیق یا «زمین‌سازی» استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.

جمینی نانو

Gemini Nano نسخه بسیار کوچک‌تری از مدل‌های Gemini Pro و Ultra است و به اندازه‌ای کارآمد است که به‌جای ارسال کار به سرور در جایی، مستقیماً روی (برخی) تلفن‌ها اجرا شود. تا کنون، چند ویژگی را در Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply در Gboard، ارائه کرده است.

برنامه Recorder که به کاربران اجازه می‌دهد دکمه‌ای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصه‌ای از مکالمات، مصاحبه‌ها، ارائه‌ها و سایر قطعه‌های ضبط‌شده شما توسط Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصه‌ها را دریافت می‌کنند - و در حین حفظ حریم خصوصی، هیچ داده‌ای از تلفن آن‌ها خارج نمی‌شود.

Gemini Nano همچنین در Gboard، برنامه صفحه کلید Google وجود دارد. در آنجا، قابلیتی به نام «پاسخ هوشمند» را تقویت می‌کند، که به شما کمک می‌کند تا چیز بعدی را که می‌خواهید هنگام مکالمه در یک برنامه پیام‌رسانی بگویید، پیشنهاد کنید. گوگل می‌گوید این ویژگی در ابتدا فقط با واتس‌اپ کار می‌کند، اما به مرور زمان به اپلیکیشن‌های بیشتری نیز می‌رسد.

و در برنامه پیام‌های Google در دستگاه‌های پشتیبانی‌شده، Nano Magic Compose را فعال می‌کند، که می‌تواند پیام‌هایی را به سبک‌هایی مانند «هیجان‌انگیز»، «رسمی» و «غزلی» ایجاد کند.

آیا Gemini بهتر از GPT-4 OpenAI است؟

Google چندین بار برتری Gemini را در معیارها تبلیغ کرده است و ادعا کرده است که Gemini Ultra در مورد «۳۰ معیار از ۳۲ معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ» از نتایج پیشرفته فعلی فراتر رفته است. این شرکت می گوید که Gemini 1.5 Pro، در عین حال، در برخی از سناریوها نسبت به Gemini Ultra در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن توانایی بیشتری دارد. احتمالاً این موضوع با عرضه مدل بعدی Ultra تغییر خواهد کرد.

اما با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان می‌دهند، امتیازاتی که گوگل به آن اشاره می‌کند به نظر می‌رسد تا حدی بهتر از مدل‌های متناظر OpenAI است. و - همانطور که قبلاً ذکر شد - برخی برداشت‌های اولیه عالی نبوده‌اند، با کاربران و آکادمیک به این نکته اشاره می‌کنند که نسخه قدیمی‌تر Gemini Pro تمایل دارد حقایق اساسی را اشتباه دریافت کند، با ترجمه‌ها مشکل دارد و پیشنهادهای کدنویسی ضعیفی ارائه می‌کند.

جمینی چقدر هزینه دارد؟

Gemini 1.5 Pro برای استفاده در برنامه‌های Gemini و در حال حاضر، AI Studio و Vertex AI رایگان است.

با این حال، هنگامی که Gemini 1.5 Pro از پیش نمایش در Vertex خارج شد، قیمت این مدل ۰.۰۰۲۵ دلار به ازای هر کاراکتر خواهد بود در حالی که هزینه خروجی ۰.۰۰۰۰۵ دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر ۱۰۰۰ کاراکتر (حدود ۱۴۰ تا ۲۵۰ کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (۰.۰۰۲۵ دلار) پرداخت می کنند.

فرض کنید یک مقاله ۵۰۰ کلمه ای شامل ۲۰۰۰ کاراکتر است. خلاصه کردن آن مقاله با Gemini 1.5 Pro 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه ۰.۱ دلار هزینه دارد.قیمت اولترا هنوز اعلام نشده است.

کجا می توانید Gemini را امتحان کنید؟

جمینی پرو

ساده‌ترین مکان برای تجربه Gemini Pro در برنامه‌های Gemini است. Pro و Ultra به پرس و جوها به زبان های مختلفی پاسخ می دهند.

Gemini Pro و Ultra نیز در حالت پیش‌نمایش در Vertex AI از طریق API قابل دسترسی هستند. API فعلاً برای استفاده از "در محدوده" رایگان است و از مناطق خاصی از جمله اروپا و همچنین ویژگی هایی مانند عملکرد چت و فیلتر کردن پشتیبانی می کند.

در جاهای دیگر، Gemini Pro و Ultra را می‌توانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعه‌دهندگان می‌توانند درخواست‌ها و چت‌بات‌های مبتنی بر Gemini را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامه‌های خود دریافت کنند - یا کد را به یک IDE با ویژگی‌های کامل‌تر صادر کنند.

Code Assist (قبلاً Duet AI for Developers)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، از مدل‌های Gemini استفاده می‌کند. توسعه‌دهندگان می‌توانند تغییرات «در مقیاس بزرگ» را در پایگاه‌های کد انجام دهند، به‌عنوان مثال، وابستگی‌های بین فایل‌ها را به‌روزرسانی کنند و تکه‌های بزرگی از کد را بررسی کنند.

Google مدل‌های Gemini را به ابزارهای توسعه‌دهنده خود برای پلتفرم برنامه‌نویس موبایل Chrome و Firebase و ابزارهای ایجاد و مدیریت پایگاه داده خود آورده است. و محصولات امنیتی جدیدی را راه‌اندازی کرده است که زیربنای آن Gemini است، مانند Gemini in Threat Intelligence، جزء پلتفرم امنیت سایبری Mandiant Google که می‌تواند بخش‌های زیادی از کدهای مخرب بالقوه را تجزیه و تحلیل کند و به کاربران امکان می‌دهد برای تهدیدهای مداوم یا شاخص‌های سازش به زبان طبیعی جستجو کنند.

جمینی نانو

Gemini Nano روی Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24 —و در آینده به دستگاه‌های دیگر نیز عرضه خواهد شد. برنامه‌نویس‌هایی که علاقه‌مند به گنجاندن این مدل در برنامه‌های Android خود هستند، می‌توانند برای یک نگاه اجمالی ثبت‌نام کنند.

آیا Gemini برای آیفون می آید؟

ممکن است! طبق گزارش‌ها، اپل و گوگل در حال مذاکره برای استفاده از Gemini برای تعدادی از ویژگی‌ها هستند که در به‌روزرسانی آینده iOS در اواخر امسال گنجانده می‌شوند. هیچ چیز قطعی نیست، زیرا طبق گزارش ها، اپل نیز در حال مذاکره با OpenAI است و روی توسعه قابلیت های GenAI خود کار می کند.

Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد

جِمینی چیست؟