Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد
برای آشنایی بیشتر با هوش مصنوعی گوگل مقاله ی پیش رو را مطالعه نمایید تا اطلاعات زیادی در این زمینه کسب کنید .
Google Gemini :همه چیز درباره پلتفرم جدید هوش مصنوعی مولد
Google در تلاش است تا با Gemini، مجموعه پرچمدار مدلها، برنامهها و خدمات هوش مصنوعی مولد خود، موجی ایجاد کند.Gemini چیست؟ چگونه می توانید از آن استفاده کنید؟ و چگونه با رقبا مقایسه می شود؟
برای آسانتر کردن همگام شدن با آخرین پیشرفتهای Gemini، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلها، ویژگیها و اخبار جدید Gemini در مورد برنامههای Google برای Gemini، بهروزرسانی خواهیم کرد.
جِمینی چیست؟
جِمینی خانواده مدلهای نسل بعدی هوش مصنوعی عمومی (GenAI) است که توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، دیپمایند و گوگل رسرچ توسعه یافتهاند. این مدلها در سه نوع ارائه میشوند:
- جِمینی اولترا: قدرتمندترین مدل جِمینی.
- جِمینی پرو: مدل "سبک" جِمینی.
- جِمینی نانو: مدل "فیلتر شده" کوچکتر که روی دستگاههای تلفن همراه مانند Pixel 8 Pro اجرا میشود.
همه مدلهای جِمینی برای "چندرسانهای بومی" آموزش دیدهاند - به عبارت دیگر، میتوانند با بیش از کلمات کار کنند و از آنها استفاده کنند. آنها بر روی مجموعه متنوعی از صداها، تصاویر و ویدیوها، مجموعه بزرگی از پایگاههای کد و متن به زبانهای مختلف پیش آموزش دیده و تنظیم دقیق شدهاند.
این امر جِمینی را از مدلهایی مانند LaMDA گوگل متمایز میکند که به طور انحصاری روی دادههای متنی آموزش دیدهاند. LaMDA نمیتواند چیزی غیر از متن را درک یا تولید کند (مانند مقاله، پیشنویس ایمیل) اما این مورد در مورد مدلهای جِمینی صدق نمیکند.
تفاوت بین برنامههای جِمینی و مدلهای جِمینی چیست؟
گوگل، یک بار دیگر نشان داد که در نامگذاری مهارت ندارد. این شرکت از ابتدا به درستی تفکیک بین «مدلهای جِمینی» و «برنامههای جِمینی» (که قبلا بارد نامیده میشد) در وب و موبایل را مشخص نکرد. برنامههای جِمینی صرفاً رابطی برای دسترسی به برخی مدلهای جِمینی هستند - آنها را میتوان به عنوان «کاربری» برای هوش مصنوعی عمومی گوگل در نظر گرفت.
همچنین، لازم به ذکر است که برنامهها و مدلهای جِمینی کاملاً مستقل از Imagen 2، مدل تبدیل متن به تصویر گوگل هستند که در برخی از ابزارها و محیطهای توسعه این شرکت در دسترس است.
جِمینی چه کاری میتواند انجام دهد؟
از آنجایی که مدلهای جِمینی «چندرسانهای» هستند، از لحاظ نظری میتوانند طیف وسیعی از کارهای چندرسانهای را انجام دهند، از رونوشتبرداری گفتار تا زیرنویس تصاویر و ویدیوها و ایجاد آثار هنری. برخی از این قابلیتها هنوز به مرحلهی محصول نرسیدهاند (در ادامه به این موضوع بیشتر خواهیم پرداخت) و گوگل قول میدهد که همهی این موارد و موارد بیشتری را در آیندهی نه چندان دور ارائه دهد.
البته، کمی سخت است که حرف شرکت را به طور کامل باور کنیم.
گوگل با راهاندازی اولیهی بارد عملکردی به شدت ضعیف داشت. و اخیراً نیز با ویدیویی که ادعا میکرد تواناییهای جِمینی را نشان میدهد، اما به شدت دستکاری شده بود و بیشتر جنبهی تبلیغاتی داشت، جنجالآفرین شد.
جمینی اولترا
Google میگوید که Gemini Ultra — به لطف چندوجهی بودن آن— میتواند برای کمک به مواردی مانند تکالیف فیزیک، حل گام به گام مسائل در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخهای از قبل پر شده استفاده شود.
گوگل می گوید Gemini Ultra می تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص - استخراج اطلاعات از آن مقالات و "به روز رسانی" نمودار از یکی با ایجاد فرمول های لازم برای ایجاد مجدد نمودار با داده های جدیدتر استفاده شود. .
همانطور که قبلا اشاره شد، Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است - شاید به این دلیل که مکانیسم پیچیدهتر از نحوه تولید تصاویر توسط برنامههایی مانند ChatGPT است. جمینی بهجای درخواستهای فید به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، تصاویر را بهصورت «بومی» و بدون مرحلهای میانجی خروجی میکند.
Gemini Ultra بهعنوان یک API از طریق Vertex AI، پلتفرم توسعهدهنده هوش مصنوعی کاملاً مدیریتشده Google، و AI Studio، ابزار مبتنی بر وب Google برای توسعهدهندگان برنامهها و پلتفرمها در دسترس است. همچنین برنامه های Gemini را تقویت می کند - اما نه به صورت رایگان. دسترسی به Gemini Ultra از طریق چیزی که Google آن را Gemini Advanced می نامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت ۲۰ دلار در ماه است.
طرح AI Premium همچنین Gemini را به حساب گستردهتر Google Workspace شما متصل میکند - ایمیلهای فکری در Gmail، اسناد در Docs، ارائهها در Sheets و ضبطهای Google Meet. مثلاً برای خلاصه کردن ایمیلها یا گرفتن یادداشتهای Gemini در طول تماس ویدیویی مفید است.
جمینی پرو
گوگل می گوید که Gemini Pro نسبت به LaMDA در توانایی های استدلال، برنامه ریزی و درک آن پیشرفت کرده است.
یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که نسخه اولیه Gemini Pro در مدیریت زنجیرههای استدلال طولانیتر و پیچیدهتر در واقع بهتر از GPT-3.5 OpenAI بود. اما این مطالعه همچنین نشان داد که مانند همه مدلهای زبان بزرگ، این نسخه از Gemini Pro بهویژه با مشکلات ریاضی شامل چندین رقم دست و پنجه نرم میکرد و کاربران نمونههایی از استدلال بد و اشتباهات آشکار را پیدا کردند.با این حال، Google وعدههای درمانی را داده است - و اولین نسخه به شکل Gemini 1.5 Pro ارائه شد.
Gemini 1.5 Pro که بهعنوان جایگزینی طراحی شده است، در بسیاری از زمینهها در مقایسه با نسل قبلی خود بهبود یافته است، که شاید مهمترین آن در میزان دادهای است که میتواند پردازش کند. Gemini 1.5 Pro میتواند در حدود ۷۰۰۰۰۰ کلمه یا ۳۰۰۰۰ خط کد بنویسد - ۳۵ برابر مقداری که Gemini 1.0 Pro میتواند تحمل کند. و - مدل چندوجهی است - به متن محدود نمی شود. Gemini 1.5 Pro میتواند تا ۱۱ ساعت صدا یا یک ساعت ویدیو را به زبانهای مختلف، هرچند آهسته، آنالیز کند (به عنوان مثال، جستجوی یک صحنه در یک ویدیوی یک ساعته، ۳۰ ثانیه تا یک دقیقه پردازش طول میکشد).
Gemini 1.5 Pro در آوریل وارد پیشنمایش عمومی Vertex AI شد.یک نقطه پایانی اضافی، Gemini Pro Vision، میتواند متن و تصویر - از جمله عکسها و ویدیوها - را پردازش کند و متن را مطابق با مدل OpenAI GPT-4 با Vision تولید کند.
در Vertex AI، توسعهدهندگان میتوانند Gemini Pro را در زمینههای خاص سفارشی کنند و از موارد با استفاده از فرآیند تنظیم دقیق یا «زمینسازی» استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.
جمینی نانو
Gemini Nano نسخه بسیار کوچکتری از مدلهای Gemini Pro و Ultra است و به اندازهای کارآمد است که بهجای ارسال کار به سرور در جایی، مستقیماً روی (برخی) تلفنها اجرا شود. تا کنون، چند ویژگی را در Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply در Gboard، ارائه کرده است.
برنامه Recorder که به کاربران اجازه میدهد دکمهای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصهای از مکالمات، مصاحبهها، ارائهها و سایر قطعههای ضبطشده شما توسط Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصهها را دریافت میکنند - و در حین حفظ حریم خصوصی، هیچ دادهای از تلفن آنها خارج نمیشود.
Gemini Nano همچنین در Gboard، برنامه صفحه کلید Google وجود دارد. در آنجا، قابلیتی به نام «پاسخ هوشمند» را تقویت میکند، که به شما کمک میکند تا چیز بعدی را که میخواهید هنگام مکالمه در یک برنامه پیامرسانی بگویید، پیشنهاد کنید. گوگل میگوید این ویژگی در ابتدا فقط با واتساپ کار میکند، اما به مرور زمان به اپلیکیشنهای بیشتری نیز میرسد.
و در برنامه پیامهای Google در دستگاههای پشتیبانیشده، Nano Magic Compose را فعال میکند، که میتواند پیامهایی را به سبکهایی مانند «هیجانانگیز»، «رسمی» و «غزلی» ایجاد کند.
آیا Gemini بهتر از GPT-4 OpenAI است؟
Google چندین بار برتری Gemini را در معیارها تبلیغ کرده است و ادعا کرده است که Gemini Ultra در مورد «۳۰ معیار از ۳۲ معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ» از نتایج پیشرفته فعلی فراتر رفته است. این شرکت می گوید که Gemini 1.5 Pro، در عین حال، در برخی از سناریوها نسبت به Gemini Ultra در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن توانایی بیشتری دارد. احتمالاً این موضوع با عرضه مدل بعدی Ultra تغییر خواهد کرد.
اما با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان میدهند، امتیازاتی که گوگل به آن اشاره میکند به نظر میرسد تا حدی بهتر از مدلهای متناظر OpenAI است. و - همانطور که قبلاً ذکر شد - برخی برداشتهای اولیه عالی نبودهاند، با کاربران و آکادمیک به این نکته اشاره میکنند که نسخه قدیمیتر Gemini Pro تمایل دارد حقایق اساسی را اشتباه دریافت کند، با ترجمهها مشکل دارد و پیشنهادهای کدنویسی ضعیفی ارائه میکند.
جمینی چقدر هزینه دارد؟
Gemini 1.5 Pro برای استفاده در برنامههای Gemini و در حال حاضر، AI Studio و Vertex AI رایگان است.
با این حال، هنگامی که Gemini 1.5 Pro از پیش نمایش در Vertex خارج شد، قیمت این مدل ۰.۰۰۲۵ دلار به ازای هر کاراکتر خواهد بود در حالی که هزینه خروجی ۰.۰۰۰۰۵ دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر ۱۰۰۰ کاراکتر (حدود ۱۴۰ تا ۲۵۰ کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (۰.۰۰۲۵ دلار) پرداخت می کنند.
فرض کنید یک مقاله ۵۰۰ کلمه ای شامل ۲۰۰۰ کاراکتر است. خلاصه کردن آن مقاله با Gemini 1.5 Pro 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه ۰.۱ دلار هزینه دارد.قیمت اولترا هنوز اعلام نشده است.
کجا می توانید Gemini را امتحان کنید؟
- جمینی پرو
سادهترین مکان برای تجربه Gemini Pro در برنامههای Gemini است. Pro و Ultra به پرس و جوها به زبان های مختلفی پاسخ می دهند.
Gemini Pro و Ultra نیز در حالت پیشنمایش در Vertex AI از طریق API قابل دسترسی هستند. API فعلاً برای استفاده از "در محدوده" رایگان است و از مناطق خاصی از جمله اروپا و همچنین ویژگی هایی مانند عملکرد چت و فیلتر کردن پشتیبانی می کند.
در جاهای دیگر، Gemini Pro و Ultra را میتوانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعهدهندگان میتوانند درخواستها و چتباتهای مبتنی بر Gemini را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامههای خود دریافت کنند - یا کد را به یک IDE با ویژگیهای کاملتر صادر کنند.
Code Assist (قبلاً Duet AI for Developers)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، از مدلهای Gemini استفاده میکند. توسعهدهندگان میتوانند تغییرات «در مقیاس بزرگ» را در پایگاههای کد انجام دهند، بهعنوان مثال، وابستگیهای بین فایلها را بهروزرسانی کنند و تکههای بزرگی از کد را بررسی کنند.
Google مدلهای Gemini را به ابزارهای توسعهدهنده خود برای پلتفرم برنامهنویس موبایل Chrome و Firebase و ابزارهای ایجاد و مدیریت پایگاه داده خود آورده است. و محصولات امنیتی جدیدی را راهاندازی کرده است که زیربنای آن Gemini است، مانند Gemini in Threat Intelligence، جزء پلتفرم امنیت سایبری Mandiant Google که میتواند بخشهای زیادی از کدهای مخرب بالقوه را تجزیه و تحلیل کند و به کاربران امکان میدهد برای تهدیدهای مداوم یا شاخصهای سازش به زبان طبیعی جستجو کنند.
- جمینی نانو
Gemini Nano روی Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24 —و در آینده به دستگاههای دیگر نیز عرضه خواهد شد. برنامهنویسهایی که علاقهمند به گنجاندن این مدل در برنامههای Android خود هستند، میتوانند برای یک نگاه اجمالی ثبتنام کنند.
آیا Gemini برای آیفون می آید؟
ممکن است! طبق گزارشها، اپل و گوگل در حال مذاکره برای استفاده از Gemini برای تعدادی از ویژگیها هستند که در بهروزرسانی آینده iOS در اواخر امسال گنجانده میشوند. هیچ چیز قطعی نیست، زیرا طبق گزارش ها، اپل نیز در حال مذاکره با OpenAI است و روی توسعه قابلیت های GenAI خود کار می کند.
دیدگاهی ثبت نشده است