Gemini — Google DeepMind tərəfindən hazırlanmış, LaMDA və PaLM 2-nin davamı olan multimodal böyük dil modelləri ailəsi. Gemini Ultra, Gemini Pro və Gemini Nano-dan ibarət olmaqla, 6 dekabr 2023-cü ildə OpenAI-nin GPT-4 dil modelinə rəqib kimi elan edildi.
Gemini | |
---|---|
Tərtibatçı | Google DeepMind |
Yayımlanma tarixi | 6 dekabr 2023 |
Sayt | deepmind.google/technolo… |
Google, 10 may 2023-cü ildə Google I/O tədbirində Google DeepMind tərəfindən hazırlanmış böyük dil modeli (LLM) olan Gemini-ni elan etdi. O, tədbirdə nümayiş etdirilən PaLM 2-nin daha güclü davamçısı kimi yer aldı. Google CEO-su Sundar Piçay Gemini-nin hələ erkən inkişaf mərhələsində olduğunu bildirdi.[1][2] Digər LLM-lərdən fərqli olaraq, Gemini-nin unikal olduğu, tək mətn üzərində öyrədilmədiyi və multimodal olmaq üçün nəzərdə tutulduğu bildirilirdi, yəni mətn, şəkillər, audio, video və kompüter kodu daxil olmaqla, eyni vaxtda bir neçə növ məlumatı emal edə bilir.[3] O, Google DeepMind olaraq birləşdirilən Google-un iki qolu olan DeepMind və Google Brain arasındakı əməkdaşlıqla hazırlanmışdır.[4] Wired jurnalına verdiyi müsahibədə DeepMind-ın baş direktoru Demis Hassabis Gemini-nin qabaqcıl imkanlarını qeyd etdi. Onun dediyinə görə, bu alqoritm OpenAI-ın GPT-4-də işləyən və artan populyarlığına Google tərəfindən LaMDA və Bard ilə aqressiv şəkildə meydan oxuyan ChatGPT-ni keçməyə imkan verəcək. Hassabis, 2016-cı ildə Qo çempionu Li Sedolu məğlub edib dünya miqyasında məşhurlaşan DeepMind-in AlphaGo proqramının güclü tərəflərini vurğulayaraq, Gemini-nin AlphaGo və digər Google–DeepMind LLM-lərin gücünü birləşdirəcəyini söylədi.[5]
2023-cü ilin avqustunda "The Information" nəşri, Google-un Gemini üçün yol xəritəsini əks etdirən bir hesabat dərc etdi və şirkətin 2023-cü ilin sonunda istifadəyə vermə tarixini hədəflədiyini bildirdi. Hesabata görə, Google, əksər LLM-lərdə mövcud olan danışıq mətni imkanlarını süni intellektə əsaslanan təsvirin yaradılması ilə birləşdirərək, ona kontekstli şəkillər yaratmağa və daha geniş istifadə hallarına uyğunlaşdırılmağa imkan verərək OpenAI və digər rəqibləri ötməyə ümid edirdi.[6] Bard-da olduğu kimi,[7] Google həmtəsisçisi Sergey Brin də Google Brain və DeepMind şirkətlərindən yüzlərlə digər mühəndislə birlikdə Gemini-nin inkişafına kömək etmək üçün şirkətə qayıtdı.[6][8] Gemini YouTube videolarının transkriptləri üzrə təlim keçdiyi üçün hüquqşünaslar da potensial müəllif hüquqları ilə qorunan materialları süzgəcdən keçirmək üçün cəlb ediliblər.[6]
Gemini-nin gözlənilən lansman xəbəri ilə OpenAI, GPT-4-ü Gemini-yə bənzər multimodal xüsusiyyətlərlə inteqrasiya etmək üzrə işlərini sürətləndirdi.[9] "The Information" sentyabr ayında bildirdi ki, bir neçə şirkət Google Cloud-un Vertex AI xidməti vasitəsilə müştərilərə təqdim edilmək niyyətində olan LLM-in "erkən versiyasına" erkən giriş əldə edib. Nəşr həmçinin bildirdi ki, Google Gemini-ni həm GPT-4, həm də Microsoft-un GitHub Copilotu ilə rəqabət aparmaq üçün təkmilləşdirir.[10][11] Dekabrın 2-də Google-un ingilis dilində olmayan mesajlarla bağlı problemlərə görə Gemini-nin təqdimatını növbəti həftədən 2024-cü ilin yanvarına təxirə saldığını və Nyu-York, Vaşinqton və Kaliforniyada üç təqdimat tədbiri planlaşdırıldığı bildirildi.[12][13]
6 dekabr 2023-cü ildə Piçay və Hassabis virtual mətbuat konfransında "Gemini 1.0"ı elan etdilər.[14][15] Gemini üç modeldən ibarətdir: "yüksək mürəkkəb tapşırıqlar" üçün nəzərdə tutulmuş "Gemini Ultra", "geniş tapşırıqlar" üçün nəzərdə tutulmuş "Gemini Pro" və "cihazdakı tapşırıqlar" üçün nəzərdə tutulmuş "Gemini Nano". Başlanğıcda Gemini Pro və Nano müvafiq olaraq Bard və Pixel 8 Pro smartfonlarına inteqrasiya olundu, Gemini Ultra isə "Bard Advanced"ə inteqrasiya olunacaq və 2024-cü ilin əvvəlində proqram tərtibatçıları üçün əlçatan olacaq. Google-un Gemini-ni inteqrasiya etmək niyyətində olduğu digər məhsullara Axtarış, Ads, Chrome, Google Workspace-də Duet AI və AlphaCode 2 daxildir.[16][15] Dil modeli yalnız ingilis dilini dəstəkləyir.[15][17] Google-un "ən böyük və ən bacarıqlı süni intellekt modeli" olaraq təqdim edilən və insan davranışını təqlid etmək üçün nəzərdə tutulan[18][15][19] Gemini-nin "geniş təhlükəsizlik testləri"nə ehtiyac olduğu üçün gələn ilə qədər tam istifadəyə verilməyəcəyi bildirilib.[14] Gemini Google-un tensor prosessorlarında təlim keçmiş və gücləndirilmişdir[14][17] və bu ad DeepMind-Google Brain birləşməsinə, eləcə də NASA-nın Gemini layihəsinə istinad edir.[20]
Gemini Ultra-nın müxtəlif sənaye etalon sınaqlarında GPT-4, Anthropic-in Claude 2, Inflection AI-nin Inflection-2, Meta-nın LLaMA 2 və xAI-nin Grok 1-i,[21][14] Gemini Pro-nun isə GPT-3.5-i üstələdiyi bildirilir.[3] Gemini Ultra həm də 90% xal əldə edərək 57 mövzudan ibarət Massive Multitask Language Understanding (MMLU) testində insan ekspertlərini üstələyən ilk dil modeli olub.[3][20] Gemini Pro dekabrın 13-də AI Studio və Vertex AI vasitəsilə Google Cloud müştərilərinə, Gemini Nano isə Android tərtibatçılarına təqdim ediləcək.[22][23][24] Hassabis daha sonra DeepMind-in Gemini-nin "dünya ilə fiziki əlaqədə olmaq üçün robototexnika ilə necə birləşdirilə biləcəyini" araşdırdığını açıqladı.[25] ABŞ Prezidenti Co Baydenin oktyabr ayında imzaladığı 14110 saylı İcra Sərəncamına uyğun olaraq, Google, Gemini Ultra-nın sınaq nəticələrini ABŞ federal hökuməti ilə paylaşacağını bildirdi. Eynilə, şirkət noyabr ayında Bletçli-parkda keçirilən süni intellekt üzrə təhlükəsizlik sammitində irəli sürülən prinsiplərə riayət etmək üçün Böyük Britaniya hökuməti ilə müzakirələr aparıb.[3]
Gemini-nin buraxılışı MIT Technology Review-in "süni intellekt həyəcanının zirvəsi" kimi təsvir etdiyi aylarla davam edən gərgin fərziyyə və gözləntilərlə müşayiət olundu.[26][21] 2023-cü ilin avqustunda "SemiAnalysis" tədqiqat firmasından Dilan Patel və Daniel Nişbal, Gemini-nin buraxılmasının "dünyanı yeyəcəyini" və GPT-4-dən üstün olacağını bildirən bir bloq yazısı yayımladılar.[27][28] Business Insider-dən Hyu Lanqli, Gemini-nin Google üçün bir düzəliş və ya qırılma anı olacağını qeyd edərək yazır: "Gemini populyarlaşarsa, bu, Google-a Microsoft və OpenAI tərəfindən gözdən salındığına dair hekayəni dəyişməyə kömək edəcək. Əgər məyus edəcəksə, Google-un geridə qaldığını söyləyən tənqidçiləri cəsarətləndirəcək."[29]
Vaşinqton Universitetinin fəxri professoru Oren Etzioni Google və OpenAI arasında "qisasa qisas silah yarışı" olacağını proqnozlaşdırıb. Berkli Kaliforniya Universitetinin professoru Aleksey Efros Gemini-nin multimodal yanaşmasının potensialını yüksək qiymətləndirdi,[20] Santa Fe İnstitutundan alim Melani Mitçel isə Gemini-ni "çox mürəkkəb" adlandırdı. Vaşinqton Universitetinin professoru Çıraq Şah Gemini-nin buraxılışını Apple-ın illik yeni iPhone buraxılışına bənzədib. Eynilə, Stenford Universitetindən Persi Lianq və Vaşinqton Universitetindən Emili Bender xəbərdarlıq etdilər ki, istifadə olunan təlim məlumatlarını görmədən etalon sınağı ballarını şərh etmək çətindir.[26] Fast Company yazarı Mark Sullivan, Apple-ın Siri virtual köməkçisi ilə Gemini-yə bənzər funksionallıq inkişaf etdirmə qabiliyyətinə malik olmadığına inanaraq, Google-un iPhone-un dominant bazar payına meydan oxumaq imkanı olduğunu söylədi.[30]