Chat GPT, od amerykańskiego laboratorium badawczego OpenAI, wystartował w listopadzie 2022 roku i już w pierwszym tygodniu przekroczył liczbę 1 miliona użytkowników. Naturalnie w obliczu rosnącego znaczenia AI, więcej firm chce załapać się na kawałek tortu: Google Gemini AI ma być poważną konkurencją dla Chatu GPT.
Czym jest Google Gemini AI?
Gemini to zestaw dużych modeli językowych (LLM), które wykorzystują liczne techniki treningowe, w tym przeszukiwanie tzw. drzewa decyzyjnego, dzięki któremu AI ma dawać ja najbardziej trafne odpowiedzi. Plany Google są ambitne: Gemini ma stać się dominującym systemem generatywnym (czyli generującym nowe dane na podstawie danych od użytkownika) na świecie. Informacje te pojawiły się tylko kilka miesięcy po połączeniu przez Google swoich laboratoriów AI Brain i DeepMind, tworząc nowy zespół badawczy o nazwie Google DeepMind.
Biorąc pod uwagę prognozy badaczy, że rynek generatywnego AI ma być wart 1,3 biliona dolarów do 2032 roku, jasne jest, że Google inwestuje znacząco w ten obszar, aby stanąć na pozycji lidera w rozwoju sztucznej inteligencji.
Wszystko, co wiemy dotychczas o Google AI Gemini
Chociaż wielu spodziewa się, że Google Gemini zostanie wydane jesienią 2023 roku, wciąż niewiele wiadomo na temat zdolności tego modelu.
Według Sundara Pichai, CEO Google i Alphabet, Google Gemini został zaprojektowany od podstaw jako multimodalny, co oznacza, że może obsługiwać różne rodzaje danych, takie jak tekst, obrazy i inne typy informacji, jednocześnie. Dzięki temu może umożliwiać bardziej naturalne i wszechstronne zdolności konwersacyjne.
Pichai również zasugerował przyszłe możliwości, takie jak pamięć i planowanie, które mogłyby umożliwić wykonywanie zadań wymagających rozumowania.
Jeffrey Dean z Google zaznaczył też, że Gemini będzie wykorzystywał Pathways, nową infrastrukturę AI Google, umożliwiającą skalowanie treningu na różnorodnych zbiorach danych. To sugeruje, że Gemini może być potencjalnie największym modelem językowym, jaki kiedykolwiek powstał, prawdopodobnie przekraczającym rozmiar GPT-3 z ponad 175 miliardami parametrów.
Demis Hassabis, CEO DeepMind, dostarczył dodatkowych informacji: powiedział, że Gemini będzie wykorzystywał techniki, takie jak uczenie ze wzmocnieniem i przeszukiwanie drzew, które mogą mu dać zdolność rozumowania i rozwiązywania problemów.
Uczenie ze wzmocnieniem polega na tym, że model jest nagradzany za podejmowanie określonych działań, co pozwala mu nauczyć się, które z tych działań prowadzą do pożądanych wyników. Jest to technika często stosowana w uczeniu maszynowym, aby modele mogły doskonalić swoje zachowanie w dynamicznych środowiskach.
Przeszukiwanie drzew jest techniką, która polega na eksplorowaniu różnych możliwych sekwencji działań lub decyzji w celu znalezienia najlepszego rozwiązania. Jest to szczególnie przydatne w problemach wymagających analizy wielu możliwości, co może obejmować zarówno gry strategiczne, jak i bardziej ogólne zadania wymagające podejmowania decyzji.
Hassabis stwierdził, że Gemini to seria modeli, która zostanie udostępniona w różnych rozmiarach i zdolnościach.
Wspomniał również, że Gemini może wykorzystywać pamięć, sprawdzanie faktów na podstawie źródeł takich jak Google Search oraz ulepszone uczenie ze wzmocnieniem w celu poprawy dokładności i redukcji niebezpiecznych treści.
Gotowy na rozwój?
Czy Gemini przejmie koronę od ChatGPT?
Jednym z najważniejszych tematów w kontekście premiery Gemini jest pytanie, czy tajemniczy model językowy ma to, czego potrzeba, aby odsunąć na bok ChatGPT, który w tym roku przekroczył liczbę 100 milionów aktywnych użytkowników miesięcznie.
Początkowo Google wykorzystywało zdolność Geminiego do generowania tekstu i obrazów, aby odróżnić go od GPT-4, ale 25 września 2023 roku OpenAI ogłosiło, że użytkownicy będą mogli wprowadzać zapytania głosowe i obrazowe do ChatGPT.
Teraz, gdy OpenAI eksperymentuje z modelem multimodalnym, być może najpoważniejszą różnicą między tymi dwoma jest ogromna baza danych treningowych Google. Google Gemini może przetwarzać dane pochodzące z usług takich jak Google Search, YouTube, Google Books i Google Scholar. Wykorzystanie tych danych w treningu modeli Gemini może przynieść przewagę pod względem zaawansowania wniosków, jakie można wyciągnąć z zestawu danych.
Czy rozwiązanie od Google pozwoli na lepsze generowanie treści? To naturalnie okaże się, kiedy wejdzie na rynek. Trzeba jednak spodziewać się, że w najbliższych latach będziemy świadkami dynamicznego rozwoju AI. A jak używać go do generowania tekstów? Trochę więcej pisałem o tym: tutaj.