Mis on Google Gemini? Kõik uuest tehisintellektist

Tehisintellekti maastik on viimase aasta jooksul muutunud tundmatuseni ning tehnoloogiahiiglaste vaheline võidujooks on jõudnud täiesti uude faasi. Kui OpenAI tõi turule ChatGPT, raputas see maailma ja pani aluse uuele ajastule digitaalses assisteerimises, kuid Google ei jäänud kauaks pealtvaatajaks. Pärast esialgset katsetust Bardiga on Google nüüdseks avalikustanud oma seni kõige võimsama ja paindlikuma tehisintellekti mudeli nimega Gemini. See ei ole lihtsalt järjekordne juturobot või otsingumootori uuendus, vaid täiesti uus ökosüsteem, mis on loodud algusest peale olema multimodaalne. See tähendab, et Gemini suudab samaaegselt mõista ja töödelda informatsiooni erinevates vormides, olgu selleks tekst, kood, heli, pilt või video, pakkudes kasutajatele enneolematut kasutusmugavust ja täpsust.

Mis on Google Gemini ja kuidas see erineb varasematest mudelitest?

Lihtsustatult öeldes on Gemini Google’i vastus maailma kasvavale nõudlusele targema ja mitmekülgsema tehisintellekti järele. See on suur keelemudel (LLM), mille Google DeepMind on välja töötanud eesmärgiga ületada olemasolevaid piire masinõppes. Erinevalt varasematest mudelitest, mis treeniti sageli eraldiseisvate komponentidena (näiteks eraldi mudel piltide ja eraldi mudel teksti jaoks), on Gemini loomuomaselt multimodaalne.

See põhimõtteline arhitektuuriline erinevus tähendab, et mudel on treenitud algusest peale erinevate andmetüüpidega korraga. Tänu sellele suudab Gemini:

Mõista keerukaid seoseid teksti ja pildi vahel palju paremini kui varasemad mudelid.
Analüüsida videosisu reaalajas, mõistes nii visuaalset liikumist kui ka helilist tausta.
Kirjutada ja selgitada programmeerimiskoodi kõrgemal tasemel, olles abiks tarkvaraarendajatele.
Tõlkida ja kohandada sisu erinevate kultuuriruumide ja keelte vahel, sealhulgas eesti keeles.

See muutus tähistab ka Google’i brändingu ühtlustamist. Varasemalt tuntud teenus “Bard” on nüüdseks ajalugu ning kogu Google’i AI-strateegia on koondunud Gemini nime alla, ühendades nii tavatarbija juturoboti kui ka arendajatele mõeldud taustatehnoloogia.

Kolm erinevat versiooni: Nano, Pro ja Ultra

Google mõistis, et üks suurus ei sobi kõigile. Nutitelefonis töötav tehisintellekt vajab teistsugust ressurssi kui keerukaid andmeanalüüse tegev serveripõhine mudel. Seetõttu on Gemini jaotatud kolme kategooriasse, millest igaühel on oma kindel kasutusotstarve:

1. Gemini Nano

See on mudeli kõige kompaktsem versioon, mis on loodud töötama otse seadmetes, näiteks nutitelefonides (nagu Google Pixel 8 või Samsung Galaxy S24 seeria). Nano suurim eelis on privaatsus ja kiirus, kuna andmeid ei saadeta pilveserverisse. See võimaldab teha lihtsamaid toiminguid, nagu tekstisõnumite kokkuvõtete tegemine või automaatvastuste soovitamine, isegi siis, kui internetiühendus puudub.

2. Gemini Pro

See on “kuldne kesktee” ja versioon, millega enamik tavakasutajaid kokku puutub. Gemini Pro on optimeeritud skaleeritavuse jaoks, pakkudes suurepärast tasakaalu jõudluse ja kiiruse vahel. See on mootoriks tasuta kättesaadavale Gemini juturobotile ja on võrreldav GPT-3.5 või teatud aspektides GPT-4 võimekusega. Pro versioon on suurepärane igapäevasteks ülesanneteks, nagu ideede genereerimine, tekstide toimetamine ja informatsiooni otsimine.

3. Gemini Ultra

Ultra on Google’i kõige võimsam mudel, mis on mõeldud äärmiselt keerukate ülesannete lahendamiseks. See on suunatud andmeteadlastele, programmeerijatele ja ettevõtetele, kes vajavad süvitsi minevat loogilist arutluskäiku ja suurt arvutusvõimsust. Gemini Ultra on aluseks tasulisele teenusele Gemini Advanced ning Google’i väitel ületab see paljudes standardtestides (sealhulgas MMLU testis) inimestele mõeldud eksamitulemusi.

Multimodaalsus praktikas: mida see tegelikult tähendab?

Termin “multimodaalsus” võib kõlada tehnilise žargoonina, kuid kasutaja jaoks tähendab see oluliselt loomulikumat suhtlust arvutiga. Kujutage ette, et teil on vaja parandada lekkivat kraani. Vana kooli otsingusüsteemis trükiksite sisse märksõnad ja loeksite artikleid. Gemini puhul saate aga filmida lühikese video lekkivast kraanist ja küsida: “Mis siin valesti on ja millist tööriista ma parandamiseks vajan?”.

Gemini suudab analüüsida videot kaaderhaaval, tuvastada kraani margi, leida lekke asukoha ja soovitada konkreetset mutrivõtit koos samm-sammulise juhendiga. See on võimalik, kuna mudel ei tõlgi pilti esmalt tekstiks, vaid “näeb” ja “mõistab” pilti sarnaselt inimmõistusele.

Samuti on see võimekus kriitilise tähtsusega hariduses. Õpilane võib pildistada oma matemaatikaülesannet (olgu see käsitsi kirjutatud või graafik) ja paluda Geminil see lahendada. Veelgi olulisem on see, et Gemini suudab selgitada lahenduskäiku, aidates õpilasel teemast paremini aru saada, mitte lihtsalt andes ette õige vastuse.

Integratsioon Google’i ökosüsteemiga

Üks Gemini suurimaid konkurentsieeliseid on selle sügav integratsioon teenustega, mida miljardid inimesed juba igapäevaselt kasutavad. Google ei ehita lihtsalt eraldiseisvat vestlusrobotit, vaid toob AI otse oma tööriistadesse.

Google Docs ja Gmail: Gemini aitab kirjutada e-kirju, koostada koosolekute kokkuvõtteid, muuta teksti tooni ametlikumaks või luua dokumentide põhjal esitlusi.
Google Maps ja Flights: Kujutage ette reisi planeerimist, kus palute Geminil leida lennud, mis sobivad teie kalendris olevate vabade aegadega, broneerida hotell, mis on lähedal konverentsikeskusele, ja koostada jalutuskäigu marsruut koos restoranisoovitustega – kõik ühes vestlusaknas.
Androidi telefonid: Gemini asendab järk-järgult Google Assistanti, muutudes palju targemaks abiliseks, mis mõistab konteksti ja suudab hallata telefoni seadeid ja rakendusi sujuvamalt.

Ohutus, hallutsinatsioonid ja eetilised küsimused

Vaatamata muljetavaldavale võimekusele, ei ole Gemini ega ükski teine tehisintellekt vaba vigadest. Üks suurimaid probleeme on endiselt “hallutsinatsioonid” – olukorrad, kus AI esitab valefakte täie veendumusega. Google on teinud suuri pingutusi, et vähendada selliseid vigu, kasutades faktikontrolli mehhanisme ja viidates allikatele, kuid kasutajatel soovitatakse siiski kriitilist teavet alati üle kontrollida.

Teine oluline aspekt on autoriõigused ja sisu loomine. Et eristada inimloomingut tehisintellekti poolt loodust, on Google lisanud piltidele digitaalse vesimärgi nimega SynthID. See on inimsilmale nähtamatu, kuid masinloetav märgistus, mis aitab tuvastada, kas pilt on genereeritud AI poolt, aidates seeläbi võidelda väärinfo levikuga.

Korduma kippuvad küsimused Gemini kohta

Kas Gemini kasutamine on tasuta?

Jah ja ei. Tavakasutajale mõeldud Gemini Pro on kättesaadav tasuta. Kui soovite kasutada kõige võimsamat mudelit Gemini Ultra, peate liituma tasulise teenusega Google One AI Premium, mis maksab sarnaselt teiste voogedastusteenustega kuutasu.

Kas Gemini toetab eesti keelt?

Jah, Gemini toetab eesti keelt üsna heal tasemel. Saate temaga suhelda eesti keeles, paluda tal tõlkida tekste või koostada eestikeelset sisu. Siiski tuleb arvestada, et inglise keeles võib mudeli loogika ja nüansitunnetus olla kohati täpsem.

Kuidas ma saan Geminit kasutada?

Geminit saab kasutada veebilehitsejas aadressil gemini.google.com. Lisaks on Androidi kasutajatele saadaval eraldi rakendus (või integratsioon Google’i äpiga) ning iOS kasutajad leiavad Gemini funktsionaalsuse Google’i põhirakendusest.

Kas Gemini on parem kui ChatGPT?

See sõltub kasutusotstarbest. Testide põhjal on Gemini Ultra väga konkurentsivõimeline GPT-4 mudeliga ja kohati ületab seda, eriti multimodaalsetes ülesannetes (pilt ja video). Siiski on ChatGPT-l oma tugevused, näiteks väga suur kasutajaskond ja spetsiifilised pluginad. Parim valik sõltub isiklikust eelistusest ja sellest, kas olete juba sügavalt Google’i ökosüsteemis.

Kas minu vestlused on privaatsed?

Google kogub vestluste andmeid teenuse parendamiseks, kuid need andmed on anonüümsed. Siiski ei soovitata jagada tehisintellektiga tundlikke isikuandmeid, pangakoode või konfidentsiaalset tööalast informatsiooni. Kasutajatel on võimalik oma tegevuste ajalugu ka välja lülitada või kustutada.

Tehisintellekti mõju tuleviku tööriistadele ja arendusele

Gemini tulek tähistab punkti, kus tehisintellekt ei ole enam eraldiseisev uudishimuobjekt, vaid nähtamatu kiht meie igapäevaste digitaalsete tööriistade peal. Arendajate jaoks avab Gemini API uksed uue põlvkonna rakenduste loomiseks, mis suudavad mõista maailma sarnaselt inimestele. See tähendab nutikamaid klienditoe roboteid, personaalseid õpetajaid ja loovtööriistu, mis aitavad disaineritel ja kirjanikel oma ideid kiiremini ellu viia.

Google’i strateegia integreerida see võimekus otse Androidi ja Workspace’i tähendab, et miljonid inimesed hakkavad kasutama tipptasemel tehisintellekti, ilma et nad sellele isegi teadlikult mõtleksid. See demokratiseerib juurdepääsu tehnoloogiale, mis varem oli kättesaadav vaid vähestele. Tulevikus ei hinda me tehisintellekti mitte selle järgi, kui hästi ta suudab inimestega vestelda, vaid selle järgi, kui märkamatult ja tõhusalt suudab ta lahendada meie igapäevaseid probleeme, vabastades meid rutiinsetest ülesannetest loovama töö jaoks.