AI-háború: Microsoft vs. Google 2-0

Múlt hét szerdán a Google egy sajtótájékoztató keretében mutatta be a legújabb multimodális AI-szoftverét, a Gemini-t, amit az OpenAI által fejlesztett ChatGPT versenytársának szán. Az esemény nagy sikert aratott, hatására a Google piaci értéke másnapra 85 milliárd dollárral emelkedett. A bemutató legnagyobb hype-ot generáló része egy videó volt, amin a techcég mérnökei bemutatják az AI lenyűgöző képességeit, amivel a probléma mindössze annyi volt, hogy a mesterséges intelligencia képességeit messze eltúlozták, a videó pedig teljesen félrevezető lett.

Ahhoz, hogy a bejegyzésem értelmét nyerje, nehezen megkerülhető, hogy megnézzük a Google által bemutatott videót, ezért ha az olvasót kicsit is érdekli a mesterséges intelligencia fejlődése és a techóriások összecsapása, ajánlom, hogy erre a linkre kattintva tekintse meg a videót.

Első pillantásra abszolút lenyűgöző, amit látunk! A folyamatos videó alapú interakció minden szempontból kenterbe veri a ChatGPT-t. Már alig vártam, hogy én is kipróbáljam a bemutatott modellt – amit „valamikor 2024-ben” fognak a széles közönség számára elérhetővé tenni –, amikor kiderült, hogy ez csak egy promóciós videó volt, maga a modell egyáltalán nem videó alapú.

A bemutatóban látható válaszokat a Gemini nem egy videós input után, hanem néhány kép + szöveg prompt hatására alkotta meg, amiket összevágva állt össze a promóciós anyag. Ezt a Google is elismeri a bemutató részletes lebontásában.

Két példában mutatom be röviden, hogy mit jelent ez:

Videó: A fickó kő-papír-olló jeleket mutatott az AI-nak, ami bármi féle magyarázat nélkül rájött, hogy mit szeretnénk vele játszani. Impresszív.

Valóság: Három képet feltöltöttek az AI-nak a három kézmozdulatról, hozzátették, hogy ez egy játék, és utána kérdezték meg, hogy szerinte mi lehet ez. Nem túl impresszív, erre a ChatGPT is bármikor képes.

Videó: Különböző hangszereket rajzolnak egy papírra, ami alapján az AI kitalálja, hogy mik azok, és milyen stílusú zenét játszhatnak. Ezután le is generálja az adott stílushoz illő zenét. Mostanában a zenék generálásával töltöttem egy kis időt, ezért ezt elképesztően lenyűgözőnek találtam.

Valóság: Feltöltöttek egy képet a rajzokról, megkérték, hogy foglalja össze, mi látható a képen, majd találjon ki ötletet arra, hogy milyen stílusú zenét játszhatnak az adott hangszerek. Ezután megkérték, hogy segítsen, hogyan lehetne rákeresni ilyen típusú zenére. Ez teljesen összetörte azt az elképzelésemet, hogy mostanában zenét tudjak gerenálni egy multimodális AI segítségével. Számomra ez volt a legerősebb ferdítés az egész videóban.

Mindezek után a reakciók nem voltak túl kíméletesek a Google-vel… Még néhány dolgozó is kiakadt a vezetőségre az indokolatlan túlzás miatt. Megértem őket!Elképesztő hogy a cég., aminek minden lehetősége megvan arra, hogy vezető szereplő legyen az AI-versenyben (DeepMind-felvásárlás 2014-ben, hozzáférés végtelen videós adathoz a Youtube-on keresztül) ilyen ócska trükkökhöz folyamodik.

Az idei évet azzal kezdtem, hogy a Microsoft vs. Google-háborúban AI-fronton egyelőre azt látom, hogy a Microsoft vezet, ezzel az öngóllal pedig a Google bebizonyította, hogy év végére sem tudta behozni a lemaradását.

Microsoft vs Google: 2-0.

A bejegyzés szerzője Énekes Tamás, az egyik ügyfélkapcsolattartó privátbankárunk, akit a fentiekkel kapcsolatos kérdése esetén ezen a címen érhet el: privatvagyonkezeles@hold.hu