Banális hibán csúszhat el az AI fejlődése

Kifogyhatunk-e előbb-utóbb az adatokból, amelyeken az egyre nagyobb nyelvi modelleket (LLM) tanítjuk? A kérdés elméletinek hangzik, pedig nem az: a kutatókat már régóta foglalkoztatja a téma.

A cikk első verziója a Forbes.hu hasábjain jelent meg.

Akármilyen nehéz is elképzelni, egyáltalán nem elméleti probléma, hogy elfogyhatnak a mesterséges intelligencia modellek tanítására használható releváns adatok. Az olyan vezető modelleket, mint például a Meta által fejlesztett Llama 3, már most is elképesztő mennyiségű adaton több mint tizenötezer-milliárd tokenen képzik. (A token a betáplált adategység. Szöveg esetén például egy mondat tokenei mindazok az elemek – például a szavak és az írásjelek -, amelyekre a feldolgozáshoz szükség van.)

A tizenötezer-milliárd token ránézésre nagy számnak tűnik, de kontextus nélkül nehéz értelmezni.

Jó adatból most is kevés van

A világ legnagyobb – és az LLM-ek tanítására legtöbbet használt – ingyenes internetes adatarchívuma, a Common Crawl, nagyjából százezer-milliárd tokennyi információt tartalmaz. Ezeknek az adatoknak a jelentős része azonban spam vagy duplikáció, a valóban eredeti adatmennyiség körülbelül harmincezer-milliárd tokenre becsülhető. Ez lényegében azt jelenti, hogy a Llama 3 szinte az összes hasznos adatot felhasználta a Common Crawl adatbázisából.

Ennél is rosszabb a helyzet, ha a jó minőségű, specifikus adatokhalmazok mennyiségét nézzük.

Az egyik legnagyobb számítógépes kód tárhely, a GitHub mindössze néhány ezermilliárd tokennyi adatot tartalmaz, amit a jelenleg piacon lévő modellek már rég átrágtak. Még úgy is korlátos ez az adatmennyiség, ha a modellek tanítása során megismételjük a jó minőségű adatokat, 16 ismétlés után ugyanis szinte nullára csökken az ismétlés határhaszna – ezen az úton így nem tudunk tovább haladni.

Ez a fenyegető „adatfal” azt sugallja, hogy a jelenlegi paradigmánk – modellek képzése egyre több és több adattal hamarosan eléri a határait. Olvasunk több százmilliárd dolláros AI beruházásokról, de hirtelen elérhetjük a modellek felső korlátját?

Ilyen banális módon érne véget a mesterséges intelligencia fejlődése?

Az iparági bennfentesek nem ilyen borúlátók. Dario Amodei, aki korábban az OpenAI kutatási alelnöke volt, jelenleg a Claude nagy nyelvi modellsorozat fejlesztőjeként ismert Anthropic vezérigazgatója és társalapítója, nemrégiben úgy nyilatkozott, hogy

bár hamarosan kifogyhatunk a rendelkezésre álló adatokból, ez nem feltétlenül szab gátat a fejlődésnek, mivel számos módja van annak, hogy leküzdjük ezt a kihívást.

Innovatív megoldások a láthatáron

Az „adatfal” leküzdésére a kutatók számos lehetséges megoldást vizsgálnak, köztük a szintetikus adatok használatát, a Self-play (amikor a modell saját magával játszik) és a Reinforced Learning (a megerősítéses tanulás) megközelítéseket.

Mindhárom ötlet lényege, hogy a modellek hatékonyabban tanuljanak a rendelkezésükre álló adatokból, hasonlóan ahhoz, ahogyan az emberek a tömény, összetett tananyagokat dolgozzák fel.

Képzeljük el, hogy egy bonyolult összefüggéseket ismertető matematika könyvből tanulunk. Ilyenkor nem csak átfutjuk a tankönyvben található képleteket és feladatokat, hanem lassan olvassuk, megvitatjuk a problémákat másokkal, megoldjuk a feladatokat, visszajelzést kapunk, és ha elrontottuk a példák megoldását, újra próbálkozunk. Tesszük ezt addig, amíg meg nem értjük teljesen az adott fejezetet.

A mesterséges intelligencia kutatók hasonló folyamatokat kívánnak beépíteni az LLM-képzésbe, hogy adott információból valódi megértésre, és ne csak „emlékezetből visszamondásra” legyen képes a modell.

Jönnek a jó adatok

Az egyik ígéretes megközelítés a szintetikus adatok használata a tanítás során. Ez azt jelenti, hogy a modellel új adatokat hozunk létre, amelyek kiegészíthetik a meglévő adatkészleteket. Ez elsőre eléggé kétes megoldásnak tűnik, de hadd hozzak egy példát, amin keresztül jobban megérthető.

A világ legjobb Go játékosát legyőző mesterséges intelligencia rendszer, az AlphaGo is részben ezt a szintetikus adatokon való tanulást használta egy kétlépcsős tanulási folyamatban. Az első lépésben profi Go játékosok játszmáit mutatták neki, hogy megértse az alapokat és a stratégiákat (utánzásos tanulás). Második lépésben pedig több millió játékot játszott saját maga ellen (self play), ami lehetővé tette, hogy óriási gyakorlatot szerezzen és idővel felülmúlja a legkiemelkedőbb emberi teljesítményt is. (Az AlphaGo történetéről egy elképesztően izgalmas dokumentumfilmet is készítettek, ez teljes verziójában elérhető Youtube-on ezen a linken.)

Ha hasonló megközelítést alkalmaznánk az LLM-ekre, az jelentősen növelhetné képességeiket. Ahelyett, hogy hatalmas számítási erőforrásokat fordítanánk tehát gyenge minőségű webes adatokra, a modelleket gondosan összeállított, kiváló minőségű adathalmazokon képezhetjük, és ennek az adathalmaznak a minél mélyebb megértésére koncentrálhatnánk.

Ez a váltás nemcsak nagyobb, hanem sokkal jobb képességű modelleket is eredményezhet.

Transzfer tanulás, önfelügyelt módszerek

Az „adatfal” leküzdésének másik kritikus területe az adatok hatékonyságának javítása jobb algoritmusok révén. Itt nem mennék ezeknek a technikáknak a mélyére – őszintén: még magam is dolgozom a teljes megértésükön. A kutatók szerint különböző technikák alkalmazásával hatékonyabbá lehet tenni kisebb adathalmazokon is a tanulást.

Ezen technikák közül az egyik a „transzfer tanulás”, ahol a modellek az egyik területről származó tudást válnak képessé alkalmazni egy másik területet felmerülő problémára.

Egy másik módszer a finomhangolás, ahol az előre betanított modelleket specifikus adatokkal finomítják, ezzel segítve, hogy kisebb adathalmazon tudjanak tanulni. Emellett a félig felügyelt és önfelügyelt tanulási módszerek (semi-supervised és self-supervised learning) pedig lehetővé teszik, hogy a modellek válaszait emberi kutatók segítségével értékeljék és ezek alapján biztosítsák a válaszok pontosságát.

Mit hoz a jövő?

Érdekes módon, ahogy közeledünk az adatfalhoz, úgy válnak az AI modellek egyre különbözőbbé. A múltban a legmodernebb technikákat a kutatók gyakran büszkén publikálták az interneten, ami széles körű hozzáférést és versenyt tett lehetővé az iparágban. Most, hogy az adatok kritikus korláttá válnak, a vezető laboratóriumok a leginnovatívabb megközelítéseiket titokban fogják tartani.

Ez a váltás azt jelenti, hogy a különböző AI fejlesztők módszerei és teljesítménye között egyre nagyobb eltérésekre számíthatunk.

Egyesek számára valóra válik a rossz forgatókönyv és beleütköznek az adatfalba, míg mások áttörést érnek majd el, ami jelentős különbségekhez vezethet az általuk fejlesztett mesterséges intelligenciák képességeiben.

Összefoglalva, bár a mesterséges intelligencia modellek képzésére felhasználható adatok mennyiségi korlátaitól való félelem jogos, nem valószínű, hogy ez megállítja majd a fejlődést. A mesterséges intelligenciával foglalkozó közösség aktívan kutatja a kihívás leküzdésére irányuló innovatív stratégiákat. Tekintettel a mesterséges intelligencia múltbeli korlátok leküzdésében elért eredményeire, joggal várhatjuk, hogy ezek az új megközelítések nem csak elkerülik az adatfal okozta katasztrófát, hanem potenciálisan a modellképességek még nagyobb növekedéséhez vezethetnek.


Énekes Tamás, a HOLD privátbankárának többi írását itt böngészheted a HOLDBLOG-on.

JOGI NYILATKOZAT

A dokumentumban foglaltak nem minősülnek befektetési ajánlatnak, ajánlattételi felhívásnak, befektetési tanácsadásnak vagy adótanácsadásnak, befektetési elemzésnek, az abban foglaltak alapján a HOLD Alapkezelő Zrt.-vel szemben igény nem érvényesíthető, azokért a HOLD Alapkezelő Zrt. felelősséget nem vállal.