A big data angol kifejezés az egyre nagyobb mennyiségben és változatosságban keletkező adatokra utal, és egyben ezen adatok begyűjtését, feldolgozását és elemzését is jelenti.
A big data az adatelemzés új fázisa, az új típusú adatalapú gazdaság sarokköve. Maga a fogalom elválaszthatatlan azon körülményektől, hogy soha nem látott mennyiségben hozunk létre különféle adatokat, melyek gyors feldolgozására jelentős igény mutatkozik.
A nagyobb adatmennyiségek két fő kategóriáját kell megkülönböztetni. Léteznek strukturált, illetve nem strukturált adatok. A strukturált adatok többnyire számszerű adatokat tartalmaznak rendezett adatbázisokban, vagy különféle táblázatokban. Ilyennek tekinthetőek a különféle statisztikai hivatalok által elérhetővé tett adatok, esetleg a termelő vállalatoknál gyűjtött termelési adatok.
A nem strukturált adatok ezzel szemben rendszerezetlenek és szemben a strukturált adatokkal, itt a formátum nem meghatározott, általában különféle típusú adatok összességeként írhatók le. A nem strukturált adatok közé tartoznak például a különféle közösségi média platformok által gyűjtött adatok, mint a hozzászólások, megosztások, kedvelések vagy a keresőplatformok által gyűjtött keresési adatok és kattintások.
Rendkívül sok adat keletkezik a különféle elektronikai eszközök és weboldalak használata során. Az egyre több és több eszköz, illetve szenzor megjelenése pedig csak növeli az előállított adatok mennyiségét. Ezek feldolgozására pedig új és régi vállalatok jobb és rosszabb szolgáltatásokat kezdtek kínálni.
5V
A big data esetén fontos megemlékezni az úgynevezett V-kről. Ez az öt V betűvel kezdődő szó kiemelt fontossággal bír az adatelemzés során.
- Volume (mennyiség)
- Velocity (sebesség)
- Variety (változatosság)
- Veracity (igazolhatóság vagy megbízhatóság)
- Value (érték)
Az első három V tekinthető a klasszikus hármasnak. Ezek alapján szokás megítélni a rendelkezésre álló adatbázis minőségét. A világunkban elképesztő sebességgel növekszik a keletkező adatok mennyisége, egyre többféle adat keletkezik és ezek feldolgozásában az idő mind fontosabb szerepet kap. Klasszikus értelmezés szerint a big data nem más, mint egyre több formátumú és mennyiségű adat egyre gyorsabb begyűjtése, feldolgozása és elemzése.
A későbbiekben ez egészült ki a megbízhatóság kritériumával, mely kiemelt fontosságúvá tette a begyűjtött adatok minőségét és pontosságát. Rossz, illetve hibás adatokból nem lehet megfelelő eredményeket kapni, így az adatok minősége úgyszintén kulcstényezővé vált.
Az ötödik V kiegészítés a value, mely az elemzési output hasznosságának fontosságát hangsúlyozza. Fel lehet dolgozni nagy mennyiségű sokféle hatalmas mennyiségű adatot gyorsan úgy, hogy igazolható adatokkal is bírjon, azonban mindennek értékesnek is kell lennie a cél szempontjából.
Big data használata
A fogyasztói igények megfelelő ismerete, a kereslet minél pontosabb előrejelzése a vállalatok elemi érdeke. A vállalatok minél többet szeretnének tudni fogyasztóikról, illetve saját magukról is. A megfelelő információ segíti a hatékony működést, a profitok növelését, nagyobb piaci részesedés elérését. Az adatból azonban csak feldolgozás során válik értékes információ. Evégett egyre több cég foglalkoztat adatelemzőket meglévő adataik hasznosítására. Az adatelemzők egy része vállalaton belül dolgozik, azonban gyakori, hogy külső fél segíti az adatfeldolgozást.
Megfelelő adatgyűjtéssel és elemzéssel egy vállalat nagyjából minden részlegén javulás érhető el. Adatelemzéssel támogatható az emberi erőforrás menedzsment, hatékonyabbá tehető a gyártás, személyre szabottá válhat a marketing, illetve akár személyre szabott ajánlatok által az értékesítésbe is új megközelítés hozható.
Big data lehetőségei és veszélyei
Világunk adatalapúvá válása hatalmas lehetőségeket hordoz magában, azonban a lehetőségekkel összevethető veszélyeket is magában foglal. Fejlett big data módszerek segíthetik az orvostudomány fejlődését, újabb gyógyszerek feltalálását, genetikai rendellenességek megértését. A környezeti adatok felhasználása által jobban megérthetjük bolygónk ökoszisztémáját, pontosabb időjárási előrejelzéseket készíthetünk. Mindezek segíthetnek felkészülni a jövő megpróbáltatásaira, hatékonyabbá tehetjük általa gazdálkodásunkat. A vásárlók igényeiknek megfelelőbb termékekkel, szolgáltatásokkal, esetleg hirdetésekkel találkozhatnak. Ezáltal javulhat a fogyasztók szubjektív jóléte, a vállalatok pedig magasabb profitokat érhetnek el.
Ezzel szemben állhat a hatalmas adatmennyiség következtében meglévő zaj, mely nem megfelelő következtetések levonásához vezethet. Emellett a másik és talán legfőbb probléma az érzékeny személyes adatok kérdése. Rendkívül sok adat keletkezik, amelynek jelentékeny része érzékeny személyes adatnak minősíthető. A meglévő adatok alapján sok esetben olyan információk nyerhetők ki az adott egyénről, melyekkel ő maga sincsen tisztában.
A nagymennyiségű adat következtében a lehetőség adott az emberek befolyásolására, megtévesztésére, ízlésük hatékony alakítására. Ilyen szempontból az adatok felhasználása és gyűjtése alapvetően felveti az etikusság kérdését. Hogyan ítéljük meg, ha az egyén beleegyezik személyes adatainak gyűjtésére, ugyanakkor nem képes felmérni annak potenciális következményeit? Mi történik, ha nem az eredeti célra használják fel az adatokat, vagy ha valaki ellopja az összegyűjtött érzékeny adatokat?