Z. Karvalics László

z.karvalics
Forrás: -

Pig Data – egy kis adatmalackodás

Rameez Rahman, a SCENSCI Blog szerzője különös módon szólt hozzá a mind szenvedélyesebb Big Data diskurzushoz. Egy tanító célú állatmesében foglalta össze [1] a véleményét arról, vajon mire használható és mire nem a rengeteg adat, amelyet egyre kiterjedtebb rendszerekkel állítunk elő. Érdemes megosztani ezt a kis fabulát a magyar olvasókkal is.

Egy tudósnak készülő sertés, abból kiindulva, hogy a világról elégséges mennyiségben rendelkezésre álló adatok birtokában módfelett pontos előrejelzéseket fog tudni adni a bekövetkező eseményekről, magabiztosan jelentette ki: „Nem alkotok modelleket, nincsen szükségem rájuk. Maga a világ a modellem."

Hasonszőrű társaival azonnal módja is nyílt a gyakorlatban alkalmazni módszerüket, a röfistatisztikát (Pig Data), egy kutyák által üzemeltetett népszerű bár, a Doogle számára. Olyan ügyesen számolgatták ki a vendégek italfogyasztási szokásainak mintázatait, az asztaltípusok kedveltségét, az átlagos érkezési időpontokat, hogy egyre többen fordultak hozzájuk. A bölcs, elméletben és modellekben gondolkodó baglyok ideje lejárni látszott, a diadalmas adatmalacok már a borospoharak színét optimalizálták a leggyorsabb elérés érdekében, amikor gumós zápfogú hősünk elhatározta, hogy továbblép: mindent előre fog jelezni az összes adat összegyűjtésével.

Próbaként a zuhanó testeket kezdte tesztelni, minden zuhanó tárgyra mindenféle helyszínen vonatkozó mindenféle körülményre érzékeny adatot összegyűjtve. Sikerült is például pillanatok alatt felfedeznie, hogy reggel és napközben több tárgy zuhan a földre, amikor az állatok aktívak, mint este, amikor alszanak. Sőt, a szorgalmas hízó felismerte és azonmód meg is osztotta a rögtönzött sajtókonferenciára összesereglett állatokkal a zuhanás törvényét: a nehéz test gyorsabban, a könnyű lassabban esik.

Hiába tiltakoztak a bagoly-tudósok, hogy a súrlódás és a légellenállás kizárásával a különböző súlyú testek azonos sebességgel esnek, és ez kísérletileg könnyűszerrel igazolható is, a felheccelt tömeggel nem lehetett bírni. Amikor a diadalmas disznó egy követ és egy sörte-darabkát egyszerre ejtett le a földre, de a kő mégis hamarabb ért talajt, a nézők átszellemülten győződhettek meg bálványuk és a röfistatisztika igazáról. Sokáig zúgott is utána a felelgetős kórus: píííííííííg – data! Pííííííííg – data!

Az orwelli Állatfarm hangulatát felidéző, persze rövidítve elmesélt kis történet szerzőjének semmi baja a sok adattal. Pusztán arra akart figyelmeztetni, hogy nem árt idejekorán végiggondolni: milyen irányba indulunk a szaporán növekvő adathalmazok feldolgozásakor. Mik a végső céljaink? Mik a reménybeli előnyei és a lehetséges korlátai az elemzésbe bevont adatok tömegének? Hol hasznos, hol felesleges, hol elég, hol elégtelen a röfistatisztika? Mi a hozadéka az együtt kezelt, de különböző területekről származó adatok elemzésének?

A kérdéseket még hosszan lehetne sorolni, és annál is inkább erősen aktuálisak, mert az eddigi „nagy adat-termelők” (tudomány, közigazgatás, egészségügy, közösségi médiaóriások) mellé újabbak és újabbak zárkóznak fel. Elég, ha csak az „ipari internetre”, a gép-gép kommunikációra, a kulturális örökség digitalizálásának újabb nagy tartományaira vagy az intelligens közlekedésre gondolunk. Dagonyázásra nincs idő.

 

[1] Big Data or Pig Data?