Focus

32_Google_420
Forrás: -

Felfedezésre váró értékek

A Nagy Adat és a hozzá kapcsolódó elemzési feladatok nem annyira technológiai, mint inkább kulturális kérdést jelentenek. A piaci versenyben nem az dönt majd, hogy ki gyűjt be több adatot, hanem hogy ki tud több hasznos információt kinyerni üzleti döntéseihez.

Minden valamirevaló cég bőszen gyűjti informatikai rendszereiben és rendszereiből az adatokat, különösen az értékesítésre és a pénzmozgásra vonatkozókat. Ezekből a jobb helyeken szép kimutatások, jelentések is készülnek – többnyire egy rövidebb-hosszabb elmúlt időszakra vonatkozóan –, és ezek a riportok szolgálnak a tervek alapjául is.

Az ilyen jellegű elemzések (többnyire) megmutatják, hogy mi történt, de ritkán alkalmasak annak felderítésére, hogy ami történt, miért történt. Így a következtetéseket nem az adatok, hanem az intuíciók, a korábbi tapasztalatok alapján vonják le.

 


 

 

Adat és kultúra

Innen pedig egyenes út vezet az olyan jellegű döntéshozatalhoz, amit az angol üzleti szleng hippo-nak (highest-paid person’s opinionnak) nevez: vagyis mindenki előadja a véleményét, majd a jelenlévők közül a legmagasabb fizetést húzó, feltehetően a legmagasabb beosztású ember véleménye lesz a döntés. (Hippo: víziló angolul – a szerk.)

„Ez korábban sem működött jól, de a Nagy Adat korában még kevésbé lesz járható út” – mondta munkatársunknak Scott Gnau, a nagyméretű adattárházak fejlesztésében világelsőnek számító Teradata belső fejlesztési részlegének, a Teradata Labsnak a vezetője a cég nemrégiben megtartott koppenhágai felhasználói konferenciáján. A kiutat az adatkultúra vállalaton belüli elterjesztése jelentheti. Az adatkultúra nem egyszerűen bizonyos szoftverek, technológiák alkalmazását jelenti, hanem sokkal inkább vezetői hozzáállást. Egy ilyen cégben minden lehetséges módon igyekeznek kiaknázni a rendelkezésre álló adatokat, megnézik, milyen releváns adatokat gyűjthetnek még be, azokat mire tudnák felhasználni, majd a felhalmozott adatok elemzését a mindennapi üzleti gyakorlat részévé teszik. „Nem egyszerűen újabb táblázatokat, jelentéseket készítünk az adatokból, hanem új, rejtett összefüggéseket keresünk, olyan információk után kutatunk, amelyek eddig nem álltak rendelkezésünkre” –  mondja Scott Gnau.

Ilyen értelemben az adatkultúra nem is csak a Nagy Adathoz kapcsolódik, az csupán felerősíti az iránta való igényt. Az adatkultúrát azoknak a cégeknek is adoptálniuk kellene, amelyek – egyelőre – csak a hagyományos tranzakciós adatokkal dolgoznak. „Ugyanazok az elvek érvényesülnek a Nagy Adatnál is, mint amelyeket korábban kialakítottunk. Természetesen találkozunk új adatfajtákkal, és a sokkal nagyobb mennyiség új technológiákat, módszereket igényel, de végső soron hasonló adatmenedzsment-problémákról van szó. Biztosra veszem, hogy előbb-utóbb a Nagy Adat kifejezés is kivész a közbeszédből, mert mindenki rájön, hogy végső soron itt is csak adatokról beszélünk” – teszi hozzá a Teradata Labs vezetője.

A Nagy Adat-jelenség

Amikor Nagy Adatról beszélünk, ritkán vagyunk tisztában azzal, mennyire nagy is ez az adat. Az IDC tavaly év végén nyilvánosságra hozott elemzésében (The Digital Universe in 2020) azt állítja, hogy a világon fellelhető elektronikusan tárolt információk mennyisége (vagyis a digitális világegyetem) évente duplázódni fog. 2005-ben még „csak” 130 exabájt volt (egy exabájt ezer petabájt, avagy egymillió terabájt), 2020-ra viszont eléri a 40 ezer exabájtot, vagyis eredeti méretének 300-szorosára nő.

Más felmérések pedig azt mutatják, hogy az adatok jellege és forrása is változik. 2010-ben az összes digitális adat 90 százaléka strukturálatlan formátumú volt (videó, hang stb.); 2015-ben pedig az összes strukturálatlan adat kétharmadát már az egyéni felhasználók, és nem a vállalatok állítják elő.

 

Analitikai életciklusokon át

Kiterjedt és mélyreható befolyást gyakorol a big data-jelenség a tőle elválaszthatatlan üzleti intelligencia piacának alakulására, különösen az analitikai eszközökére. Jól mutatja ezt az IDC előrejelzése: a 2016-ra 50 milliárd dolláros értéket elérő bi-piac évi csaknem 10 százalékos növekedése az adathalmaz-kezelésnek lesz köszönhető.

A big data ma már a teljes analitikai életciklusra hatással van, ezért a szűk keresztmetszetek elkerülése érdekében a szervezeteknek bigdata-stratégiában kell gondolkodniuk. A jövő pedig közelebb van, mint gondolnánk, ezért a cégeknek a túlélés és a növekedés érdekében el kell kezdeniük alkalmazkodni ehhez a trendhez. Ebben segítségükre lehetnek a nagy teljesítményű analitikai eszközök, amelyek akár többmilliárdnyi adatsor esetén is képesek biztosítani, hogy egy szervezetet ne temessen maga alá az adathegy.

A bid data menedzsmentje, azaz az adattömeg-kezelés ráadásul már nem kizárólag az informatika felségterülete, illetve nem csak infrastrukturális kérdés. A cégvezetők inkább információmenedzsmentet várnak. Tisztában akarnak lenni azzal, hogy a cég mekkora adatvagyonnal rendelkezik, az hol található, s ami a fő, hogyan lehet belőle hasznos információt kinyerni. A Forrester elemzői szerint ezért a big data kezelése ki fog mozdulni az it-felügyelt, nagyvállalati adatsilókból, s beszivárog a mindennapi vállalati it-be. A bi-megoldások szállítói már fel is készültek a paradigmaváltásra. Ennek jóvoltából a bi-eszközök használata már nem csak néhány profi adatelemző, statisztikus stb. feladata lehet, minden munkatárs képes lesz elvégezni az őt érdeklő elemzéseket.


Amihez persze elengedhetetlen az üzleti intelligencia (bi) eszköztárának használata. Így a strukturált és strukturálatlan adatokat az analitika segítségével relevánssá, számszerűvé és hasznosíthatóvá kell alakítani, valamint a megfelelő helyen és időben rendelkezésre bocsájtani, hogy megalapozott döntéseket lehessen hozni, amivel értékes piaci versenyelőnyt lehessen szerezni. Mindebben különösen a prediktív analitika segíthet.

 

Több lépésben

Ahhoz, hogy teljeskörűen ki lehessen aknázni az adathalmazokban rejlő lehetőségeket az üzleti intelligencia segítségével, több lépést is meg kell tenni.

A SAS Institute szakértői szerint a folyamat az adatgyűjtéssel kezdődik. Egy szervezet különböző adatforrásokból gyűjti össze az adatokat, amelyeket aztán masszívan párhuzamosított rendszerek segítségével – gyakran grid-technológia alkalmazásával – oszt szét. Minden egyes csomópont az adatok egy részhalmazát dolgozza fel. A feldolgozásban a rendszer ugyanezt a nagy teljesítményű párhuzamosságot használja fel. Így gyors számításokat lehet végezni az adatokon minden egyes csomópontban, amelyek az eredményeket jobban felhasználható adathalmazokká csökkentik.

Az adatkezelés sem mellékes, mivel a feldolgozandó adatok gyakran különböző tranzakciós rendszerekből származnak, ennélfogva heterogének. Így csaknem mindig szükség van az adatok értelmezésére, definiálására, tisztítására, gazdagítására és biztonsági célokból történő auditálására. Ezzel párhuzamosan a vállalatoknak folyamatosan mérniük, monitorozniuk kell adataik minőségét, biztosítaniuk kell adataik összekapcsolhatóságát. Az üzleti követelmények határozzák meg, hogy pontosan mit szükséges mérni és milyen célt érdemes kitűzni az adatok minőségével kapcsolatban.

A tárolás is fontos momentum. Az adatfelhő- (data-as-a-service) -trend kialakulásával az adatok egyre inkább egy adott helyen találhatók meg, míg az azokat elérő programok helye nem rögzített. Akár rövid távú kötegelt feldolgozás, akár hosszú távú megőrzés céljából tárolja a szervezet az adatokat, a tárolási megoldásokat mindenképpen tudatosan kell kezelnie.

Bi helyett dd: data discovery

Nehezen birkóznak meg a big data térnyerésével a hagyományos bi-szállítók eszközei. Emiatt egyes szakértők a bi-piac kettészakadását vizionálják. Az egyik oldalon azok állnak, amelyek a múlt adatvilágára építették termékeiket. Ezek nem különböztetnek meg jelentéssel bíró, illetve lényegtelen adatokat, viszont jelentések, grafikonok, táblázatok áttekinthetetlen tömkelegét generálják a Hadoopból.

A másik oldalon a viszonylag frissen alakult szállítók állnak, amelyek az üzleti intelligencia helyett az adatfelfedezést (data discovery) tűzték zászlajukra. Ami a Gartner szerint nem más, mint a vállalati bi-platformok alternatíváját kínáló megközelítés. Magas szintű, interaktív felhasználói felülettel rendelkezik, architektúrája beépített memórián alapul, üzleti felhasználók is könnyen használhatják, s nem boszorkányság a telepítése sem.

 

Új szakma

Az adatok, így a Nagy Adat felhasználása és kiaknázása azonban nem feltétlenül pusztán a technológián múlik. Az adatok begyűjtésére, tárolására, akár elemzésére szolgáló eszközök rendelkezésre állnak, még ha nem is mindig egyszerű a használatuk. Sokkal komolyabb problémát okoz az, hogy a legtöbb szervezetnél egyszerűen nem tudják, hogy mit kezdjenek vele. Tárolni és esetleg keresni benne nem elég, mert nem nyújt hozzáadott értéket. Elemezni kell, hogy olyat tudjunk meg, amit eddig nem tudtunk, és amit aztán fel tudunk használni az üzletmenet javítására. Ma már nem akkora kunszt feltérképezni egy ügyfél Facebook-kapcsolatait – csak éppen nincs értelme, ha nem tudjuk, mihez tudunk és akarunk kezdeni az így megszerzett információval.

Ez a – sok szervezetre jellemző – tanácstalanság teszi fontossá az igazán profi adatelemzőket (angol szakszóval data scientisteket). A tökéletes (ezért csak elméletben létező) elemző számos dologhoz ért: egyszerre matematikus, informatikus, MBA-tudású üzletember, ráadásul még egy kicsit művész is. Képes kreatívan, a megszokott sémáktól eltérően gondolkodni, hogy ott is összefüggéseket keressen, ahol más nem – mondjuk mi a jelentősége annak, hogy az online áruházban a kosár ikonja a weblap jobb vagy bal oldalán van.

A jó elemzőkre már csak azért is szükség van, mert a túl sok adatból könnyen lehet téves következtetéseket levonni – hívta fel a figyelmet a Teradata konferencián tartott előadásában Eric Brynjolfsson, az MIT Center for Digital Business igazgatója. Sokan és sokszor hajlamosak elkövetni a hibát, hogy a korrelációt ok-okozati összefüggésnek vélik, és így hibás eredményekre jutnak.

Jó példa erre, amikor Bostonban az okostelefonok gyorsulásmérőjét használva igyekeztek feltérképezni a kátyúkat: a kocsik döccenését a koordinátákkal együtt rögzítette a telefon, így kerültek fel a lyukak a térképre. Az adatokból azonban az derült ki, hogy a legtöbb kátyú az egyik legelegánsabb negyedben, a Beacon Hillen van, ami nem felelt meg a valóságnak. Az ok: nem kátyúból volt ott a legtöbb, hanem okostelefonból, vagyis az adatok eloszlása nem volt egyenletes. „Rendkívül hasznos lehet a közösségi médiából származó adatok elemzése, de meg kell nézni, hogy ki hozta létre őket, mennyire véletlenszerűek, milyen értéket képviselnek.  Csak ezután szabad a felhasználásuk mikéntjén és célján elgondolkodni” – vonta le a következtetést Brynjolfsson.

 

A közszférában is

A nagy mennyiségű adatok kiaknázásában rejlő lehetőségekkel és kihívásokkal a közszféra szereplői is szembesülnek. Az ő munkájukat, beleértve a kormányzati döntéshozatalt is, szintén hatékonyan támogathatják az analitikai megoldások.

Jó példa erre a mikroszimuláció. Ezzel modellezhető, hogy az egyes intézkedések milyen hatást gyakorolnak a gazdasági egységek – például egyének vagy háztartások – szintjén.

Nincs idő

A változások új trendeket eredményeznek az analitikában is, amely nagy teljesítményű eszközeivel átalakítja az üzleti folyamatokat. Az aktuális helyzetben kell optimális megoldást találni, és annyira gyorsan változik a világ, hogy a 3–5 éves idősorokon történő adatbányászati modellezés, előrejelzés gyakran nem elégséges.

Ma már nincs idő arra, hogy egy szervezet napokig várjon egy komplex elemzésre. A versenyelőny biztosításához azonnali, vagy legalábbis nagyon gyors döntések szükségesek, sokszor helyben, az adott megbeszélésen. A gyorsabb munka jobb minőséget is jelenthet. Ha az elemzés kevés időt vesz igénybe, a szakemberek több mindent kipróbálhatnak, és megbizonyosodhatnak arról, hogy helyes modellt állítottak fel. Továbbá ha a rutindöntések gyorsabban meghozhatók, a felszabaduló időben a cégek más, stratégiai kérdésekkel foglalkozhatnak.