Trendfigyelő

12_medya.turkcell.com.tr.jpg
Forrás: ITB
Elárvult, érintetlen adatok

Rejtőzködő állományok

Még igazából be sem indultak a Nagy Adat projektek, de a nagyvállalatok már most is gyakran küszködnek meglévő adatvagyonuk tárolásával, kezelésével és nem utolsósorban a bennük tárolt információk elérésével. A Veritas kutatása annak is utánajárt, hogy miért.

A Veritas jó helyzetben van, ha nagyvállalati adatkörnyezetek jellemzőit kell feltérképezni. A cégnek ügyfele a Fortune 500 cégeinek 86 százaléka: ezeknél adatok exabájtjait archiválja és elemzi. Nemrég megjelentett, „Data Genomics Index” elnevezésű jelentésében pontos, valós idejű képet ad a nagyvállalati adatok összetételéről. Több mint 8 ezer fájltípust és összesen több tízmilliárd fájlt elemeztek, hogy reprezentatív képet kapjanak az ügyfelek állományrendszerének összetételéről. A felmérés a strukturálatlan adatokra terjedt ki, mert rendszerint azok okozzák a nagyobb gondot, nem a vállalati rendszerek adatbázisai. A jelentés összehasonlítási alapként szolgálhat: segítséget nyújthat a vállalatoknak, hogy azokon a területeken fordítsanak több figyelmet folyamataik optimalizálására, ahol a legjobban megtérülnek az erőfeszítések.

 

Sok és sokféle

A jelentés első megállapításában még semmi meglepő nincs: a fájlrendszerekben tárolt adatok mennyisége (is) robbanásszerűen növekszik. Az elmúlt hét évben a fájlok szintjén évről-évre 39 százalékkal nőtt az adatmennyiség. Ezt az irdatlan mennyiséget tárolni is kellene valahol, de ez csak része a problémának. Az adatkezelés szempontjából ugyancsak sok fejfájást okoz, hogy mennyire fragmentált ez a környezet: egy petabájt információ átlagosan 2,3 milliárd (!) fájlból áll.

A projekt

A Veritas azzal a céllal indította útjára a Data Genomics Projectet, hogy átformálja a vállalati adatkezelésről vallott nézeteket. A kezdeményezés révén szeretné egyetlen közösségben összehozni a hasonlóan gondolkodó adattudósokat, iparági szakértőket és véleményvezéreket, hogy együtt jobban megérthessék a strukturálatlan adatok igazi természetét. A projekt első kézzelfogható eredménye a Data Genomics Index, amely összehasonlítási alap kíván lenni a valós vállalati tárolási környezetek összetételének vizsgálatához.

Az adatállomány összetétele azonban annál inkább tartogatott meglepetést. Egyáltalán nem azokból a fájltípusokból van számszerűen a legtöbb, mint amelyek a legtöbb helyet foglalják. Számosságban a fejlesztői állományok vezetnek (az összes fájl több mint egyötödét ezek teszik ki), míg a legtöbb helyet (több mint 14 százalékot) a képfájlok foglalják el. A sok kisméretű állomány a fájlrendszer rendetlenségét növeli, a kevés nagy pedig a teljes tárolási környezet költségeit. (Lásd „A leggyakoribb fájltípusok megoszlása” című grafikonunkat!) Figyelemre méltó az is, hogy az ismeretlen típusú fájlok az összes állomány több mint egytizedét adják, elfoglalva a tárterület csaknem kilenc százalékát.

Erősen változott az adatállomány összetétele is az elmúlt tíz év során. A legnagyobb vesztes a prezentáció: manapság ötször kevesebb bemutató állomány születik, mint egy évtizeddel korábban, és az elfoglalt tárhelyet tekintve is ennél a fájltípusnál a legnagyobb a csökkenés. Érdekes a hangállományok alakulása: ezekből 67 százalékkal több készül, mint korábban, viszont több mint 400 százalékkal kisebb helyet foglalnak. Éljen az mp3? (Lásd „Nyertesek és vesztesek” című grafikonunkat!)

A jelentés kutatói figyelme kiterjedt arra is, mikor milyen adatok születnek a legnagyobb számban. Bár az adatmennyiség növekedésének mindig szezonja van, bizonyos tendenciák jól észlelhetők (és elég logikusan megmagyarázhatók). Az adatok létrehozása szempontjából egyértelműen az ősz a legtermékenyebb hónap: akkor 91 százalékkal több szöveges állományt és 48 százalékkal több táblázatot kreálnak a dolgozók – talán nem függetlenül a negyedik negyedév mindenütt erősebb értékesítési forgalma miatt. A biztonsági mentésekből csaknem nyolcszor annyi születik télen, mint bármelyik más hónapban, vagyis a jelek szerint igen népszerű az éves adatmentés. Az összes videó több mint kétharmadát nyáron és ősszel teszik fel a fájlrendszerbe. Az elektronikus levelezés viszont annál kiszámíthatóbb: az évszakok között nem egészen egy százalék az eltérés. Legyen tél vagy nyár, az e-mailek száma nem változik. 

 

Minek tárolják?

 A Data Genomics Index egyik legmegdöbbentőbb felismerése azonban nem is az állományok létrehozásához, hanem tartogatásához kapcsolódik. A vizsgált vállalati környezetben a teljes adatmennyiség 12 százalékához már hét éve nem nyúlt senki, teljes 41 százalékát pedig az elmúlt három évben nem módosította senki. (Figyelem: a „nem nyúlt senki” az nem ugyanaz, mint a „nem módosította senki”… – a szerk.) Pedig néhány kivételtől eltekintve a vállalati adatok átlagosan három év alatt menthetetlenül elavulnak, így aktív tárolásuk semmilyen haszonnal nem jár.

Ha meg akarunk szabadulni a felesleges állományoktól, érdemes először megnézni, hol lehet a legtöbb tárhelyet (és költséget) megtakarítani, vagyis milyen fájltípusok találhatók nagyobb arányban az érintetlen adatok között, mint amekkora részét a teljes adatkörnyezetnek képviselik. Itt megint érdemes különvenni az állományok számosságát és az általuk elfoglalt tárterület nagyságát, mert a kettő egyáltalán nem esik egybe. A hangfájlok között az érintetlen állományok aránya 72 százalék, de sok helyet ezek nem foglalnak. Egy-egy felesleges fájl törlése során a legtöbb helyet a virtuális gépek, a biztonsági állományok és a játékok eltávolításával szabadíthatjuk fel a vállalati rendszerben.

A legjobb költséghatékonyságot ott tudjuk elérni, ahol az érintetlen állományok száma és az általuk elfoglalt tárterület erősen aránytalan. A videók például a számosságukhoz képest közel 16-szor annyi helyet foglalnak az elavult adatok között. Hasonlóan tárzabálóak az elavult állományok között a virtuális gépek (7,3-szeres szorzó), a prezentációk (6,4-szeres) és az elektronikus levelezés (.pst fájlok, 2,2-szeres szorzó). Az elaggott adatok purgálását érdemes lehet ezen fájlok felülvizsgálatával és törlésével (esetleg archiválásával) kezdeni.

 

Nem hiányolja senki

Az érintetlen adatokhoz hasonló gondokat okoznak az elárvult adatok is: ezek olyan állományok, amelyeknek nincs ismert gazdája. Sokféle okból elárvulhatnak az adatok: a dolgozó távozik, de csak az íróasztalát takarítja le, a vállalati tárhelyet már nem szabadítja meg személyes fájljaitól; cégen belül más beosztásba kerül; változnak a hozzáférési jogosultságai; nem jól működik a vállalati címtár; és így tovább.

Az árva adatok jelentőségét jól mutatja, hogy milyen aránytalanul sok tárterületet használnak el. Az összes fájl között alig 1,6 százalék az elárvult állományok aránya, de ezek a teljes tárterület 5,1 százalékán terpeszkednek. Ezek az állományok gyakran multimédiában gazdag, nagyméretű fájlok: a képek 88 százalékkal több helyet foglalnak, mint amennyi a számuk aránya, a videók 165, a prezentációk pedig 229 százalékkal többet.

Emiatt is az árva állományok átlagosan több mint háromszor akkorák, mint a teljes adatkörnyezet átlaga. A Veritas elemzői szerint az állhat a háttérben, hogy amikor egy-egy dolgozó távozott, főnöke úgy ítélte meg, hogy minél nagyobb egy fájl, annál fontosabb a tartalma, ezért inkább a nagyobbakat tartotta meg.

Pedig az más mérőszámokból is látszik, hogy az állományméret koránt sincs összefüggésben a fájl hasznosságával. Manapság ugyan átlagosan nagyobb állományokat hoznak létre a felhasználók, de az eltérés nem túl jelentős: az érintetlen állományok 33 százalékkal kisebbek, mint azok, amelyeket módosítottak ez elmúlt egy évben.


 

Milliók az ablakban

Mégis, mibe kerül mindez a vállalatoknak? A Veritas kutatói amerikai környezetekre elvégezték a számításokat; ezek ugyan egy az egyben nem fordíthatók le Magyarországra, de mindenképpen jelzésértékűek lehetnek.

Ha egy korántsem kiugró méretű, 10 petabájtos vállalati adatkörnyezetet veszünk alapul, a 41 százaléknyi érintetlen adatmennyiség tárolása évente 20,5 millió dollárba is kerülhet. Vagyis a vállalat több mint 20 millió dollárt költ olyan adatokra, amelyeket legalább három éve nem módosítottak. A takarítás azonban mégsem olyan egyszerű. A szóbanforgó 4,1 petabájt ugyanis közel 9,5 milliárd (!) állományt jelent: ennyiről kellene egyenként (vagy legalábbis típusonként) eldönteni, hogy megtartsuk, archiváljuk vagy töröljük.

A hagyományos irodai dokumentumok (prezentációk, táblázatok, szöveges dokumentumok) az érintetlen adatállomány mintegy 20 százalékát teszik ki. Csupán ezek archiválásával mintegy kétmillió dollárt lehetne megspórolni, vélik a Veritas elemzői. Hasonlóképpen jelentős megtakarítás érhető el a hang- és videóállományok törlésével vagy archiválásával.

Az adatosztályozást érdemes a viszonylag nagyméretű, de elég jól azonosítható állományokkal kezdeni; ilyenek lehetnek a videók, a virtuális gépek vagy az e-mailek. De már azzal is egymillió dollárt takaríthat meg a példában szereplő vállalat, ha szabályozza, mi történjen a cégtől távozó vagy más munkakörbe kerülő dolgozók után maradt adatokkal.