Dekonstrukcja mitu eksplozji danych

Trzeba jednakże zaznaczyć, że pierwsza przesłanka „dowodu” uzasadniającego prawdziwość mitu eksplozji danych — „przewidywalne i wykładnicze tempo przyrostu danych we wszystkich organizacjach” — była i nadal jest wątpliwa. Prawda jest taka, że analitycy nie mogą ustalić średniego tempa przyrostu danych w organizacjach. Brak im danych empirycznych, więc zamiast nich kierują się informacjami o łącznej pojemności produktów pamięciowych sprzedanych na rynku. Innymi słowy, analitycy ekstrapolują trendy z bardzo podejrzanych zbiorów danych (prognoz wielkości sprzedaży opracowywanych przez producentów).

Na niedawnej konferencji branżowej miałem przyjemność przewodzić dyskusji panelowej, w której udział wzięło kilku znanych analityków rynku pamięci masowej. Była to dobra okazja, żeby zapytać jednego z nich o podstawy jego prognoz o stuprocentowym rocznym przyroście danych. Jego pierwsza reakcja polegała na dyskretnym wycofaniu się: „OK, może raczej 70 procent rocznie”. Przyciśnięty nieco mocniej przyznał, że nie da się dokładnie ustalić rocznego tempa przyrostu danych i że większość informacji, na których się oparł, dostarczyli sami producenci. Na widowni rozległy się śmiechy, a nieco zmieszany analityk dodał: „Cóż, zapytałem też kilku użytkowników, a oni powiedzieli mi, że te liczby wydają się zgodne z ich doświadczeniami”.

Od tego czasu analitycy wielokrotnie zapewniali, że ich prognozy przyrostu danych znajdują potwierdzenie w wywiadach z klientami, którzy są zarazem użytkownikami pamięci masowej, jak i abonentami usług raportowych oraz analitycznych. Argumenty te są pod wieloma względami problematyczne:

Opierają się na rozumowaniu indukcyjnym. Uogólnienie kilku specyficznych przykładów trudno uznać za logiczną podstawę do wskazywania trendów. Prawidłowość teorii lepiej jest weryfikować za pomocą dedukcji, a nie indukcji, zwłaszcza gdy brak bardzo dużego zbioru danych empirycznych o wysokim stopniu wiarygodności (rysunek 2.2 ilustruje różnicę w obu typach dowodzenia).

Zależą od dokładności danych uzyskanych od klientów. Większość informatyków (i dostawców rozwiązań informatycznych) zgodzi się, że firmy zwykle nie znają rzeczywistego tempa przyrostu danych w swoich środowiskach pamięci masowej. Na firmowych dyskach jest tyle danych przestarzałych, powielonych, niepotrzebnych lub nie mających związku z działalnością biznesową, że analizy tempa przyrostu danych —-jeśli w ogóle są wykonywane — dają znacznie zawyżone wyniki. Co więcej, ankietowanie użytkowników jest mało wiarygodną metodą. Respondenci często mijają się z prawdą — aby uzyskać więcej funduszy na preferowany sprzęt, aby wykazać się „inteligencją” przed ankieterem, aby usprawiedliwić albo ukryć błędne decyzje lub zakupy itd. Raporty użytkowników budzą więc duże wątpliwości.

Niczego nie dowodzi także uzupełnienie informacji z ankiet danymi o wydatkach na platformy pamięci masowej. Zastępowanie rzeczywistych ocen przyrostu danych informacjami o wydatkach i przychodach związanych z pamięcią masową może się wydawać właściwym sposobem wyjaśnienia eksplozji danych, ale w rzeczywistości jest inaczej. W wielu organizacjach zakupy nowych platform pamięciowych nie odzwierciedlają przyrostu danych, ale złe zarządzanie tymi ostatnimi. Kiedy na przykład brak efektywnych narzędzi do zarządzania pojemnością i pozyskiwaniem pamięci, można odnieść wrażenie, że aplikacje potrzebują nieustannego dopływu nowych dysków montowanych w obudowach autonomicznych macierzy pamięciowych. Jednakże dzięki dobrym narzędziom do pozyskiwania pamięci aplikacje o wysokich wymaganiach mogłyby czerpać dodatkowe zasoby z platform pamięciowych przydzielonych aplikacjom o niższych wymaganiach. To z kolei zmniejszyłoby zapotrzebowanie na nowe macierze. W takim przypadku nie zmieniłoby się tempo przyrostu danych, ale efektywność korzystania z istniejących zasobów. Jeśli jednak uwzględniamy tylko wydatki na nowe macierze pamięciowe, tempo przyrostu danych nie jest intuicyjnie oczywiste.

Cynik mógłby pomyśleć, że analitycy branżowi wywołali widmo ekksplozji danych w zmowie z producentami pamięci masowej. Choć trudno byłoby to udowodnić, warto zauważyć, że mit eksplozji danych stał się mantrą analityków mniej więcej w tym samym czasie, gdy opadało zainteresowanie takimi „tematami zastępczymi” jak uproszczone klienty , usługi aplikacyjne pierwszej generacji i „rewolucja dot.comów”. Może to tylko przypadek, że mit eksplozji danych pojawił się wtedy, kiedy społeczność analityków potrzebowała nowej „dojnej krowy” — oryginalnego tematu, który przyczyniłby się do zwiększenia sprzedaży produktów i usług informacyjnych. Z pewnością dla wielu branżowych firm analitycznych eksplozja danych rozpoczęła się w bardzo sprzyjającym momencie.

W rzeczywistości jedyną metodą uzyskania wiarygodnych informacji o tempie przyrostu danych jest konsultacja z użytkownikami, którzy przeprowadzili wyczerpującą analizę bieżących trendów wykorzystania pojemności pamięci masowej. Takie dane są trudno dostępne ze względu na różnorakie problemy i koszty związane z ich gromadzeniem. Większość firm dysponuje ograniczonymi informacjami, które mogłyby potwierdzać przewidywane tempo przyrostu danych, a wiele twierdzi, że wdrożenie narzędzi do analizowania topologii pamięci masowej pozwoliło odkryć w szafach i pomieszczeniach ze sprzętem platformy pamięciowe, o których nikt nie wiedział!

Podsumowując: twierdzenia o eksplozji danych są w dużej mierze nieuzasadnione i opierają się na wątpliwych dowodach. Nie da się zaprzeczyć, że w wielu organizacjach tempo przyrostu danych jest szybkie, ale ocena tego, jak szybkie, musi pozostać kwestią domysłów — zwłaszcza przy braku efektywnego zarządzania pamięcią masową.

W Centrum Lotów Kosmicznych NASA w Goddard (GSFC) zespół badaczy uzbrojonych głównie w cierpliwość i wytrwałość pracował niemal dwa lata, aby sporządzić wiarygodną prognozę przyrostu danych stwierdzono, że poczynając od roku 2000, codziennie będzie dodawany 1 TB danych . W skomplikowanym środowisku GSFC z pewnością niełatwo było ustalić trendy wykorzystania pojemności pamięci masowej odpowiednie rozdysponowanie skromnych zasobów jest zasługą Miltona Halema, uzdolnionego i pracowitego dyrektora ds. informacji, który potrzebował tych danych do opracowania strategicznego planu wzrostu i rozwoju infrastruktury informatycznej. Niewiele osób — czy to w sektorze państwowym, czy prywatnym — wykazało się taką gorliwością podczas ustalania faktycznych informacji dotyczących przyrostu danych w ich własnych środowiskach komputerowych.

Jest kilka wyjaśnień tego stanu rzeczy. Wiele osób powiedziało mi, że narzędzia programowe do ustalania trendów przyrostu danych nie spełniają swoich zadań, a bez odpowiedniego oprogramowania sporządzenie analizy jest po prostu zbyt trudne. Inni zauważyli, że spod kontroli wymykają się nie tyle dane, co użytkownicy. Zwłaszcza popularność poczty elektronicznej sprawia, że menedżerowie nie mogą efektywnie nadzorować tempa przyrostu danych, ponieważ to użytkownicy ostatecznie decydują, które dane zostaną zapisane, a które odrzucone. Jeszcze inni winą za niekontrolowany przyrost danych obarczają brak konsekwentnej lub wymuszonej polityki administracyjnej: w wielu firmach dyrektorzy ds. informacji zmieniają się co 18 do 24 miesięcy, a każdy nowy dyrektor ma własne preferencje dotyczące producentów, technologii i polityki. Co więcej, w wielu organizacjach zarządzanie infrastrukturą informatyczną w ogóle nie jest scentralizowane, a korporacyjni informatycy skarżą się, że trudno jest nakłonić kierowników działów albo jednostek biznesowych — lub administratorów poszczególnych systemów — do współpracy nad ustaleniem tempa przyrostu danych albo opracowaniem polityki zarządzania informacjami.

Analiza ta wskazuje, że w większość organizacji nikt nie ma pojęcia o tempie przyrostu danych we własnym środowisku informatycznym. Wiadomo tylko tyle, że niekontrolowany przyrost kosztuje. Kiedy aplikacja próbuje zapisać dane, a serwer zgłasza komunikat „dysk pełny”, trzeba zaczekać, aż personel techniczny doda dysk do macierzy albo zainstaluje kolejny serwer z nową macierzą.

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>