Съдържание:
- Мит: Всички са пред нас в приемането на големи данни.
- Мит: Имаме толкова много данни; няма нужда да се притесняваме за всеки малък недостатък на данни.
- Мит: Големите технологии за данни ще премахнат необходимостта от интеграция на данни.
- Мит: Използването на склад за данни за усъвършенстван анализ е безсмислено.
- Мит: Лейковете за данни ще заменят склада за данни.
- Големи данни работят - Новите методи за манипулиране на данни може да не са
Още през май 2014 г. Forrester Research издаде два доклада, правещи определени изводи за свръхобхват около големите данни. Изследователската фирма изследва над 250 ръководители на маркетинг и развитие на бизнеса. Според авторите на доклада, реториката на големи данни е все по-висока, а производителите на технологии рекламират продукти с невероятни твърдения.
Gartner е съгласен с Forrester Research; съществен свръх заобикаля големи данни. В доклада от септември 2014 г. Gartner разкрива пет от най-големите митове за данни, а анализаторите на Gartner предлагат своето мнение за това, което не е разбрано по отношение на големите данни и тяхното манипулиране. И така, какви са най-големите митове за големи данни? Нека погледнем.
Мит: Всички са пред нас в приемането на големи данни.
Гартнър казва, че интересът към големите данни е постоянно висок. Въпреки това, едва 13 процента от анкетираните имат работещи системи. Причината: повечето компании все още не са измислили как да извлекат каквато и да е стойност от големите хранилища на данни. Тук проучването на Gartner е по-оптимистично от доклада на Forrester, който установява, че само 9 процента от участниците в проучването са заявили, че планират да прилагат технологиите за големи данни през следващата година. (Големите данни могат да ви предложат. Научете повече в 5 проблема в реалния свят Големите данни могат да се решат.)Мит: Имаме толкова много данни; няма нужда да се притесняваме за всеки малък недостатък на данни.
Гартнър се притеснява от възхитимото, което хората имаме: "Имаме толкова много, малкото, което е лошо няма да има значение." Тед Фридман, вицепрезидент и изтъкнат анализатор на Gartner смята, че това е погрешен начин да се гледа на ситуацията.
"В действителност, въпреки че всеки отделен недостатък има много по-малко въздействие върху целия набор от данни, отколкото, когато имаше по-малко данни, има повече недостатъци, отколкото преди, защото има повече данни", каза Фридман. "Следователно, цялостното въздействие на данните с лошо качество върху целия набор от данни остава същото."
Фридман добавя още една причина за притеснение. Заснемането на големи данни често включва данни извън бизнеса, поради което е с неизвестна структура и произход. Това увеличава потенциала за грешки.
Мит: Големите технологии за данни ще премахнат необходимостта от интеграция на данни.
Има две ключови стратегии за анализ на данни, които могат да бъдат приложени към големи данни: "схема при запис" или "схема при четене". Доскоро схемата при запис беше единственият използван метод. Схемата за четене е текущата мания в управлението на базата данни. За разлика от схемата при запис, която изисква структуриран формат, данните се зареждат в схеми за четене на схеми в необработен формат. Тогава разработчиците - използвайки неструктурирани платформи на базата данни като Hadoop - огъват различните данни в използваем формат. Схемата за четене има очевидни предимства, но както споменава Gartner, интеграцията на данни трябва да се случи в някакъв момент.Мит: Използването на склад за данни за усъвършенстван анализ е безсмислено.
Прекарването на време за създаване на склад за данни изглежда безсмислено за много мениджъри на информация, особено когато новозаснетите данни са различни от тези в хранилището на данни. Въпреки това Gartner отново предупреждава, че дори усъвършенстваният анализ на данни ще използва складове за данни и нови данни, което означава, че интеграторите на данни трябва:- Прецизирайте новите типове данни, за да ги направите подходящи за анализ
- Решете кои данни са уместни и необходимото ниво на качество на данните
- Определете как да агрегирате данните
- Разберете, че прецизирането на данните може да се случи на места, различни от склада
Мит: Лейковете за данни ще заменят склада за данни.
Лейковете за данни са хранилища на различни данни, за разлика от складовете за данни, където данните са в структуриран формат. Създаването на езеро за данни отнема малко предварителни усилия (не е необходимо да се форматират данните) в сравнение със складовете с данни, поради което данните езера представляват интерес.
Gartner подчертава, че да имаш данни не е смисълът - възможността да се манипулира заснетите данни за информирано вземане на решение е въпросът. Нещо повече, използването на (донякъде недоказани) данни с езера за улесняване на вземането на решения е проблематично.
„Складовете за данни вече имат възможностите да поддържат голямо разнообразие от потребители в една организация“, казва Ник Хюдекер, директор на научните изследвания в Gartner. „Лидерите за управление на информацията не трябва да чакат да настигнат емисии от данни.“ (Научете повече за приемането на големи данни в 7 неща, които трябва да знаете за големите данни преди приемането.)
Големи данни работят - Новите методи за манипулиране на данни може да не са
Причината, според която Гартнър казва „митове за най-големите данни“, вместо „митове с големи данни“, става ясна след прочитането на доклада. Gartner не се поддава на големи данни. Gartner се опитва на онези, които смятат, че по-новите методи за манипулиране на големи данни са готови за "prime time".