У дома тенденции 6 големи митове за управление на големи данни

6 големи митове за управление на големи данни

Съдържание:

Anonim

Още през май 2014 г. Forrester Research издаде два доклада, правещи определени изводи за свръхобхват около големите данни. Изследователската фирма изследва над 250 ръководители на маркетинг и развитие на бизнеса. Според авторите на доклада, реториката на големи данни е все по-висока, а производителите на технологии рекламират продукти с невероятни твърдения.


Gartner е съгласен с Forrester Research; съществен свръх заобикаля големи данни. В доклада от септември 2014 г. Gartner разкрива пет от най-големите митове за данни, а анализаторите на Gartner предлагат своето мнение за това, което не е разбрано по отношение на големите данни и тяхното манипулиране. И така, какви са най-големите митове за големи данни? Нека погледнем.

Мит: Всички са пред нас в приемането на големи данни.

Гартнър казва, че интересът към големите данни е постоянно висок. Въпреки това, едва 13 процента от анкетираните имат работещи системи. Причината: повечето компании все още не са измислили как да извлекат каквато и да е стойност от големите хранилища на данни. Тук проучването на Gartner е по-оптимистично от доклада на Forrester, който установява, че само 9 процента от участниците в проучването са заявили, че планират да прилагат технологиите за големи данни през следващата година. (Големите данни могат да ви предложат. Научете повече в 5 проблема в реалния свят Големите данни могат да се решат.)

Мит: Имаме толкова много данни; няма нужда да се притесняваме за всеки малък недостатък на данни.

Гартнър се притеснява от възхитимото, което хората имаме: "Имаме толкова много, малкото, което е лошо няма да има значение." Тед Фридман, вицепрезидент и изтъкнат анализатор на Gartner смята, че това е погрешен начин да се гледа на ситуацията.


"В действителност, въпреки че всеки отделен недостатък има много по-малко въздействие върху целия набор от данни, отколкото, когато имаше по-малко данни, има повече недостатъци, отколкото преди, защото има повече данни", каза Фридман. "Следователно, цялостното въздействие на данните с лошо качество върху целия набор от данни остава същото."


Фридман добавя още една причина за притеснение. Заснемането на големи данни често включва данни извън бизнеса, поради което е с неизвестна структура и произход. Това увеличава потенциала за грешки.

Мит: Големите технологии за данни ще премахнат необходимостта от интеграция на данни.

Има две ключови стратегии за анализ на данни, които могат да бъдат приложени към големи данни: "схема при запис" или "схема при четене". Доскоро схемата при запис беше единственият използван метод. Схемата за четене е текущата мания в управлението на базата данни. За разлика от схемата при запис, която изисква структуриран формат, данните се зареждат в схеми за четене на схеми в необработен формат. Тогава разработчиците - използвайки неструктурирани платформи на базата данни като Hadoop - огъват различните данни в използваем формат. Схемата за четене има очевидни предимства, но както споменава Gartner, интеграцията на данни трябва да се случи в някакъв момент.

Мит: Използването на склад за данни за усъвършенстван анализ е безсмислено.

Прекарването на време за създаване на склад за данни изглежда безсмислено за много мениджъри на информация, особено когато новозаснетите данни са различни от тези в хранилището на данни. Въпреки това Gartner отново предупреждава, че дори усъвършенстваният анализ на данни ще използва складове за данни и нови данни, което означава, че интеграторите на данни трябва:

  • Прецизирайте новите типове данни, за да ги направите подходящи за анализ
  • Решете кои данни са уместни и необходимото ниво на качество на данните
  • Определете как да агрегирате данните
  • Разберете, че прецизирането на данните може да се случи на места, различни от склада

Мит: Лейковете за данни ще заменят склада за данни.

Лейковете за данни са хранилища на различни данни, за разлика от складовете за данни, където данните са в структуриран формат. Създаването на езеро за данни отнема малко предварителни усилия (не е необходимо да се форматират данните) в сравнение със складовете с данни, поради което данните езера представляват интерес.


Gartner подчертава, че да имаш данни не е смисълът - възможността да се манипулира заснетите данни за информирано вземане на решение е въпросът. Нещо повече, използването на (донякъде недоказани) данни с езера за улесняване на вземането на решения е проблематично.


„Складовете за данни вече имат възможностите да поддържат голямо разнообразие от потребители в една организация“, казва Ник Хюдекер, директор на научните изследвания в Gartner. „Лидерите за управление на информацията не трябва да чакат да настигнат емисии от данни.“ (Научете повече за приемането на големи данни в 7 неща, които трябва да знаете за големите данни преди приемането.)

Големи данни работят - Новите методи за манипулиране на данни може да не са

Причината, според която Гартнър казва „митове за най-големите данни“, вместо „митове с големи данни“, става ясна след прочитането на доклада. Gartner не се поддава на големи данни. Gartner се опитва на онези, които смятат, че по-новите методи за манипулиране на големи данни са готови за "prime time".

6 големи митове за управление на големи данни