Съдържание:
- Как се използват големи данни
- Къде е реалната стойност?
- Понякога малките данни правят по-голямо (и по-малко скъпо) въздействие
Големите данни са бланкетна дума, използвана за обозначаване на обработката на големи обеми данни. Всички разбираме, че колкото по-голям е обемът на данните, толкова по-сложен става. Традиционните решения за бази данни често не успяват да управляват правилно големи обеми данни поради тяхната сложност и размер. Следователно управлението на големи обеми от данни и извличането на реална представа е трудна задача. Същата концепция за стойност е приложима и за малки данни.
Как се използват големи данни
Конвенционалните решения за бази данни, базирани на концепцията RDBMS, могат да управляват много добре транзакционните данни и са широко използвани в различни приложения. Но когато става въпрос за работа с голям набор от данни (данни, които са архивирани и са в терабайти или петабайти), тези решения на базата данни често се провалят. Тези набори от данни са твърде големи и през повечето време те не се вписват в архитектурата на традиционните бази данни. В наши дни големите данни се превърнаха в рентабилен подход за работа с по-големи масиви от данни. От организационна гледна точка използването на големи данни може да бъде разделено на следните категории, при които реалната стойност на големите данни пребивава:- Аналитична употреба
Анализаторите на големи данни разкриха много важни скрити аспекти на данни, които са твърде скъпи за обработка. Например, ако трябва да проверим тенденцията на интерес на студентите към определена нова тема, можем да направим това, като анализираме дневните записи за посещаемост и други социални и географски факти. Тези факти се записват в базата данни. Ако не можем да получим достъп до тези данни по ефективен начин, не можем да видим резултатите.
- Активиране на нови продукти
В близкото минало много нови уеб компании, като Facebook, започнаха да използват големи данни като решение за пускане на нови продукти. Всички знаем колко е популярен Facebook - той успешно е подготвил високопроизводително потребителско изживяване, използвайки големи данни.
Къде е реалната стойност?
Различните решения за големи данни се различават в подхода, при който съхраняват данни, но в крайна сметка всички те съхраняват данни в плоска файлова структура. Като цяло Hadoop се състои от файлова система и някои абстракции на данни на ниво операционна система. Това включва двигател MapReduce и разпределената файлова система (HDFS) на Hadoop. Прост клъстер Hadoop включва един главен възел и няколко работни възли. Главният възел се състои от следното:- Проследяване на задачи
- Проследяващ работа
- Име възел
- Възел от данни
- Проследяване на задачи
- Възел от данни
Някои реализации имат само възела на данни. Възелът на данни е действителната област, в която се намират данните. HDFS съхранява големи файлове (в диапазона от терабайти до петабайти), разпределени на множество машини. Надеждността на данните на всеки възел се постига чрез репликиране на данните във всички хостове. По този начин данните са достъпни дори когато един от възлите е надолу. Това помага за постигане на по-бърз отговор срещу заявки. Тази концепция е много полезна в случай на огромни приложения като Facebook. Като потребител, ние получаваме отговор на нашата чат заявка, например, почти веднага. Помислете за сценарий, при който потребителят трябва да чака дълго време, докато разговаря. Ако съобщението и последващият отговор не бъдат доставени незабавно, тогава колко хора всъщност ще използват тези инструменти за чат?
Връщайки се към реализацията на Facebook, ако данните не се репликират в клъстерите, няма да е възможно да имате привлекателна реализация. Hadoop разпределя данните между машините в по-голям клъстер и съхранява файловете като последователност от блокове. Тези блокове са с еднакъв размер, с изключение на последния. Размерът на блока и репликационния фактор може да бъде персонализиран според нуждите. Файловете в HDFS стриктно следват подхода за записване веднъж и следователно могат да бъдат писани или редактирани само от един потребител наведнъж. Решенията за репликация на блокове се вземат от възела с име. Възелът с име получава отчети и импулсни отговори от всеки от възлите на данни. Импулсните отговори осигуряват наличието на съответния възел за данни. Отчетът съдържа подробности за блоковете на възела с данни.
Друга реализация на големи данни, Касандра, също използва подобна концепция за разпространение. Касандра разпространява данни въз основа на географско местоположение. Следователно в Касандра данните са разделени въз основа на географското местоположение на използването на данните.
Понякога малките данни правят по-голямо (и по-малко скъпо) въздействие
Според Руфус Поллок от фондация „Отворено знание“ няма смисъл да създавате свръх около големи данни, докато малките данни все още са мястото, където се намира реалната стойност.
Както подсказва името, малките данни са набор от данни, насочени от по-голям набор от данни. Малките данни имат за цел да изместят фокуса от използването на данни, а също така целят да противодействат на тенденцията за преминаване към големи данни. Подходът с малки данни помага при събирането на данни въз основа на конкретни изисквания, като се използват по-малко усилия. В резултат на това е по-ефективната бизнес практика при прилагане на бизнес разузнаване.
В основата си концепцията за малките данни се върти около бизнеса, който изисква резултати, които налагат по-нататъшни действия. Тези резултати трябва да бъдат извлечени бързо и следващите действия също трябва да бъдат изпълнени незабавно. По този начин можем да премахнем видовете системи, които обикновено се използват в анализа на големи данни.
Като цяло, ако вземем предвид някои от специфичните системи, които са необходими за събиране на големи данни, една компания може да инвестира в създаването на много сървъри за съхранение, да използва сложни сървъри от висок клас и най-новите приложения за извличане на данни за обработка на различни битове на данни, включително дати и часове на действия на потребителите, демографска информация и друга информация. Целият набор от данни се премества в централен склад за данни, където се използват сложни алгоритми за сортиране и обработка на данните за показване под формата на подробни отчети.
Всички знаем, че тези решения са се възползвали от много предприятия по отношение на мащабируемост и наличност; има организации, които установяват, че приемането на тези подходи изисква значителни усилия. Вярно е също, че в някои случаи се постигат подобни резултати, като се използва по-малко стабилна стратегия за извличане на данни.
Малките данни предоставят начин на организациите да се откажат от манията за най-новите и най-новите технологии, които поддържат по-сложни бизнес процеси. Компаниите, които популяризират малки данни, твърдят, че е важно от гледна точка на бизнеса да използват ресурсите си по ефикасен начин, за да може да се избегне до известна степен преразходването на технологии.
Обсъждахме много за големите данни и реалностите с малки данни, но трябва да разберем, че изборът на правилната платформа (големи данни или малки данни) за правилната употреба е най-важната част от цялото упражнение. И истината е, че макар големите данни да дават много ползи, това не винаги е най-доброто.