Съдържание:
Всички говорят за Hadoop, горещата нова технология, която е високо ценена сред разработчиците и просто може да промени света (отново). Но само какво е, така или иначе? Това е език за програмиране? База данни? Система за обработка? Индийски чай уютен?
Широкият отговор: Hadoop е всичко това (с изключение на чая уютен) и др. Това е софтуерна библиотека, която предоставя рамка за програмиране за евтина, полезна обработка на друга модерна модна дума: големи данни.
Откъде дойде Хадооп?
Apache Hadoop е част от проекта за фондация от Apache Software Foundation, организация с нестопанска цел, чиято мисия е да "предоставят софтуер за обществено благо". По този начин библиотеката Hadoop е безплатен софтуер с отворен код, достъпен за всички разработчици.
Основната технология, която овладява Hadoop, всъщност е изобретена от Google. В ранните дни не особено гигантската търсачка се нуждаеше от начин да индексира огромните количества данни, които събираше от интернет, и да ги превърне в значими, подходящи за своите потребители резултати. Тъй като на пазара няма нищо, което да отговаря на техните изисквания, Google изгради собствена платформа.
Тези иновации бяха пуснати в проект с отворен код, наречен Nutch, който Hadoop по-късно използва като основа. По същество Hadoop прилага силата на Google за големи данни по начин, който е достъпен за компании от всички размери.
Как работи Hadoop?
Както споменахме по-рано, Hadoop не е едно нещо - това е много неща. Софтуерната библиотека, която е Hadoop, се състои от четири основни части (модули) и редица допълнителни решения (като бази данни и езици за програмиране), които подобряват използването му в реалния свят. Четирите модула са:- Hadoop Common: Това е колекцията от общи помощни програми (общата библиотека), която поддържа Hadoop модули.
- Hadoop разпределена файлова система (HDFS): Здрава разпределена файлова система без ограничения за съхранени данни (което означава, че данните могат да бъдат структурирани или неструктурирани и без схеми, където много DFS ще съхраняват само структурирани данни), която осигурява достъп до висока пропускателна способност с излишък ( HDFS позволява съхраняването на данни на няколко машини - така че ако една машина се повреди, наличността се поддържа чрез другите машини).
- Hadoop ПРЪЖДА: Тази рамка е отговорна за планирането на работни места и управлението на ресурсите на клъстери; той гарантира, че данните са разпределени достатъчно на множество машини, за да се поддържа излишността. YARN е модулът, който прави Hadoop достъпен и рентабилен начин за обработка на големи данни.
- Hadoop MapReduce: Тази система, базирана на YARN, изградена по технологията на Google, извършва паралелна обработка на големи масиви от данни (структурирани и неструктурирани). MapReduce може да бъде намерен и в повечето днешни големи рамки за обработка на данни, включително MPP и NoSQL бази данни.
Хардуер, който може да се справи с количеството процесова мощност, необходима за работа с големи данни, е скъп, меко казано. Това е истинското нововъведение на Hadoop: способността да се разграждат огромни количества процесорна мощност на множество, по-малки машини, всяка със собствени локализирани изчисления и съхранение, заедно с вградената резервираност на ниво приложение, за да се предотвратят неуспехите.
Какво прави Hadoop?
Казано просто, Hadoop прави големите данни достъпни и използваеми за всички.
Преди Hadoop компаниите, които използваха големи данни, го направиха най-вече с релационни бази данни и складове с данни за предприятия (които използват огромни количества скъп хардуер). Въпреки че тези инструменти са чудесни за обработка на структурирани данни - това са данни, които вече са сортирани и организирани по управляем начин - капацитетът за обработка на неструктурирани данни е изключително ограничен, дотолкова, че той практически не съществува. За да могат да се използват, първо трябва да се структурират данните, така че да се впишат в таблиците.
Рамката на Hadoop променя това изискване и го прави евтино. С Hadoop огромните количества данни от 10 до 100 гигабайта и повече, както структурирани, така и неструктурирани, могат да бъдат обработвани с помощта на обикновени (стокови) сървъри.
Hadoop предлага потенциални приложения за големи данни за фирми от всякакви размери, във всяка индустрия. Рамката с отворен код позволява на финансовите компании да създават сложни модели за оценка на портфейла и анализ на риска или онлайн търговци на дребно, за да прецизират своите отговори за търсене и да насочат клиентите към продукти, които са по-склонни да купуват.
При Hadoop възможностите са наистина неограничени.