У дома тенденции Какво е $ @! е hadoop?

Какво е $ @! е hadoop?

Съдържание:

Anonim

Всички говорят за Hadoop, горещата нова технология, която е високо ценена сред разработчиците и просто може да промени света (отново). Но само какво е, така или иначе? Това е език за програмиране? База данни? Система за обработка? Индийски чай уютен?


Широкият отговор: Hadoop е всичко това (с изключение на чая уютен) и др. Това е софтуерна библиотека, която предоставя рамка за програмиране за евтина, полезна обработка на друга модерна модна дума: големи данни.

Откъде дойде Хадооп?

Apache Hadoop е част от проекта за фондация от Apache Software Foundation, организация с нестопанска цел, чиято мисия е да "предоставят софтуер за обществено благо". По този начин библиотеката Hadoop е безплатен софтуер с отворен код, достъпен за всички разработчици.


Основната технология, която овладява Hadoop, всъщност е изобретена от Google. В ранните дни не особено гигантската търсачка се нуждаеше от начин да индексира огромните количества данни, които събираше от интернет, и да ги превърне в значими, подходящи за своите потребители резултати. Тъй като на пазара няма нищо, което да отговаря на техните изисквания, Google изгради собствена платформа.


Тези иновации бяха пуснати в проект с отворен код, наречен Nutch, който Hadoop по-късно използва като основа. По същество Hadoop прилага силата на Google за големи данни по начин, който е достъпен за компании от всички размери.

Как работи Hadoop?

Както споменахме по-рано, Hadoop не е едно нещо - това е много неща. Софтуерната библиотека, която е Hadoop, се състои от четири основни части (модули) и редица допълнителни решения (като бази данни и езици за програмиране), които подобряват използването му в реалния свят. Четирите модула са:

  • Hadoop Common: Това е колекцията от общи помощни програми (общата библиотека), която поддържа Hadoop модули.
  • Hadoop разпределена файлова система (HDFS): Здрава разпределена файлова система без ограничения за съхранени данни (което означава, че данните могат да бъдат структурирани или неструктурирани и без схеми, където много DFS ще съхраняват само структурирани данни), която осигурява достъп до висока пропускателна способност с излишък ( HDFS позволява съхраняването на данни на няколко машини - така че ако една машина се повреди, наличността се поддържа чрез другите машини).
  • Hadoop ПРЪЖДА: Тази рамка е отговорна за планирането на работни места и управлението на ресурсите на клъстери; той гарантира, че данните са разпределени достатъчно на множество машини, за да се поддържа излишността. YARN е модулът, който прави Hadoop достъпен и рентабилен начин за обработка на големи данни.
  • Hadoop MapReduce: Тази система, базирана на YARN, изградена по технологията на Google, извършва паралелна обработка на големи масиви от данни (структурирани и неструктурирани). MapReduce може да бъде намерен и в повечето днешни големи рамки за обработка на данни, включително MPP и NoSQL бази данни.
Всички тези модули, работещи заедно, генерират разпределена обработка за големи масиви от данни. Рамката на Hadoop използва прости модели програмиране, които се репликират в клъстери от компютри, което означава, че системата може да мащабира от единични сървъри до хиляди машини за повишена мощност на процесора, вместо да разчита само на хардуер.


Хардуер, който може да се справи с количеството процесова мощност, необходима за работа с големи данни, е скъп, меко казано. Това е истинското нововъведение на Hadoop: способността да се разграждат огромни количества процесорна мощност на множество, по-малки машини, всяка със собствени локализирани изчисления и съхранение, заедно с вградената резервираност на ниво приложение, за да се предотвратят неуспехите.

Какво прави Hadoop?

Казано просто, Hadoop прави големите данни достъпни и използваеми за всички.


Преди Hadoop компаниите, които използваха големи данни, го направиха най-вече с релационни бази данни и складове с данни за предприятия (които използват огромни количества скъп хардуер). Въпреки че тези инструменти са чудесни за обработка на структурирани данни - това са данни, които вече са сортирани и организирани по управляем начин - капацитетът за обработка на неструктурирани данни е изключително ограничен, дотолкова, че той практически не съществува. За да могат да се използват, първо трябва да се структурират данните, така че да се впишат в таблиците.


Рамката на Hadoop променя това изискване и го прави евтино. С Hadoop огромните количества данни от 10 до 100 гигабайта и повече, както структурирани, така и неструктурирани, могат да бъдат обработвани с помощта на обикновени (стокови) сървъри.


Hadoop предлага потенциални приложения за големи данни за фирми от всякакви размери, във всяка индустрия. Рамката с отворен код позволява на финансовите компании да създават сложни модели за оценка на портфейла и анализ на риска или онлайн търговци на дребно, за да прецизират своите отговори за търсене и да насочат клиентите към продукти, които са по-склонни да купуват.


При Hadoop възможностите са наистина неограничени.

Какво е $ @! е hadoop?