У дома тенденции 7 неща, които трябва да знаете за hadoop

7 неща, които трябва да знаете за hadoop

Съдържание:

Anonim

Какво е Hadoop? Това е жълт слон с играчки. Не това, което очаквахте? Какво ще кажете за това: Doug Cutting - съосновател на този софтуер с отворен код - заимства името от сина си, който случайно нарече играчката си слон Hadoop. С две думи, Hadoop е софтуерна рамка, разработена от софтуерната фондация Apache, която се използва за разработване на интензивни и разпределени изчислителни данни. И това е ключов компонент в друг читател на buzzword, който никога не може да получи достатъчно от: големи данни. Ето седем неща, които трябва да знаете за този уникален, свободно лицензиран софтуер.

Как Hadoop стартира?

Преди 12 години Google създаде платформа за манипулиране на огромните количества данни, които събираше. Както компанията често прави, Google направи дизайна си достъпен за обществеността под формата на два документа: Google File System и MapReduce.


В същото време Дъг Кътънинг и Майк Кафарела работеха върху Нутч, нова търсачка. Двамата също се бореха как да обработват големи количества данни. Тогава двамата изследователи получиха вятър от документите на Google. Тази щастлива пресечка промени всичко, като въведе Cutting и Cafarella в по-добра файлова система и начин за проследяване на данните, което в крайна сметка доведе до създаването на Hadoop.

Какво е толкова важно за Hadoop?

Днес събирането на данни е по-лесно от всякога. Наличието на всички тези данни предоставя много възможности, но има и предизвикателства:

  • Масовите количества данни изискват нови методи за обработка.
  • Данните, които се улавят, са в неструктуриран формат.
За да преодолеят предизвикателствата при манипулирането на огромни количества неструктурирани данни, Cutting и Cafarella предложиха решение от две части. За да реши проблема с количеството данни, Hadoop използва разпределена среда - мрежа от стокови сървъри - създавайки клъстер за паралелна обработка, който носи повече обработваща мощност, за да поеме поставената задача.


На следващо място, те трябваше да се справят с неструктурирани данни или данни във формати, с които стандартните системи за релационни бази данни не могат да се справят. Cutting и Cafarella са проектирали Hadoop да работи с всякакъв тип данни: структурирани, неструктурирани, изображения, аудио файлове, дори текст. Тази бяла книга на Cloudera (Hadoop интегратор) обяснява защо това е важно:

    „Правейки всички ваши данни използваеми, а не само това, което е във вашите бази данни, Hadoop ви позволява да разкривате скрити взаимоотношения и разкрива отговори, които винаги са били просто недостъпни. в пълни набори от данни, а не само в проби и обобщения. "

Какво представлява схемата при четене?

Както бе споменато по-рано, едно от предимствата на Hadoop е способността му да обработва неструктурирани данни. В известен смисъл това е „ритане на консервата по пътя“. В крайна сметка данните се нуждаят от някаква структура, за да ги анализират.


Точно там влиза в действие схемата при четене. Схемата при четене е преобразуването на това в какъв формат се намират данните, къде да намерите данните (не забравяйте, че данните са разпръснати между няколко сървъра) и какво да се направи с данните - не е проста задача. Говори се, че манипулирането на данни в система Hadoop изисква уменията на бизнес анализатор, статистик и Java програмист. За съжаление няма много хора с тези квалификации.

Какво е кошера?

Ако Hadoop щеше да успее, работата с данните трябваше да бъде опростена. И така, тълпата с отворен код започна да работи и създаде кошер:

    „Hive предоставя механизъм за проектиране на структурата върху тези данни и заявка на данните, използвайки подобен на SQL език, наречен HiveQL. В същото време този език също позволява на традиционните програмисти за карта / намаляване да включат своите персонализирани картографи и редуктори, когато е неудобно или неефективен за изразяване на тази логика в HiveQL. "

Hive дава възможност за най-доброто от двата свята: персоналът в базата данни, запознат със SQL командите, може да манипулира данните, а разработчиците, запознати със схемата при процеса на четене, все още могат да създават персонализирани заявки.

Какви данни анализира Hadoop?

Уеб анализирането е първото нещо, което ви идва на ум, анализирайки уеб дневници и уеб трафик с цел оптимизиране на уебсайтове. Facebook, например, определено се занимава с уеб анализи, използвайки Hadoop, за да сортира терабайтите от данни, които компанията натрупва.


Компаниите използват клъстери Hadoop за извършване на анализ на риска, откриване на измами и сегментиране на база клиенти. Комуналните компании използват Hadoop за анализ на данни от сензори от електрическата им мрежа, което им позволява да оптимизират производството на електроенергия. Големи компании като Target, 3M и Medtronics използват Hadoop за оптимизиране на дистрибуцията на продукти, оценки на бизнес риска и сегментиране на базата на клиентите.


В Хадоп се инвестират и университети. Брад Рубин, доцент в Университета на Сейнт Томас, дипломни програми по софтуер, спомена, че неговият опит в Hadoop помага да се сортира чрез обилните количества данни, събрани от изследователски групи в университета.

Можете ли да дадете пример от реалния свят на Hadoop?

Един от по-добре познатите примери е TimesMachine. „Ню Йорк Таймс“ разполага с колекция от снимки на TIFF във вестници на цяла страница, свързани метаданни и текст на статията от 1851 до 1922 г., възлизащ на терабайти данни. Derek Gottfrid на NYT, използвайки EC2 / S3 / Hadoop система и специализиран код:

    „Погълнати 405 000 много големи TIFF изображения, 3.3 милиона статии в SGML и 405 000 xml файлове, които картографират статии в правоъгълни региони в TIFF. Тези данни бяха преобразувани в по-удобни за уеб 810 000 PNG изображения (миниатюри и пълни изображения) и 405 000 JavaScript файлове. "

Използвайки сървъри в облака на Amazon Web Services, Gottfrid спомена, че са успели да обработят всички данни, необходими за TimesMachine за по-малко от 36 часа.

Hadoop вече остарял ли е или просто се преобразява?

Hadoop съществува вече повече от десетилетие. Това много казва, че е остаряло. Един експерт, д-р Дейвид Рико, каза, че „ИТ продуктите са краткотрайни. В кучетата продуктите на Google са около 70, докато Hadoop е на 56.“


Може да има някаква истина в това, което казва Рико. Изглежда, че Hadoop преминава през основен ремонт. За да науча повече за това, Рубин ме покани на среща с потребителска група Twin Cities Hadoop, а темата на дискусията беше Въведение в ПРЕЖДА:

    "Apache Hadoop 2 включва нов MapReduce двигател, който има редица предимства пред предишното внедряване, включително по-добра мащабируемост и използване на ресурсите. Новата имплементация е изградена на обща система за управление на ресурсите за изпълнение на разпределени приложения, наречена YARN."
Hadoop получава много бръмча в кръговете за управление на бази данни и съдържание, но все още има много въпроси около него и как най-добре да се използва. Това са само няколко. Ако имате повече, изпратете ги по нашия начин. Ще отговорим на най-добрите от Techopedia.com.

7 неща, които трябва да знаете за hadoop