У дома звуков Анализ на Hadoop: не е толкова лесно при множество източници на данни

Анализ на Hadoop: не е толкова лесно при множество източници на данни

Съдържание:

Anonim

Hadoop е чудесно място за зареждане на данни за обработка на анализи или за моделиране на по-големи обеми от един източник на данни, които не са възможни със съществуващите системи. Въпреки това, тъй като компаниите доставят данни от много източници в Hadoop, има все по-голямо търсене на анализ на данни в различни източници, което може да бъде изключително трудно да се постигне. Тази публикация е първата в поредица от три части, която обяснява проблемите, с които се сблъскват организациите, докато се опитват да анализират различни източници на данни и типове в Hadoop и как да разрешат тези предизвикателства. Днешният пост се фокусира върху проблемите, които възникват при комбиниране на множество вътрешни източници. Следващите два публикации обясняват защо тези проблеми се увеличават по сложност, тъй като се добавят външни източници на данни и как новите подходи помагат за тяхното решаване.

Данни от различни източници, трудни за свързване и карта

Данните от различни източници имат различни структури, които затрудняват свързването и картографирането на типове данни заедно, дори и данни от вътрешни източници. Комбинирането на данни може да бъде особено трудно, ако клиентите имат множество номера на сметки или организация е придобила или се е сляла с други компании. През последните няколко години някои организации се опитват да използват данни за откриване на данни или приложения за научни данни, за да анализират данни от множество източници, съхранявани в Hadoop. Този подход е проблематичен, тъй като включва много предположения: потребителите трябва да решат кои чужди ключове да използват за свързване на различни източници на данни и да направят предположения при създаването на наслагвания на модела на данни. Тези предположения са трудни за тестване и често са неправилни, когато се прилагат в мащаб, което води до дефектен анализ на данните и недоверие към източниците.

Експертите на Hadoop се опитват да обединят данни заедно

Следователно организациите, които искат да анализират данни от източници на данни, прибягнаха до наемането на експерти от Hadoop, които да създадат персонализирани, специфични за източника скриптове, за да обединят набори от данни заедно. Тези експерти на Hadoop обикновено не са експерти по интегриране на данни или решаване на проблеми, но правят всичко възможно, за да отговорят на непосредствените нужди на организацията. Тези експерти обикновено използват Pig или Java, за да пишат твърди и бързи правила, които определят как да комбинират структурирани данни от конкретни източници, например съвпадение на записи въз основа на номер на акаунт. След като бъде написан сценарий за два източника, ако трябва да се добави трети източник, първият скрипт трябва да бъде изхвърлен и нов скрипт, предназначен да комбинира три конкретни източника. Същото се случва, ако се добави друг източник и т.н. Този подход не само е неефективен, но и се проваля, когато се прилага в мащаб, обработва лошо случаите, може да доведе до голям брой дублирани записи и често обединява много записи, които не трябва да се комбинират.

Анализ на Hadoop: не е толкова лесно при множество източници на данни