Анализ на Hadoop: не е толкова лесно при множество източници на данни

2025

Съдържание:

Данни от различни източници, трудни за свързване и карта
Експертите на Hadoop се опитват да обединят данни заедно

Hadoop е чудесно място за зареждане на данни за обработка на анализи или за моделиране на по-големи обеми от един източник на данни, които не са възможни със съществуващите системи. Въпреки това, тъй като компаниите доставят данни от много източници в Hadoop, има все по-голямо търсене на анализ на данни в различни източници, което може да бъде изключително трудно да се постигне. Тази публикация е първата в поредица от три части, която обяснява проблемите, с които се сблъскват организациите, докато се опитват да анализират различни източници на данни и типове в Hadoop и как да разрешат тези предизвикателства. Днешният пост се фокусира върху проблемите, които възникват при комбиниране на множество вътрешни източници. Следващите два публикации обясняват защо тези проблеми се увеличават по сложност, тъй като се добавят външни източници на данни и как новите подходи помагат за тяхното решаване.

Данни от различни източници, трудни за свързване и карта

Данните от различни източници имат различни структури, които затрудняват свързването и картографирането на типове данни заедно, дори и данни от вътрешни източници. Комбинирането на данни може да бъде особено трудно, ако клиентите имат множество номера на сметки или организация е придобила или се е сляла с други компании. През последните няколко години някои организации се опитват да използват данни за откриване на данни или приложения за научни данни, за да анализират данни от множество източници, съхранявани в Hadoop. Този подход е проблематичен, тъй като включва много предположения: потребителите трябва да решат кои чужди ключове да използват за свързване на различни източници на данни и да направят предположения при създаването на наслагвания на модела на данни. Тези предположения са трудни за тестване и често са неправилни, когато се прилагат в мащаб, което води до дефектен анализ на данните и недоверие към източниците.

Експертите на Hadoop се опитват да обединят данни заедно

Следователно организациите, които искат да анализират данни от източници на данни, прибягнаха до наемането на експерти от Hadoop, които да създадат персонализирани, специфични за източника скриптове, за да обединят набори от данни заедно. Тези експерти на Hadoop обикновено не са експерти по интегриране на данни или решаване на проблеми, но правят всичко възможно, за да отговорят на непосредствените нужди на организацията. Тези експерти обикновено използват Pig или Java, за да пишат твърди и бързи правила, които определят как да комбинират структурирани данни от конкретни източници, например съвпадение на записи въз основа на номер на акаунт. След като бъде написан сценарий за два източника, ако трябва да се добави трети източник, първият скрипт трябва да бъде изхвърлен и нов скрипт, предназначен да комбинира три конкретни източника. Същото се случва, ако се добави друг източник и т.н. Този подход не само е неефективен, но и се проваля, когато се прилага в мащаб, обработва лошо случаите, може да доведе до голям брой дублирани записи и често обединява много записи, които не трябва да се комбинират.

Анализ на Hadoop: не е толкова лесно при множество източници на данни

Съдържание:

Данни от различни източници, трудни за свързване и карта

Експертите на Hadoop се опитват да обединят данни заедно

Hadoop аналитика: още по-трудно с външни източници

Какво е множество инструкции, множество данни (mimd)? - определение от техопедия

Защо изборът на функции е толкова важен при машинното обучение?

Избор на редакторите

Какво е обикновен евтин мобилен компютър (симпутър)? - определение от техопедия

Какво е поток запис? - определение от техопедия

Какво е картографиране на текстурата? - определение от техопедия

Какво е автоматизация на продажбите (sfa)? - определение от техопедия

Избор на редакторите

Как контейнерите помагат на корпоративните приложения

Как може процесът на китайски ресторант и други подобни модели на машинно обучение да се прилагат за предприятието ai?

Как бизнесът използва здравните диаграми за виртуализация?

Как се разпространяват бойните приложения?

Избор на редакторите

Какво е видео буфер? - определение от техопедия

Какво е scumware? - определение от техопедия

Какъв е проблемът с скунторп? - определение от техопедия

Какво е супер цифрова линейна лента (sdlt)? - определение от техопедия

Избор на редакторите

Какво представлява обработката на транзакции? - определение от техопедия

Какво е unix? - определение от техопедия

Какво представлява клипборда при изчисляването? - определение от техопедия

Какво се управлява от командата? - определение от техопедия

Избор на редакторите

Какво представлява програмният брояч (pc)? - определение от техопедия

Какво е трансферно състояние на представянето (почивка)? - определение от техопедия

Какво представляват програмните файлове? - определение от техопедия

Какво е програмен мениджър? - определение от техопедия

Популярни категории