Q:
Как мога да се науча да използвам Hadoop за анализ на големи данни?
A:Софтуерният набор Apache, известен като Hadoop, се превръща в много популярен ресурс за работа с големи масиви от данни. Този тип софтуерна рамка за обработка на данни е създадена с цел да се подпомогнат агрегирането на данни по специфични начини, базирани на дизайни, които могат да направят някои видове проекти за данни по-ефективни. Въпреки това, Hadoop е само един от многото инструменти за работа с големи масиви от данни.
Един от първите и най-основни начини да научите за анализа на големи данни с Hadoop е да разберете някои от компонентите от най-високо ниво на Hadoop и какво прави. Те включват Hadoop YARN "платформа за управление на ресурси", която може да се приложи към определени видове мрежови настройки, както и набор от функции Hadoop MapReduce, които се прилагат за големи масиви от данни. Има и разпределена файлова система Hadoop (HDFS), която помага за съхраняване на данни в разпределените системи, така че да може бързо и ефективно да се индексира или извлече.
Отвъд това, тези, които искат да се запознаят по-добре с Hadoop, могат да разгледат отделни публикувани ресурси за професионалисти, които обясняват софтуера на относимо ниво. Този пример от Крис Стукио в личен блог предоставя отличен набор от точки за Hadoop и мащаба на данните. Едно от основните поемания е, че Hadoop може да се използва по-често, отколкото е необходимо, и може да не е най-доброто решение за отделен проект. Прегледът на тези видове ресурси ще помогне на специалистите да се запознаят по-подробно с подробностите за използването на Hadoop във всеки даден сценарий. Stucchio предоставя също метафори за свързване на функциите на Hadoop с конкретни физически задачи. Ето, примерът е преброяване на броя на книгите в библиотека, докато Hadoop функция може да раздели тази библиотека на секции, като предоставя индивидуални отчети, които са смесени в един общ резултат от данни.
По-задълбочен начин, по който специалистите могат да научат повече за Hadoop и неговото приложение към големи данни, е чрез специфични учебни ресурси и програми. Например, онлайн обучаващата компания Cloudera, известен доставчик на дистанционни обучения, има редица интересни възможности около използването на Hadoop и подобни видове обработка на данни.