Съдържание:
Определение - Какво означава Apache Pig?
Apache Pig е платформа, която се използва за анализ на големи масиви от данни. Състои се от език на високо ниво за изразяване на програми за анализ на данни, заедно с инфраструктурата за оценка на тези програми. Една от най-важните особености на Pig е, че неговата структура реагира на значителна паралелизация.
Pig работи на платформата Hadoop, записва данни и чете данни от разпределената файлова система (HDFS) на Hadoop и извършва обработка с помощта на една или повече задания MapReduce. Apache Pig се предлага като отворен код.
Apache Pig е известен също като Pig Programming Language или Hadoop Pig.
Техопедия обяснява Apache Pig
Apache Pig има две части: прасен латински език и прасен двигател. Латинският език Pig е скриптов език, който позволява на потребителите да илюстрират начина, по който трябва да се четат и обработват потоци от данни от един или повече входове, както и мястото, в което трябва да се съхраняват.
Някои от основните свойства на Pig Latin са следните:
- Лесно за програмиране: Сложните задачи, състоящи се от различни взаимосвързани трансформации на данни, са ясно кодирани като последователности на потока от данни. Това ги прави прости за писане, разбиране и поддържане.
- Възможности за оптимизация: Начинът, по който се кодират задачите, позволява на системата да оптимизира автоматично изпълнение. Това позволява на потребителя да обърне внимание на семантиката, вместо на ефективността.
- Разширяемост: На потребителите е разрешено да създават свои собствени функции за извършване на обработка със специално предназначение. Pig двигателят е отговорен за изпълнението на потока от данни, написан на латински прасен език. Подобно на стандартната система за управление на релационни бази данни (RDBMS), Apache Pig се състои от анализатор, оптимизатор и проверка на тип, в допълнение към операторите, които извършват обработка на данни. Pig не включва транзакции, каталог на данни или възможност за директно управление на съхранението на данни или използване на рамката за изпълнение.