Съдържание:
SQL on Hadoop е група инструменти за аналитични приложения, които съчетават заявки и обработка на данни в стил SQL с най-новите елементи на рамката за данни на Hadoop. Появата на SQL на Hadoop е важно развитие за обработката на големи данни, защото позволява на по-широки групи хора да работят успешно с рамката за обработка на данни на Hadoop, като пускат SQL заявки върху огромния обем големи данни, които Hadoop обработва. Очевидно рамката Hadoop преди това не е била толкова достъпна за хората, особено по отношение на възможностите за запитвания. Въз основа на разработката са разработени няколко инструмента, които обещават да подобрят производителността на предприятията, когато става въпрос за обработка и анализ на големи данни с качество и бързина. Също така не е необходимо да инвестирате много в усвояването на инструмента, както трябва да правят традиционните познания на SQL.
Дефиниция на SQL на Hadoop
SQL on Hadoop е група приложения, която ви позволява да стартирате заявки в стил SQL на големи данни, хоствани от рамката за обработка на данни Hadoop. Очевидно заявките, извличането и анализа на данни са станали по-лесни с добавянето на SQL на Hadoop. Тъй като първоначално SQL е проектиран за релационни бази данни, той трябваше да бъде модифициран според модела Hadoop 1, който включва MapReduce и разпределената файлова система Hadoop (HDFS) и модела Hadoop 2, който няма MapReduce и HDFS.
Едно от най-ранните усилия за комбиниране на SQL с Hadoop доведе до създаването на хранилището на данни Hive със софтуера HiveQL, който може да превежда заявки в стил SQL в задания на MapReduce. След това бяха разработени няколко приложения, които могат да вършат подобна работа. Изтъкнати сред по-късните инструменти са Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) и Tez (Hive on Tez).