Съдържание:
Apache Hadoop отдавна е основата за приложения за големи данни и се счита за основна платформа за данни за всички предложения, свързани с големи данни. Въпреки това, базата данни и изчисленията в паметта набират популярност поради по-бързата производителност и бързите резултати. Apache Spark е нова рамка, която използва възможности в паметта за бърза обработка (почти 100 пъти по-бърза от Hadoop). Така продуктът Spark все повече се използва в свят на големи данни и главно за по-бърза обработка.
Вебинар: Силата на предложението: Как даден каталог дава възможност на анализаторите Регистрирайте се тук |
Какво е Apache Spark?
Apache Spark е рамка с отворен код за обработка на огромни обеми от данни (големи данни) със скорост и простота. Подходящ е за приложения за анализи, базирани на големи данни. Искрата може да се използва с Hadoop среда, самостоятелна или в облака. Той е разработен в Калифорнийския университет, а по-късно се предлага на софтуерната фондация Apache. По този начин той принадлежи към общността с отворен код и може да бъде много рентабилен, което допълнително позволява на любителите разработчици да работят с лекота. (За да научите повече за отворения код на Hadoop, вижте какво е влиянието на отворения код върху екосистемата Apache Hadoop?)
Основната цел на Spark е, че предлага на разработчиците рамка за приложения, която работи около центрирана структура на данни. Spark също е изключително мощен и има вродената способност бързо да обработва огромни количества данни за кратък период от време, като по този начин предлага изключително добри резултати. Това го прави много по-бърз от това, за което се твърди, че е най-близкият му конкурент - Hadoop.