Съдържание:
Определение - Какво означава Apache Nutch?
Apache Nutch е софтуерен продукт за уеб сканери, който може да се използва за събиране на данни от мрежата. Използва се заедно с други инструменти на Apache, като Hadoop, за анализ на данни.
Техопедия обяснява Apache Nutch
Apache Nutch е продукт с отворен код, лицензиран от софтуерната фондация Apache. Тази общност на програмисти притежава лицензи за редица софтуерни инструменти на Apache, които могат да сортират и анализират данни. Една от централните технологии е Apache Hadoop, инструмент за анализиране на големи данни, който е много популярен в бизнес общността.
Наред с инструменти като Apache Hadoop и функции за съхраняване на файлове, анализ и други, ролята на Nutch е да събира и съхранява данни от мрежата чрез използването на алгоритми за обхождане на уеб.
Потребителите могат да се възползват от прости команди в Apache Nutch за събиране на информация под URL. Обикновено потребителите използват Apache Nutch заедно с друг инструмент с отворен код, рамка, наречена Apache Solr, която може да действа като хранилище за данните, събрани с Apache Nutch.