Съдържание:
Определение - Какво означава "Майнинг на данни"?
Извличането на данни е процесът на анализ на скрити модели на данни според различни перспективи за категоризиране на полезна информация, която се събира и сглобява в общи области, като складове за данни, за ефективен анализ, алгоритми за извличане на данни, улесняване на вземането на бизнес решения и друга информация изисквания за намаляване на разходите и увеличаване на приходите.
Извличането на данни е известно още като откриване на данни и откриване на знания.
Techopedia обяснява Mining Data
Основните стъпки в процеса на извличане на данни са:
- Извличане, преобразуване и зареждане на данни в хранилище с данни
- Съхранявайте и управлявайте данни в многоизмерни бази данни
- Осигурете достъп до данни на бизнес анализатори, използвайки приложен софтуер
- Представете анализирани данни в лесно разбираеми форми, като графики
Първата стъпка в извличането на данни е събирането на подходящи данни, критични за бизнеса. Данните на компанията са или транзакционни, неоперативни или метаданни. Транзакционните данни се занимават с ежедневни операции като продажби, инвентар и разходи и т.н. Неоперативните данни обикновено се прогнозират, докато метаданните се занимават с логическо проектиране на база данни. Моделите и връзките между елементите на данни дават съответна информация, което може да увеличи приходите на организацията. Организации със силен потребителски фокус се занимават с техники за извличане на данни, предоставящи ясни картини на продадените продукти, цена, конкуренция и демографски данни на клиентите.
Например, гигантът на дребно Wal-Mart предава цялата си съответна информация в склад с данни с терабайти данни. Тези данни могат лесно да бъдат достъпни от доставчиците, което им позволява да идентифицират моделите на купуване на клиенти. Те могат да генерират модели на навици за пазаруване, повечето пазарувани дни, най-търсени за продукти и други данни, използващи техники за извличане на данни.
Втората стъпка в извличането на данни е избирането на подходящ алгоритъм - механизъм, създаващ модел за извличане на данни. Общата работа на алгоритъма включва идентифициране на тенденциите в набор от данни и използване на изхода за дефиниране на параметър. Най-популярните алгоритми, използвани за извличане на данни, са класификационни алгоритми и регресионни алгоритми, които се използват за идентифициране на връзки между елементите на данни. Основни доставчици на бази данни като Oracle и SQL включват алгоритми за извличане на данни, като клъстериране и регресионен трес, за да задоволят търсенето на извличане на данни.
