Съдържание:
Определение - Какво означава неструктурирани данни?
Неструктурирани данни представляват всички данни, които нямат разпознаваема структура. Тя е неорганизирана и сурова и може да бъде нетекстова или текстова. Например имейлът е фина илюстрация на неструктурирани текстови данни. Тя включва време, дата, данни за получателя и изпращача и тема и т.н., но тялото на имейл остава неструктурирано. Неструктурираните данни също могат да бъдат идентифицирани като слабо структурирани данни, където източниците на данни включват структура, но не всички данни в набор от данни следват една и съща структура.
В бизнес центъра, ориентиран към клиента, данните, открити в неструктурирана форма, могат да бъдат изследвани, за да подобрят маркетинга на взаимоотношенията и управлението на взаимоотношенията с клиенти (CRM). Тъй като приложенията за социални медии, като Facebook и Twitter, навлизат масово, неструктурираното разработване на данни вероятно ще изпревари напредъка на структурираните данни.
Техопедия обяснява неструктурирани данни
Неструктурирани данни се отнасят до данни, които следват форма, която е по-малко подредена от елементи като страници с електронни таблици, таблици на база данни или други линейни или подредени набори от данни. Всъщност терминът „набор от данни“ е полезен, тъй като е свързан с данни, които са в чисти, достъпни масиви, без излишно съдържание и които са свързани или маркирани в конкретна структура.
Други случаи на неструктурирани текстови данни включват Word документи, презентации на PowerPoint, незабавни съобщения, софтуер за сътрудничество, документи, книги, публикации в социални медии и медицински записи. Нетекстуалните неструктурирани данни обикновено се създават в медии, като MP3 аудио файлове, JPEG изображения и Flash видео файлове и т.н.
Неструктурираните данни обикновено не включват предварително определен модел на данни и може да не съвпадат добре с релационни таблици. Неструктурираните данни обикновено са тежки. Може обаче да включва числа и дати, както и факти. Това води до неясноти, които е трудно да се идентифицират с помощта на конвенционални софтуерни програми.
Съхраняването на огромни обеми неструктурирани данни, генерирани в предприятието, ако е лошо управлявано, може да доведе до по-големи разходи. Данните в документи на хартиен носител или в електронен формат трябва да бъдат сканирани, за да може приложението за търсене да анализира идеи в зависимост от думите, използвани в определени контексти. Това е известно като предприятие или семантично търсене.