Q:
Може ли някога да има твърде много данни в големите данни?
A:Отговорът на въпроса е силно ДА. Абсолютно може да има твърде много данни в голям проект за данни.
Има много начини, по които това може да се случи, и различни причини, поради които професионалистите трябва да ограничават и лекуват данни по всякакъв брой начини, за да получат правилните резултати. (Прочетете 10 големи мита за големите данни.)
По принцип експертите говорят за разграничаване на "сигнала" от "шума" в даден модел. С други думи, в море от големи данни, съответните данни за поглед стават трудни за насочване. В някои случаи търсите игла в сено.
Да предположим, например, че една компания се опитва да използва големи данни, за да генерира конкретна информация за сегмент от клиентска база и техните покупки за определен период от време. (Прочетете Какво правят големите данни?)
Приемането на огромно количество активи за данни може да доведе до поемането на произволни данни, които не са от значение, или може дори да доведе до пристрастие, което да сканира данните в една или друга посока.
Това също забавя драстично процеса, тъй като изчислителните системи трябва да се борят с все по-големи и по-големи масиви от данни.
В толкова много различни видове проекти е много важно инженерите на данни да обработват данните в ограничени и конкретни набори от данни - в горния случай това ще бъдат само данните за този сегмент от клиенти, които се изучават, само данните за това време кадър, който се изучава, и подход, който премахва допълнителни идентификатори или основна информация, които могат да объркат нещата или да забавят системите. (Роля на ReadJob: Инженер на данни.)
За повече, нека да разгледаме как работи това в границите на машинното обучение. (Прочетете машинно обучение 101.)
Експертите за машинно обучение говорят за нещо, наречено „преоборудване“, при което прекалено сложният модел води до по-малко ефективни резултати, когато програмата за машинно обучение се разхлаби при нови производствени данни.
Преобличането се случва, когато сложен набор от точки от данни съвпадат твърде добре с първоначалния набор за обучение и не позволяват на програмата лесно да се адаптира към новите данни.
Технически понастоящем свръхфитинга се причинява не от наличието на твърде много извадки от данни, а от коронацията на твърде много точки от данни. Но бихте могли да твърдите, че наличието на твърде много данни може също да допринесе за този тип проблеми. Справянето с проклятието на измерението включва някои от същите техники, които са правени в по-ранни проекти за големи данни, както професионалистите се опитваха да определят с какво се хранят ИТ системите.
Изводът е, че големите данни могат да бъдат изключително полезни за компаниите или могат да се превърнат в голямо предизвикателство. Един от аспектите в това е дали компанията разполага с точните данни. Експертите знаят, че не е препоръчително просто да зарежете всички активи на данни в бункер и да излезете с прозрения по този начин - в новите, създадени в облак и сложни системи за данни, има усилия да контролирате и управлявате и обработвате данни, за да получите по-точни и ефективно използване извън активите на данни.