Съдържание:
- Определение - Какво означава Outlier Detection?
- Техопедия обяснява Откриване на по-големи количества
Определение - Какво означава Outlier Detection?
Откриването на по-рано е процесът на откриване и впоследствие изключване на остатъците от даден набор от данни.
Външен може да бъде определен като част от данни или наблюдение, което драстично се отклонява от дадената норма или средна стойност от набора от данни. Един външен елемент може да бъде причинен просто случайно, но може също така да показва грешка в измерването или че даденият набор от данни има разпределение с големи опашки.
Ето един прост сценарий за откриване на външни размери, процес на измерване последователно произвежда показания между 1 и 10, но в някои редки случаи получаваме измервания над 20.
Тези редки измервания извън нормата се наричат външни хора, тъй като "лежат извън" нормалната крива на разпределение.
Техопедия обяснява Откриване на по-големи количества
Наистина няма стандартизиран и твърд математически метод за определяне на външен елемент, тъй като той наистина варира в зависимост от множеството или съвкупността от данни, така че неговото определяне и откриване в крайна сметка става субективно. Чрез непрекъснато вземане на проби в дадено поле с данни могат да се определят характеристики на външно устройство, за да се улесни откриването.
Съществуват модели, базирани на модели, за откриване на остатъчни хора и те приемат, че всички данни са взети от нормално разпределение и ще идентифицират наблюдения или точки, които се считат за малко вероятни въз основа на средно или стандартно отклонение, като остатъци. Има няколко метода за външно откриване:
- Тестът на Grubb for Outliers - Това се основава на предположението, че данните са с нормално разпределение и премахва по един външен по едно време, като тестът се повтаря, докато не могат да бъдат намерени повече хора.
- Q-тест на Dixon - Този метод също се основава на нормалността на набора от данни и тества лоши данни. Беше отбелязано, че това трябва да се използва пестеливо и никога повече от веднъж в набор от данни.
- Критерият на Chauvenet - Използва се за анализ на това дали външният елемент е фалшив или все още е в границите и се счита за част от множеството. Вземат се средното и стандартното отклонение и се изчислява вероятността от появата на външния вид. Резултатите ще определят дали трябва да бъде включен или не.
- Критерият на Пиърс - Определя се граница на грешки за поредица от наблюдения, отвъд които всички наблюдения ще бъдат изхвърлени, тъй като те вече включват такава голяма грешка.