У дома тенденции Какъв е прост начин да се опишат пристрастия и дисперсия в машинното обучение?

Какъв е прост начин да се опишат пристрастия и дисперсия в машинното обучение?

Anonim

Q:

Какъв е прост начин да се опишат пристрастия и дисперсия в машинното обучение?

A:

Има различни сложни начини да се опишат пристрастия и различия в машинното обучение. Много от тях използват значително сложни математически уравнения и показват чрез графики как конкретни примери представляват различни количества както отклонение, така и отклонение.

Ето един прост начин да се опише пристрастие, дисперсия и компромис на отклонения / вариации при машинно обучение.

В основата си пристрастията са свръхпрост. Може да бъде важно да се добави към определението за пристрастие някакво предположение или предполагаема грешка.

Ако силно предубеден резултат не беше погрешно - ако беше на парите - би бил много точен. Проблемът е, че опростеният модел съдържа известна грешка, така че не е в полезрението - значителната грешка продължава да се повтаря или дори да се усилва, докато работи програмата за машинно обучение.

Простата дефиниция на вариацията е, че резултатите са твърде разпръснати. Това често води до свръхкомплексност на програмата и проблеми между тестовите и тренировъчните групи.

Голямата дисперсия означава, че малките промени създават големи промени в резултатите или резултатите.

Друг начин за просто описание на дисперсията е, че има твърде много шум в модела и така става по-трудно за програмата за машинно обучение да изолира и идентифицира истинския сигнал.

Следователно един от най-простите начини за сравняване на пристрастия и отклонение е да се предположи, че инженерите на машинно обучение трябва да извървят фина граница между твърде много пристрастия или прекалено опростяване и твърде много вариация или свръхкомплексност.

Друг начин за представяне на този кладенец е с четири квадратна диаграма, показваща всички комбинации от висока и ниска дисперсия. В квадрант с ниско отклонение / ниска дисперсия всички резултати се събират в точен клъстер. В резултат на висока отклонение / ниска дисперсия, всички резултати се събират в неточен клъстер. При резултат с ниско пристрастие / висока дисперсия резултатите се разпръскват около централна точка, която би представлявала точен клъстер, докато в резултат на висока отклонение / висока дисперсия точките от данни са разпръснати и колективно неточни.

Какъв е прост начин да се опишат пристрастия и дисперсия в машинното обучение?