У дома звуков Защо пакетирането при машинно обучение намалява отклонението?

Защо пакетирането при машинно обучение намалява отклонението?

Anonim

Q:

Защо пакетирането при машинно обучение намалява отклонението?

A:

Обобщаването на началния старт или „пакетирането“ в машинното обучение намалява дисперсията чрез изграждане на по-модерни модели от сложни набори от данни. По-конкретно, подходът за пакетиране създава подмножества, които често се припокриват, за да моделират данните по по-ангажиран начин.

Една интересна и ясна идея как да се приложи пакетирането е да вземете набор от случайни проби и да извлечете простата средна стойност. След това, използвайки същия набор от проби, създайте десетки подмножества, изградени като дървета на решения, за да манипулирате евентуалните резултати. Втората средна стойност трябва да показва по-вярна картина как тези отделни проби се отнасят една към друга по отношение на стойността. Същата идея може да се приложи към всяко свойство на всеки набор от данни.

Безплатно изтегляне: Машинното обучение и защо има значение

Тъй като този подход консолидира откриването в по-дефинирани граници, той намалява дисперсията и помага при прекаляването. Помислете за разпръсквач с малко разпределени точки от данни; използвайки метод за пакетиране, инженерите "свиват" сложността и ориентират линиите за откриване, за да изгладят параметрите.

Някои говорят за стойността на пакетирането като „разделяй и завладявай“ или вид „асистирана евристика“. Идеята е, че чрез ансамблево моделиране, като например използването на произволни гори, тези, които използват пакетиране като техника, могат да получат резултати от данни, които са по-ниски по отношение на разликата. От гледна точка на намаляване на сложността, пакетирането също може да помогне при преобличане. Помислете за модел с твърде много точки от данни: да речем, точки за свързване със 100 неприведени точки. Получената линия за визуални данни ще бъде назъбена, динамична, променлива. След това "изгладете" дисперсията, като комбинирате групи от оценки. При ансамбълното обучение това често се смята за присъединяване към няколко „слаби учащи се“, за да се осигури резултат от съвместно „силно учене“. Резултатът е по-гладка, по-контурална линия и по-малко дива вариация в модела.

Лесно е да се види как идеята за пакетиране може да се приложи към корпоративните ИТ системи. Бизнес лидерите често искат "птичи поглед" какво се случва с продуктите, клиентите и пр. Преизпълненият модел може да върне по-малко смилаеми данни и повече "разпръснати" резултати, при които пакетирането може да "стабилизира" модел и да го направи по-полезен за крайни потребители.

Защо пакетирането при машинно обучение намалява отклонението?