Q:
Защо изборът на функции е толкова важен при машинното обучение?
A:Изборът на функции е изключително важен при машинното обучение преди всичко, защото служи като основна техника за насочване на използването на променливи към това, което е най-ефикасно и ефективно за дадена система за машинно обучение.
Експертите говорят за това как подборът на функции и извличането на функции работят, за да намалят проклятието на размерите или да помогнат да се справят с препълването - това са различни начини за справяне с идеята за прекомерно сложно моделиране.
Безплатно изтегляне: Машинното обучение и защо има значение |
Друг начин да се каже това е, че изборът на функции помага да се даде на разработчиците инструменти да използват само най-подходящите и полезни данни в машинните обучителни комплекти, което драстично намалява разходите и обема на данните.
Един пример е идеята за измерване на сложна форма в мащаб. Тъй като програмата мащабира, тя идентифицира по-голям брой точки от данни и системата става много по-сложна. Но сложна форма не е типичният набор от данни, който използва системата за машинно обучение. Тези системи могат да използват набори от данни, които имат много различни различия в различните променливи. Например, при класифицирането на видове, инженерите могат да използват подбор на функции само за да изучават променливите, които ще им дадат най-насочените резултати. Ако всяко животно от диаграмата има еднакъв брой очи или крака, тези данни могат да бъдат премахнати или могат да бъдат извлечени други по-подходящи точки от данни.
Изборът на функции е различаващият процес, при който инженерите насочват системите за машинно обучение към цел. В допълнение към идеята за премахване на сложността от системите в мащаб, изборът на функции може да бъде полезен и за оптимизиране на аспекти на това, което експертите наричат „компромис на отклонения от отклонения“ в машинното обучение.
Причините, поради които подборът на функции помага при анализа на пристрастия и дисперсия, са по-сложни. Изследване от Университета Корнел относно подбора на функции, отклоненията на пристрастия и пакетирането служи за илюстриране на това как селекцията на функции подпомага проектите.
Според авторите документът "разглежда механизма, чрез който селекцията на функции подобрява точността на контролираното обучение."
Освен това проучването посочва:
Емпиричен анализ на пристрастия / дисперсия с напредването на избора на характеристики показва, че най-точният набор от характеристики съответства на най-добрата компромисна точка на отклонение за алгоритъма на обучение.
Обсъждайки използването на силна или слаба уместност, авторите говорят за избора на характеристики като за „метод за намаляване на дисперсията“ - това има смисъл, когато мислите за вариация като по същество за размера на вариацията в дадена променлива. Ако няма разлика, точката или масивът от данни може да бъде по същество безполезна. Ако има изключително голяма дисперсия, това може да се превърне в това, което инженерите могат да мислят за "шум" или за неадекватни произволни резултати, които са трудни за системата за машинно обучение.
В светлината на това изборът на функции е основна част от дизайна в машинното обучение.