Q:
Как инженерите могат да оценят наборите за обучение и тестовите комплекти, за да установят евентуално прекалено подходящо при машинно обучение?
A:За да разберете как се прави това, е необходимо да имате основно разбиране на ролите на различни набори от данни в типичен проект за машинно обучение. Наборът за обучение е създаден така, че да дава на технологията рамка за сравнение - база данни, която програмата използва за вземане на прогнозни и вероятни решения. Тестовият набор е мястото, където тествате машината на данни.
Overfitting е синдром в машинното обучение, при който моделът не отговаря напълно на данните или целта.
Безплатно изтегляне: Машинното обучение и защо има значение |
Една от общите заповеди на машинното обучение е, че данните за обучение и тестовите данни трябва да бъдат отделни масиви от данни. Има доста широк консенсус по този въпрос, поне в много приложения, поради някои специфични проблеми с използването на същия набор, който сте използвали за обучение за тестване на програма за машинно обучение.
Когато програмата за машинно обучение използва набор от обучения, който би могъл да се нарече по същество набор от входни данни, той работи от този набор за обучение за вземане на решения относно прогнозните резултати. Един много основен начин да се мисли за това е, че учебният комплект е "храната" за интелектуалния изчислителен процес.
Сега, когато същият този набор се използва за тестване, машината често може да върне отлични резултати. Това е така, защото вече е виждал тези данни и преди. Но цялата цел на машинното обучение в много случаи е да се получат резултати относно данни, които не са били виждани досега. Програмите за машинно обучение с общо предназначение са направени да работят върху различни набори от данни. С други думи, принципът на машинното обучение е откриване и обикновено не получавате толкова много от това, като използвате начален набор за обучение за тестови цели.
При оценяването на учебни комплекти и тестови набори за възможно преоборудване инженерите могат да оценят резултатите и да разберат защо една програма може да направи това по различен начин при сравнителните резултати от тези два набора или в някои случаи как машината може да се справи твърде добре върху самите данни за обучение,
Като описва възможно най-добре някои от тези проблеми в машинното обучение в част от 2014 г., Джейсън Браунли от Mastery Learning Mastery описва преустройството по този начин:
„Моделът, който е избран за точността му в базата данни за обучение, а не за точността му върху невидим тестов набор от данни, е много вероятно да има по-ниска точност върху невидим тестов набор от данни“, пише Brownlee. "Причината е, че моделът не е толкова обобщен. Той се спекализира със структурата в базата данни за обучение (добавен курсив). Това се нарича преустройство и е по-коварно, отколкото си мислите."
Казано по-просто, може да се каже, че като се специализира в набора от данни за обучението, програмата става твърде твърда. Това е още един метафоричен начин да разберете защо програмата за машинно обучение не се обслужва оптимално чрез използване на обучителния набор за тестовия набор. Също така е добър начин да подходите към оценката на тези два различни набора, защото резултатите ще покажат на инженерите много за това как работи програмата. Искате по-малка разлика между точността и при двата модела. Искате да сте сигурни, че системата не е пренапълнена или „прецизно свързана“ към определен набор от данни, но това е по-общо и може да расте и да се развива по команда.