Q:
Как изстъргването на данните за машинно обучение се е превърнало в най-трудоемкото място, тъй като ръчното въвеждане на данни при наследената миграция?
A:Един от практическите проблеми, с които компаниите могат да се сблъскат, когато се опитват да стартират проект за машинно обучение (МЛ), е предизвикателството да се сдобият с първоначалните набори от данни за обучение. Това може да включва трудоемки процеси като изстъргване на уеб или други данни.
Понятията уеб бракуване и изтриване на данни до голяма степен се отнасят до автоматизирана дейност от компютърен софтуер, но за много проекти за МЛ ще има случаи, в които компютрите нямат сложност да събират правилните целеви данни, така че ще трябва да се направи "на ръка." Това бихте могли да наречете „изстъргване на човешки уеб / данни“ и е безблагодарна работа. Обикновено включва излизане и търсене на данни или изображения, които да "хранят" програмата ML чрез тренировъчни комплекти. Често е доста итеративен, което го прави досадна, мудна, взискателна работа.
Безплатно изтегляне: Машинното обучение и защо има значение |
Изписването на данни за обучителните комплекти за ML представлява уникално проблемно препятствие в машинното обучение, отчасти защото толкова голяма част от другата работа е силно концептуална и не се повтаря. Много хора могат да измислят страхотна идея за ново приложение, което изпълнява задачи за машинно обучение, но гайките и болтовете и практическата работа могат да бъдат много по-трудни. По-специално, делегирането на работата по сглобяването на учебните комплекти всъщност може да бъде една от най-трудните части на проект за ML, както е напълно проучена в телевизионното шоу „Силиконовата долина“ на Майк съдия. В сезон четири сезона, стартиращ предприемач първо тормози партньора си да върши трудоемката работа, след което се опитва да го предаде на студентите, като го прикрива като домашно задание.
Този пример е поучителен, защото показва колко не харесва и изглежда маловажно ръчното изстъргване на данните. Но също така показва, че този процес е необходим за широк спектър продукти за машинно обучение. Въпреки че повечето хора мразят въвеждането на данни, учебните комплекти трябва да бъдат сглобени по някакъв начин. Експертите по този процес често препоръчват да се използва услуга за изстъргване в мрежата - по същество просто да се възложи тази много трудоемка работа на външни страни, но това може да има последствия за сигурността и да причини други проблеми. При поддържането на работата по ръчното събиране на данни отново трябва да се предвиди нещо, което често е много ръчен и отнема много време процес.
По някакъв начин „изстъргването на човешки данни“ за машинно обучение изглежда като ръчното въвеждане на данни, което понякога е трябвало да се извърши при наследена миграция. Тъй като облакът става все по-популярен и компаниите поставят своите процеси и работни потоци в облака, някои откриват, че не са работили през практическите аспекти как да прехвърлят своите корпоративни данни от изолирана наследствена система в облачни приложения. В резултат на това някои хора, които по друг начин са били учени по данни или креативни хора с основни ИТ умения, се оказват неприятни задачи за въвеждане на данни.
Същото вероятно е да се случи и с машинното обучение. Може да чуете учен с данни, който се оплаква, че „аз съм креативна личност“ или „Аз съм на страната на развитието“ - но някой трябва да свърши мръсната работа.
Отново, ако творческият поток не е съчетан с практическа оценка на делегирането на работния процес, няма да има несъответствие в това как се насочва обработката на задачите. Когато една компания няма хора, които да вършат работа по събиране на данни при събирането на набори от данни, тя няма ключова част от веригата на процедурите за успешен проект. Струва си да имате това предвид всеки път, когато една компания се опита да направи добра идея, която се основава на разработването на нови приложения за машинно обучение.