Q:
Какви са някои ключови начини за автоматизиране и оптимизиране на процесите за научни данни?
A:Процесите на науката за данни в контекста на машинното обучение и ИИ могат да бъдат разделени на четири отделни фази:
- събиране и проучване на данни,
- изграждане на модел,
- внедряване на модел и
- онлайн оценка и усъвършенстване.
От моя опит, най-възпрепятстващите фази са фазите на събиране на данни и модели на внедряване във всеки процес на машинно обучение, основан на науката за данни, и ето два начина да ги оптимизирате:
1. Създайте високо достъпна хранилище за данни.
В повечето организации данните не се съхраняват на едно централно място. Нека просто вземем информация, свързана с клиентите. Имате информация за контакт с клиенти, имейли за поддръжка на клиенти, обратна връзка с клиенти и история на сърфиране с клиенти, ако вашият бизнес е уеб приложение. Всички тези данни са естествено разпръснати, тъй като служат за различни цели. Те могат да пребивават в различни бази данни, а някои могат да бъдат напълно структурирани, а някои неструктурирани и дори да се съхраняват като обикновени текстови файлове.
За съжаление, разпръснатостта на тези набори от данни е силно ограничаваща работата в областта на научните данни, тъй като основата на всички NLP, машинно обучение и AI проблеми са данните . Така че разполагането на всички тези данни на едно място - хранилището на данни - е от първостепенно значение за ускоряване на разработването и внедряването на модела. Като се има предвид, че това е изключително важно за всички процеси в областта на научните данни, организациите трябва да наемат квалифицирани инженери за данни, които да им помогнат да изграждат своите хранилища за данни. Това може лесно да започне като просто изхвърляне на данни на едно място и бавно да прерасне в добре обмислено хранилище за данни, напълно документирано и подлежи на проверка с помощни инструменти за експортиране на подмножество от данни в различни формати за различни цели.
2. Излагайте моделите си като услуга за безпроблемна интеграция.
В допълнение към осигуряването на достъп до данни също е важно да може да се интегрират моделите, разработени от учени по данни. Интегрирането на модели, разработени в Python, може да бъде изключително трудно с уеб приложение, което работи на Ruby. В допълнение, моделите може да имат много зависимости от данни, които вашият продукт може да не е в състояние да предостави.
Един от начините да се справите с това е да настроите силна инфраструктура около вашия модел и да изложите достатъчно функционалност, необходима на вашия продукт, за да използвате модела като „уеб услуга“. Например, ако приложението ви се нуждае от класификация на настроенията в рецензиите на продуктите, всичко, което трябва да направите, е да се позовавате на уеб услугата, предоставяйки съответния текст и услугата би върнала съответната класификация на настроенията, която продуктът може директно да използва. По този начин интеграцията е просто под формата на API повикване. Разединяването на модела и продукта, който го използва, прави наистина лесно за новите продукти, които предлагате, да използвате и тези модели с малко караница.
Сега настройването на инфраструктурата около вашия модел е съвсем друга история и изисква големи първоначални инвестиции от вашите инженерни екипи. След като инфраструктурата е налице, това е просто въпрос на изграждане на модели по начин, който се вписва в инфраструктурата.