ETL (извличане, преобразуване и зареждане) е един от най-важните процеси в анализа на големи данни - и едновременно с това той може да бъде един от най-големите пречки. (За повече информация относно големите данни, вижте 5 полезни курса за големи данни, които можете да вземете онлайн.)
Причината ETL е толкова важна, че повечето данни, които бизнес събира, не са готови в суровия си вид за анализ на аналитично решение. За да може аналитичното решение да създаде прозрения, суровите данни трябва да бъдат извлечени от приложението, в което в момента се намира, трансформирани във формат, който аналитичната програма може да чете, и след това да се заредят в самата програма за анализи.
Този процес е аналогичен на готвенето. Вашите сурови съставки са вашите сурови данни. Те трябва да бъдат извлечени (закупени от магазин), трансформирани (сготвени) и след това заредени (покрити с плочи), преди да могат да бъдат анализирани (дегустирани). Трудността и разходите могат да се мащабират непредсказуемо - лесно е да си направите мак сирене за себе си, но много по-трудно да създадете гурме меню за 40 души на вечеря. Излишно е да казвам, че грешка във всеки един момент може да направи яденето Ви неуязвимо.