У дома тенденции Как съществуващата среда за съхранение на данни може да бъде най-добре мащабирана, за да отговори на нуждите на анализа на големи данни?

Как съществуващата среда за съхранение на данни може да бъде най-добре мащабирана, за да отговори на нуждите на анализа на големи данни?

Anonim

Q:

Как съществуващата среда за съхранение на данни може да бъде най-добре мащабирана, за да отговори на нуждите на анализа на големи данни?

A:

Индивидуалните проекти за съхранение на данни трябва да се оценяват за всеки отделен случай. Като цяло, когато се опитвате да разтегнете съществуващ дизайн на хранилище за данни, за да се справите по-добре с анализа на големи данни, има основен процес за намиране на това, което трябва да се направи. ИТ специалистите могат да нарекат това „мащабиране“ или „мащабиране“.

Уебинар: Big Iron, Запознайте се с големи данни: Освобождаване на данни от мейнфрейм с Hadoop & Spark

Регистрирайте се тук

Мащабирането обикновено включва търсене на достатъчна мощност за обработка, получаване на достатъчно количество памет и разполагане на по-мощни сървърни дейности за обработка на всички по-големи набори от данни, които бизнесът ще обработва. За разлика от тях, мащабирането може да означава събиране на клъстери от сървърния хардуер и тяхното свързване в мрежа с големи данни за корали.

Някои ИТ експерти предполагат, че по-често срещаният метод с Apache Hadoop и други популярни инструменти и платформи за големи данни е да се мащабират и групират хардуер за постигане на желаните ефекти. Други обаче посочват, че с днешната технология, складът на данни може да се разшири, като се използва стратегия за възлагане на поръчки, която добавя ресурси към сървър, например чрез получаване на по-голям брой ядра за обработка, заедно с по-голямо количество RAM.

Независимо дали те увеличават или мащабират, складовете за данни се нуждаят от допълнителни физически хардуерни активи, за да могат да се справят с по-големите натоварвания на данни. Те също се нуждаят от допълнителна човешка администрация, което означава повече обучение за вътрешни екипи. Необходимо е много планиране да се включи в проекта, за да се определи какъв стрес и натиск ще имат по-големите натоварвания с данни върху съществуваща наследена система, за да може да се използва за нова екосистема с големи данни. Един голям проблем са затрудненията в съхранението, които изискват ъпгрейди на центровете за съхранение, както и други видове затруднения в производителността, които могат да заграбят зараждащата се система, ако не са адресирани.

Как съществуващата среда за съхранение на данни може да бъде най-добре мащабирана, за да отговори на нуждите на анализа на големи данни?