Q:
Защо мениджърите трябва да се пазят от излишък на база данни?
A:Мениджърите на бази данни и други ИТ специалисти трябва да се предпазват от „съкращаване на базата данни“ или „съкращаване на данни“ поради всички отрицателни въздействия, които съкращаването може да има в система от бази данни или среда. Навсякъде, където определена част от данните се дублира, или в две полета в база данни, или в две различни среди на базата данни, това може да има последици за извличането на данни.
Една от първите причини за избягване на излишъка на данни е, че тя може да бъде разточителна или прекомерна.
Важно е да се отбележи, че се планират някои видове съкращаване на данни, за да се защитят и архивират данните. Други обаче произтичат от лошо или неефективно кодиране или липса на внимание към най-добрите практики. В много случаи големи количества резервиране на данни причиняват на базата данни бързо да надхвърли разумния размер. Като се има предвид това, се правят много усилия за борба с излишъка на данни, за да се спести място в база данни и съответно да се намалят разходите и усилията за поддръжка. Това обаче трябва да се направи с внимание към практичността - инженерите могат да практикуват нещо, наречено дедупликация на данни, но това трябва да стане по ефективен начин.
Например, мениджърите на база данни могат да изследват нещо като отнемане на низ от повторно поле, като споделен клиент или име на компанията, и замяната му с обикновена референтна променлива, където низът се държи някъде другаде. Това може да спести място в база данни, но може да изисква и повече сървърна дейност за извършване на дадено запитване, така че може да не е толкова ефективно, колкото изглежда.
Друга голяма причина за дедуплициране на данни или избягване на излишък на данни е поради объркването, което може да доведе до това. Излишните данни в база данни могат да причинят различни видове аномалии. Една от тях се нарича актуализация аномалия - аномалии при актуализация се случват, когато запис се въвежда отново с актуализирана информация, но актуализацията не я връща към първоначалния запис. В такава ситуация може да има три различни записа за конкретен служител на компанията, с три различни заглавия на работа и три различни адреса, тъй като информацията на лицето не е актуализирана в цялата база данни, а само в последния въведен запис.
Както се предлага от експерти, администраторите на бази данни могат да избегнат излишъка на данни по дизайн. Те могат също да участват в практики за нормализиране на данни, които могат да коригират аномалии при актуализиране и други видове аномалии чрез стандартизиране на начините, по които се съхраняват записите на таблиците на базата данни. Администраторите на бази данни могат също да предприемат усилия за дедупликация на данни, които почистват и стандартизират данните по други начини. Всичко това служи за целите на създаването на по-чисти таблици от бази данни, което прави записите в базата данни по-последователни и предотвратява всички главоболия и сложни проблеми, свързани с непланирано излишък на данни.