Q:
Как компаниите увеличават максимално време за работа?
A:Поддържането на ИТ услугите очевидно е важно. Производителите на системи са обмислили много по темата. Някои критични финансови компютри работят непрекъснато от години. В интернет има история за компютър на Novell Netware 3, който най-накрая беше затворен след 16 години. Като се има предвид продължителността на работа на мрежата, стандартът е за "Пет 9s", или 99, 999% наличност. Постигането на максимална продължителност е важно съображение за всяко предлагане на ИТ услуги.
Как се постига максимална продължителност? Доброто управление е ключът. Международната организация за стандартизация (ISO) създаде рамка за управление на мрежата, наречена FCAPS, която означава:
- Управление на грешки
- Управление на конфигурацията
- Управление на счетоводството
- Управление на изпълнението
- Управление на сигурността
Проблемите с отделните мрежови компоненти се решават проактивно и реактивно с помощта на този модел. Неизправностите се наблюдават с помощта на аларми и известия за събития. Те се събират от агенти на протоколи като SNMP (протокол за управление на системната мрежа) или някои други собствени решения. Персонализираните прагове могат да задействат аларми и дори автоматично да генерират билети, които се оказват в опашките на персонала за наблюдение в центровете за данни. Големите операторски мрежи могат да имат отделни отдели, които да се занимават с основните, разпределителните или достъпните слоеве на мрежата. Анализът на първопричината се опитва да изолира и дефинира критични проблеми след голямо събитие.
Подобни процеси се използват за управление на системата. Доставчиците на интернет услуги (ISP) и управляваните хостинг центрове наемат системни администратори за наблюдение и управление на жизнеспособността на сървъри, системи за съхранение или други устройства. Отделни процеси на Windows или Linux машини, например, могат да бъдат разглеждани и контролирани чрез програми за управление на графичен потребителски интерфейс (GUI) по същия начин, по който са мрежовите протоколи.
Отдалеченото наблюдение и конфигуриране на мрежовите компоненти и системи осигуряват възможност в реално време за максимално увеличаване на времето за работа на системата. Това се разширява до промени в конфигурацията, събиране на ключови показатели за ефективност или внедряване на подобрения в сигурността.
Един от начините за разглеждане на времето за работа и надеждността на всяка система е с модела, който IBM нарече RAS: надеждност, достъпност и работоспособност. За да се гарантира RAS, са разработени много методи. Те включват резервиране, архивиране на данни, непрекъсваемо захранване (UPS), компоненти с възможност за гореща замяна и автоматични актуализации. Планираните промени и прозорци за поддръжка предлагат възможности за коригиране или подобряване на известни проблеми, без това да притеснява потребителя.
В крайна сметка системите и мрежите ще се провалят. Съкращението е един от ключовете за устойчивост на системата. Това може да важи за хардуер, софтуер или данни. Лицата, отговорни за осигуряването на надеждност в мрежова или софтуерна система, ще търсят това, което може да се счита за единична точка на повреда (SPOF). Цялата мрежа протича ли през един превключвател или кабел? Всички процеси протичат на самотен сървър? Има ли само едно копие от критичен набор от данни? Без съкращения, една компания може за миг да загуби онова, което може да отнеме години, за да се развие.
Увеличаването на продължителността на работа е „всичко по-горе”. Най-добрите практики са разработени чрез десетилетия опит и сътрудничество. Постоянно се въвеждат нови решения, като мрежи за самолечение, виртуализация, анализиране на данни и подобрена архитектура. Нито един метод няма да отговори на всички въпроси, които възникват в сложните системи. Всяка компания се опитва да използва възможно най-ефективно своите ИТ ресурси в рамките на жизнения цикъл на оборудването, с което разполага.