Руководство по техническому обслуживанию сервера

Регламент обслуживания любых серверов

Время на прочтение
17 мин

Количество просмотров 16K

Джейкоб Акерман, технический директор ЦОДа SkyLink, утверждает: “Серверы, расположенные в правильно обслуживаемом дата-центре, никогда не должны открываться для очистки даже после 5-7 лет использования”. 

Но далеко не все серверы работают в ЦОДах. Иногда они располагаются в обычных бытовых помещениях, иногда в импровизированных серверных, где чистоту и влажность воздуха сложно поддерживать в идеальных диапазонах. По той же причине мы периодически чистим свои ПК, а иногда и ноутбуки.

В 2009-ом году был опубликован отчёт, в котором говорится, что если не удалять пыль регулярно, то рабочая температура электроники может повыситься на 16.5°C, что в конечном итоге может способствовать отказу оборудования.

При этом даже дата-центры не гарантируют стопроцентной чистоты. Однажды компания Spec-Clean, занимающаяся чисткой ЦОДов, разобрала и почистила 500 совершенно новых серверов, после инцидента с разлетевшимся повсюду строительным мусором.

Общие положения

Важно понимать, что уникального регламента нет. Новые серверы в ЦОДах требуют меньше внимания, чем старые в плохо оборудованных серверных. Серверы отличаются как конфигурациями, так и внутренней архитектурой в зависимости от поколений и вендоров. Во многих серверных количество оборудования нарастает со временем, а значит надо учитывать, когда сервер был введён в эксплуатацию. Поэтому за основу берётся комплекс базовых мероприятий, который адаптируется под частные случаи.

Пример, как не забыть периодичность обслуживания конкретных серверов.

ТАБЛИЦА №1. РЕГЛАМЕНТНОЕ ОБСЛУЖИВАНИЕ СЕРВЕРОВ.

№ сервера, название

Наименование услуги

Введение в эксплуатацию

Последнее обслуживание

Периодичность

1. LENOVO X3550

Осмотр, профилактическая чистка, замена термопасты.

14.12.2017

14.12.2019

1 раз в 2 года

2. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

06.04.2018

06.04.2020

1 раз в 2 года

3. HP DL180 Gen10

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

1 раз в 2 года

4. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

1 раз в 2 года

Поскольку сервер – это программно-аппаратный комплекс, то ваш личный полноценный регламент должен затрагивать обслуживание и железа и софта. Но в этой статье мы рассмотрим техническое обслуживание (ТО) только аппаратной части. Несмотря на различия у производителей, фундаментально аппаратная часть во многом устроена одинаково.

ТАБЛИЦА №2. ПЕРИОДИЧНОСТЬ И ВИД РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ СЕРВЕРА.

ПРИМЕЧАНИЯ!

Периодичность проверки.

A – каждый день.

B – раз в полгода, год или два*.

* Зависит от того, как часто вы решили разбирать сервер для обслуживания. Если к этому подготовились заранее, и есть аналогичный сервер в запасе (а лучше – работающий кластер, в котором отключение одного сервера не прерывает работу), а сервер работает не в самой чистой серверной, то проводить обслуживание можно почаще. Если же ваш сервер стоит в ЦОДе с фильтрацией воздуха и контролем влажности, то чистка сервера вообще может не понадобиться. Нужно отталкиваться от ситуации.

Вид обслуживания.

П – проверка.

О – обслуживание.

Ч – чистка, продувка.

З – замена.

Нештатные ситуации.

Помимо плановых процедур с комплектующими могут возникать нештатные ситуации. В таком случае обслуживание проводится по мере необходимости в ближайшее время.

ЧТО ОБСЛУЖИВАЕТСЯ

ПРИМЕЧАНИЕ

A

B

Расходники (термопаста, батарейки, аккумуляторы и т.д.)

1

П

З

Корпус

Ч

Блок питания

2

Ч

Вентиляторы охлаждения, радиаторы

Ч

Дисковые корзины

3

Накопители

4

П

Ч

ОЗУ

Ч

Материнские платы

П, Ч

CPU, GPGPU (если имеется)

П, О, Ч

PCIe-платы, райзеры и другие платы

П, Ч

1. Замена расходников всегда происходит по необходимости. Пока сервер работает, невозможно визуально определить, набухли ли аккумуляторы на контроллере. Если что-то пошло не так, то софт об этом скажет – тогда и делаем замену. Поэтому важна ежедневная проверка журналов.

2. Самостоятельный разбор БП может привести к будущим коротким замыканиям, пожарам и выходу из строя всего сервера. Внутренняя компоновка серверного БП очень плотная, поэтому его обслуживание ограничивается продувкой.

3. Чистку дисковых корзин лучше делать по мере необходимости, так как бывает, что всё работает, но если достать диски и снова вставить – перестаёт. Тот случай, когда работает – не трогай.

4. Накопители выходят из строя достаточно часто. По данным нашего сервисного отдела – это 12% от всех гарантийных случаев у клиентов. Или 0,048% от всех отгрузок за 2020 год. RAID-контроллер постоянно анализирует диски и сигнализирует о прогнозируемом сбое задолго до его возникновения. Поэтому ваша задача – как можно быстрее заменить проблемные комплектующие.

ТАБЛИЦА №3. КАТЕГОРИИ РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ В СЕРВЕРЕ.

Часть комплектующих может обслуживаться на горячую, без прерывания работы сервера, но если на сервере запущены критические приложения, то правильнее будет остановить работу для любого обслуживания, чтобы избежать сбоев. Это в меньшей степени касается накопителей и в большей — блоков питания. 

Обслуживание / замена на горячую

Элемент

Примечание

Накопитель

Требуется предварительная подготовка. (см. подготовка перед заменой диска в массиве при прогнозируемом сбое.)*.

Блок питания

Обслуживание / замена на холодную

Элемент

Примечание

Батареи на платах

Если журналы IPMI указывают на неисправность батарей, замените их.

Вентиляторы

Модули ОЗУ

GPGPU, CPU

Перенесите конфигурацию системы PROM (англ. Programmable Read-Only Memory, программируемое ПЗУ, ППЗУ) на новую материнскую плату.

PCIe-платы, райзеры и другие

Материнская плата

Backplane плата дисковой корзины

Оптический привод

Всё остальное

*Подготовка перед заменой диска в массиве при прогнозируемом сбое.

Процедура отличается у разных вендоров и разного оборудования, поэтому рассмотрим общие принципы.

  1. Основная причина прогнозируемых сбоев — на дисках появляются повреждённые секторы (не читающиеся). Сисадмины разговорно называют их „бэды“ от англ. bad sector. Есть несколько причин их появления.

    • Программные. Код, корректирующий ошибки записи, не соответствует содержимому кластера.

    • Физические. Чаще всего происходит износ жёсткого диска после интенсивной эксплуатации. Это касается и HDD и SSD. Реже, но критичнее:  производственный брак, механическое повреждение, попадание воздуха и пыли в корпус и т.п.

  2. Когда дисковый контроллер обнаруживает сбойные секторы, он присваивает диску в массиве статус “Прогнозируемый сбой”, но не отключает его. Это лишь предупреждение, что вероятность сбоя увеличилась и диск требует немедленной замены.

  3. Перед физической заменой диска его нужно безопасно исключить из RAID-массива, присвоив статус “Автономный режим”. Для этого у вендоров зачастую есть специальный софт. Например, у Dell — пакет управления Modular Disc Storage Manager (MDSM). По ссылке можете ознакомиться подробнее.

Этапы обслуживания сервера:

  1. Подготовка рабочего места и необходимого оборудования.

  2. Отключение и демонтаж сервера из стойки.

  3. Обслуживание.

  4. Сборка, тестирование и установка сервера в стойку.

1) Подготовка рабочего места и необходимого оборудования.

Обслуживание сервера – процесс, требующий остановки оборудования, аптайм которого должен стремиться к бесконечности. Лучше подготовить всё необходимое заранее, чтобы сократить время простоя.

✔  Чистое просторное место.

Серверная или ЦОД – это места, где работают серверы. Если выдувать пыль внутри, то она снова попадёт в оборудование. Подумайте заранее о месте, где будете работать. Да, можно всё делать в темноте на коленях или на полу, но зачем, а главное, для чего?

  • Помещение. По нашему опыту минимальные размеры стола и пространства вокруг него – (Ш х Г) 1500 х 700 мм и проходы минимум по 600 мм. 

    1500 + 600 + 600 = 2700 мм – одна стена. 700 + 600 = 1300 мм – другая стена. Получаем минимальную комнату в 3,51 м². Но мы же не чулан для Гарри Поттера подготавливаем, так что лучше выбирать помещение побольше. Я бы советовал не меньше 1 метра от стола, а это уже около 6 м² — минимум. 

  • Фильтрация воздуха. В идеале в сервисном помещении должны быть хорошая циркуляция и фильтрация воздуха, так как при обслуживании серверного оборудования пыль будет неизбежно подниматься вверх, а потом снова оседать. Лучше всего использовать комплекс из фильтров грубой и тонкой очистки + вытяжку прямо над столом.

  • Да будет свет. Нужно организовать общий рассеянный свет с достаточной яркостью. Если над столом организован локальный свет, то он не должен мешать работе мастера – без резких теней и избыточной ослепляющей яркости. Для определения точных характеристик можно ориентироваться на свод правил СП 52.13330.2016 (таблица 4.1, стр. 19).

✔  Уберите всё лишнее и отвлекающее.

У вас есть местный корпоративный котик? Вокруг рабочего места заставлены проходы, из-за чего можно споткнуться или удариться? Убираем всё лишнее на время работ. Будет очень печально, если в ответственный момент вы дернете рукой с отверткой и повредите материнскую плату. Самое частое – повреждение контактов в сокете.

✔  Что может понадобится?

Всё необходимое (конкретно для этого обслуживания) удобно расположите под рукой, чтобы не бегать в поисках: термопасту, набор отверток или одну со сменными битами, этиловый спирт, баллончик для выдува, кисточки и т.д.

  • Органайзер для мелочей. Все теряли болты, винты, саморезы и прочее при сборке мебели – мелочь, а неприятно. Но мы обслуживаем серверы, а не мебель ИКЕА, а значит ничего лишнего или недостающего оказаться не должно. Органайзер стоит недорого, а экономия нервов и времени на поиск упавшего со стола болтика – колоссальная. А если ещё подписать и пронумеровать ячейки, то вы никогда не ошибётесь, что и в какой момент использовать при сборке.

  • Антистатический коврик. Есть варианты с отделениями для мелких деталей. Это одновременно закроет вопрос с органайзером, но не так надёжно. Подобные коврики помимо антистатических свойств зачастую устойчивы к высоким температурам (можно паять), не скользят и долговечны.

Также есть и напольные коврики, которые не только снимают статику, но и защищают людей от электрических разрядов. Бахнуть током не должно и так, но техника безопасности есть техника безопасности. Для этого даже разработан СП 29.13330.2011 для полов, в котором закреплены требования по удельному объемному электрическому сопротивлению (Rv) и по удельному поверхностному электрическому сопротивлению (Rs).

  • Антистатический браслет. Ещё одной антистатической мерой может стать браслет. Он не даст электростатического разряду (ESD) и электрическому напряжению (EOS) повредить оборудование. Профессиональные столы имеют клеммы заземления, но если у вас обычный стол, то можно подключить браслет к корпусу сервера или антистатическому коврику. В кругах сисадминов обычно пренебрегают антистатическими браслетами — не буду комментировать этот момент, но в нашем регламенте браслет нужен.

WARNING! Ремешок должен плотно прилегать к коже, а провод не должен мешать работе. Не подключайте клипсу к окрашенным и неметаллическим поверхностям. Иначе браслет станет гиковским аксессуаром.

  • Термопаста. От качества термопасты зависит теплообмен между радиатором и процессором. Отсюда все вытекающие. Берите хорошие термоинтерфейсы с высоким уровнем теплопроводности. Мы используем Arctic MX-4 c 8.5 Вт/(м·K), не реклама, но если вы из Arctic, готов стать амбассадором :)

    Главное – не наткнитесь на подделку и не забудьте лопатку или пластиковую карту, чтобы распределить термопасту равномерно. Мазать пальцами нинада.

  • Абсолютированный изопропиловый спирт 99+% (WARNING – не внутрь! Вкус не очень, а отравление и ожоги отличные. Даже нюхать не надо). Спирт хорошо подходит, чтобы обезжирить и очистить загрязнения или легкую окись с поверхности и контактов процессора, памяти и других комплектующих. Используется для очистки загрязнений и обезжиривания контактов.

  • Текстильные безворсовые салфетки. Ткань из микроволокна по свойствам и характеристикам отлично подходит для протирки электроники. Главное, чтобы салфетки были мягкими, прочными, антистатическими и не оставляли после себя ворсинок.

Салфетки,CLEANROOM WIPERS

Салфетки,CLEANROOM WIPERS

Также можно использовать влажные салфетки для сбора пыли с поверхностей (крышка сервера), очистки термопасты и т.д. Принцип аналогичен – безворсовые с антистатическим эффектом. 

  • Отвертки. У разных вендоров разные типы головок крепежей. Для одних серверов достаточно крестовой отвертки, для других понадобится комбинация нескольких. Поэтому самым удачным выбором станет отвёртка со сменными битами – в серверной никогда лишней не будет. И лучше иметь ещё одну с длинным стержнем.

Подобного набора должно хватить. Несколько бит находились в работе :)

Подобного набора должно хватить. Несколько бит находились в работе :)
  • Кисточки и щётки. Также полезный инструмент, чтобы очистить сервер от накопившейся пыли. Покупайте антистатические варианты разных размеров и жёсткости, чтобы эффективно избавляться как на больших поверхностях, так и в труднодоступных местах. Щетка от вашего триммера не подойдет.

  • Пневматический очиститель для продувки труднодоступных мест.  Ассортимент пневматических очистителей в магазинах большой. Неплохая альтернатива дорогим пылесосам и воздуходувкам, если над столом стоит хорошая вытяжка. Нам подойдут баллончики с антистатическим эффектом и высоким давлением, предназначенные для электроники.

  • Или сервисный пылесос — идеальный вариант.

    Сервисные пылесосы с антистатическими шлангами создавались специально для обслуживания профессионального оборудования, а потому минимизируют риск его повреждения. Они мощные, компактные, отлично фильтруют пыль и легко переносятся. Бытовые пылесосы и воздуходувки – не самый лучший вариант, в них нет защиты от статики и нужной нам фильтрации.

Например, Atrix VACOMEGASLFH Omega

Например, Atrix VACOMEGASLFH Omega

Такие пылесосы используют для профилактической очистки ЦОДа или серверной. Устанавливаемый HEPA-фильтр имеет эффективность 99,97% для частиц от 0.3 мкм. Из минусов – высокая цена. Во многих дата-центрах регламент запрещает уборку без HEPA-фильтров.

2) Отключение и извлечение сервера из стойки.

WARNING! Есть риск повреждения оборудования, а также ваших ног/рук и других продолговатых конечностей. Серверное оборудование может весить больше, чем кажется на первый взгляд. Заранее уточните массу сервера. Чтобы избежать травм, демонтируйте и переносите оборудование вдвоём. Даже если вы на практике знаете, что такое становая тяга, БЦАА и углеводное окно.

 Перед началом работ уведомите пользователей, которых затронет остановка, что сервер вскоре отключат на обслуживание. Будет очень неприятно, если важная работа внезапно встанет.

 1. Подготовка к обслуживанию.

  • Наденьте антистатический браслет на запястье (если есть в серверной). Если браслета нет, снимите статику другим способом. Например, прикоснитесь к заземленному оборудованию.

  • Если выключение вынужденное, вы можете запустить диагностику перед выключением, проверить состояние сервера и логи.

  • Сохраните необходимые файлы и закройте активные программы.

  • Завершите работу ОС и сервера.

2. Отключите кабель(и) питания.

3.  Отключите всю периферию и оборудование.

4.  Извлеките сервер из стойки.

  • Вытяните сервер в положение „для обслуживания“.

  • Разблокируйте рельсовые фиксаторы.

  • Снимите антистатический браслет (если есть).

  • Спереди потяните сервер, пока он не выйдет из стойки.

5. Перенесите сервер на заранее подготовленное рабочее место.

  • Запланируйте маршрут до места заранее, откройте необходимые двери и т.д., так как лишней руки может не оказаться.

  • В идеале упаковать сервер в пузырчатую плёнку с антистатическими свойствами.

  • Переносите оборудование вдвоём. Это поможет избежать ударов и падений. Это касается не только сервера, но и вас.

  • Для переноса лучше использовать прорезиненные перчатки, чтобы сервер случайно не выскользнул из потеющих рук.

  • Не переворачивайте сервер вверх ногами. Это не смертельно, но нежелательно. Некоторые компании, например Sun, устанавливает специальные датчики наклона и встряски в ящики с серверами. А переворот ведёт к потере гарантии. Всё, чтобы дорогостоящее оборудование не повредилось.

3) Обслуживание.

WARNING! Перед началом работ убедитесь, что сервер обесточен. Человек – отличный проводник.

WARNING! Печатные платы и другие комплектующие состоят из транзисторов и интегральных схем, которые чрезвычайно чувствительны к статическому электричеству. Обычное прикосновение одеждой или рукой может привести к повреждениям или к выходу оборудования из строя. Прочитайте руководство по работе с чувствительными к статическому электричеству комплектующими.

WARNING! Сервер, который находился под нагрузкой, может оставаться горячим ещё некоторое время после отключения. Избегайте контакта, если не хотите золотистой корочки на руках.

Самое сложное позади :) Сервер на столе перед вами, готовый ко всему. Под рукой предварительно подготовленные инструменты и икона Гейба Ньюэлла, а значит можно приступать к обслуживанию, пока сервер ещё тёпленький.

a. Разборка.

У разных вендоров крышка снимается по-разному. На одних серверах нужно вставить пальцы под защёлки, поднять их и снять крышку.

 На других защёлка может быть одна.

На некоторых это могут быть замок и кнопки.

Когда вы сняли крышку, сразу же протрите пыль (но не над сервером!), чтобы не забыть это сделать на этапе сборки. Потом поставьте в безопасное место рядом со столом – не стоит класть крышку на стол, так как можно случайно уронить её и повредить. Запаски в комплекте нет.

b. Чистка.

Перед дальнейшей разборкой сервера нужно провести первичную очистку. Если у вас сервисный пылесос, то вперёд. Если кисточки, то очищайте пыль, стараясь собирать её, а не поднимать в воздух.

c. Осмотр.

Далее внимательно проводим визуальный осмотр. Самое время проверить все интерфейсы, платы, аккумуляторы, радиаторы, модули памяти, лопасти вентиляторов, воздуховоды и материнскую плату.

С конденсаторами в современных серверах практически никогда не бывает проблем. Наши мастера по гарантийному ремонту и сборке последний раз видели набухший конденсатор лет 10 назад. Но всё же стоит знать врага в лицо, как выглядит набухший из-за выкипания или испарения электролита конденсатор, так как это приведёт к отказу оборудования. Лотерею же кто-то выигрывает, в конце концов.

Слева направо – от нормального состояния до набухшего

Слева направо – от нормального состояния до набухшего

 P.S. Если вытекший электролит попал на любую печатную плату, сервер это или нет, то всегда очищайте загрязнение спиртом или другими средствами. Не стоит самостоятельно пытаться перепаивать конденсаторы, если вы не обладаете нужными знаниями, навыками и оборудованием. Для этого существуют сервисные центры.

d.     Снятие всех комплектующих.

Для того, чтобы провести качественное обслуживание и дополнительную чистку, нужно разобрать сервер, отсоединив все комплектующие: воздушную перегородку, вентиляторы, радиаторы, платы, планки RAM, GPGPU, CPU и т.д.

e.     Тщательная чистка.

WARNING! Изопропиловый спирт отлично очищает и обезжиривает поверхности, а также безвреден для электроники. Но саму протирку нужно проводить предельно аккуратно, чтобы механически не повредить оборудование.   Учтите, что попадание спирта внутрь организма вызывает отравление и ожоги. В том числе через слизистые глаз.

Остаточную пыль со всех элементов нужно ещё раз продуть баллончиком или пропылесосить. Такие комплектующие, как БП или GPGPU, лучше продувать подальше от сервера, чтобы пыль снова не оседала на него.

После нужно протереть контакты процессора (без резких движений, ковбой, дёрнешься и процессор — труп), различных плат салфеткой, пропитанной изопропиловым спиртом. Термопаста, если профи до вас выдавил от души, может оставаться как на контактах CPU, так и на контактной базе материнской платы.

Разумеется, в таком виде оставлять нельзя.

f. Замена вышедших из строя комплектующих и расходников.

Если что-то вышло из строя (или есть предпосылки), то замените неисправные комплектующие и расходники на новые.

Замена батареек и аккумуляторов – простейшая процедура, не требующая профессиональных навыков. Однако расположение элементов на платах может отличаться в зависимости от моделей и вендоров, поэтому, если меняете впервые на незнакомом оборудовании, лучше изучите техническую документацию

g. Нанесение термопасты.

WARNING! Металлическая крышка и контакты процессора должны быть хорошо очищены и обезжирены. Термопасту нужно наносить очень тонким слоем и равномерно распределять, чтобы она покрывала всю поверхность крышки.

WARNING! Не используйте термопасту повторно, если отсоединили радиатор от термораспределителя процессора. Это может привести к появлению пузырьков воздуха и значительному ухудшению охлаждения.

Если вы анализируете показатели работы сервера, то через определённое время (зависит от нагрузок, условий эксплуатации и качества термопасты) заметите увеличение рабочих температур CPU и GPU. Отклонения могут быть всего в несколько градусов, но это первый звоночек, что пора обновить термопасту.

Тут пара советов. Если вы отключаете сервер на профилактику каждые полгода, то менять качественную термопасту вряд ли понадобится. Что уж там, в хороших условиях она может прослужить несколько лет. Поэтому анализируйте нагрузки и показатели, а чтобы не доводить ситуацию до вынужденной остановки, меняйте термопасту при профилактических остановках.

Если рассмотреть крышку процессора под микроскопом, то на поверхности можно увидеть неровности и ямки. А воздух, как известно, плохой проводник тепла. Главная задача термопасты – заполнить эти неровности и осуществлять теплообмен между радиатором и процессором.

Если говорить о цифрах, то слой должен быть совсем небольшой: 0,5-1 мм. Замерять линейкой не нужно, визуально поверхность процессора будет слегка видна через такой слой.

Процесс нанесения термопасты на примере Dell PowerEdge R740 Rack Server. На других сокетах процесс может отличаться.

1. Снимаем радиатор.

2. Устанавливаем заглушку в сокет.

3. Аккуратно отсоединяем процессор от радиатора, повернув отвертку вдоль своей оси.

4. Кладём процессор на безопасную подложку.

5. Удаляем старую термопасту с CPU и радиатора салфеткой, пропитанной изопропиловым спиртом.

6. Равномерно наносим новую термопасту и распределяем по поверхности.   

7. Соединяем процессор с радиатором и устанавливаем в сокет.

Перед закреплением с материнской платой убедитесь, что снаружи не появилось избытков термопасты. Иногда для этого очень кстати камера телефона или стоматологическое зеркало. Если избытка много, значит вы нанесли слишком толстый слой. Пробовали когда-нибудь очистить залитый сокет?

 Также из-за избытка термопасты рамка может не зафиксироваться на радиаторе, и тогда процессор при установке может упасть на сокет. А это уже смерть материнской плате и, возможно, процессору. Ещё один неприятный сценарий может возникнуть, если вам удалось зафиксировать это безобразие и возник перекос процессора. Избыток термопасты не даст процессору встать правильно в рамке и в сокете, а когда вы начнёте прикручивать винты крепления, может надломиться угол процессора.

 Чтобы не допустить поломок, нужно повторить всё с шага №3.

 Если же вы всё сделали правильно, то термопаста почти не будет вытесняться с краёв, а крышка процессора будет плотно и равномерно прилегать к радиатору.

h. Соберите сервер и запустите диагностику.

ATTENTION! Не запускайте самодиагностику в том же месте, где чистили сервер от пыли. Если воздух в помещении не фильтруется (или не успел профильтроваться), то это приведёт к попаданию пыли внутрь оборудования. В таком случае лучше тестировать сервер в серверной или ЦОДе.

 Здесь всё просто: устанавливаем комплектующие в соответствующие слоты и интерфейсы и закрепляем их. Де-факто это обратная процедура от разборки. Но пару слов о том, что может вызвать сложности.

  • Установка процессора.

    Сокеты CPU могут отличаться. А как следствие – методы установки процессоров разные. Чтобы узнать, какой сокет у вас, нужно зайти на сайт Intel и найти свою модель.

https://ark.intel.com/content/www/ru/ru/ark.html#@PanelLabel595

https://ark.intel.com/content/www/ru/ru/ark.html#@PanelLabel595

Далее открыть окно со спецификациями и найти соответствующий пункт.

После этого переходите на другую страницу и смотрите подробную инструкцию по установке процессора. Или же сразу переходите на этот пункт, если знаете сокет.

https://www.intel.ru/content/www/ru/ru/support/topics/desktop-server-processor-installation.html

https://www.intel.ru/content/www/ru/ru/support/topics/desktop-server-processor-installation.html
  • Установка планок ОЗУ.

Часто в серверах используются не все разъемы под память, как на фото выше. В таком случае лучше использовать специальные заглушки, чтобы циркуляция воздуха внутри была равномерной. Даже если вы устанавливаете заглушки, а не память, фиксаторы с боков должны полностью закрываться – до щелчка. Я же знаю, что вы всё равно будете переворачивать сервер при переносе :)

Черные заглушки. Красным выделены фиксаторы.

Черные заглушки. Красным выделены фиксаторы.
  • Если вы впервые в жизни разбирали сервер для профилактики, то можете фиксировать сложные и непонятные моменты на камеру, чтобы при сборке в точности повторить процедуру в обратном порядке и ничего не перепутать.

Наконец сервер собран, но прежде чем запускать ОС и вводить сервер в полноценную работу, нужно запустить встроенную самодиагностику POST (Power-On Self-Test). Она позволит проверить аппаратное обеспечение и понять, всё ли работает, правильно ли подключены комплектующие, не было ли что-то повреждено при обслуживании.

 Важно, что встроенные утилиты самодиагностики берут данные из датчиков, а потому могут выявлять неполадки на аппаратном уровне, которые пропустит ОС и сторонний софт.

 У всех вендоров утилиты реализованы по-разному, а процедура тестирования зависит от поколения сервера. Детальную инструкцию можно найти на сайте вендора.

Hardware Diagnostics от Dell

Hardware Diagnostics от Dell

4) Установка в стойку и возврат сервера к работе.

Когда всё необходимое в сервере заменено, а комплектующие очищены от пыли и протестированы инструментами самодиагностики, можно выпить пива похвалить себя за проделанную работу и вернуть сервер в работу.

  1. Подготовка к работе.

    • Принесите сервер вдвоем в серверную или ЦОД.

    • Снимите статику.

    • Установите сервер в рельсы (желательно вдвоём).

    • Заблокируйте рельсовые фиксаторы.

    • Медленно задвиньте сервер внутрь стойки.

  2. Подключите всю периферию и оборудование.

  1. Подключите кабель(и) питания. (ПРИМЕЧАНИЕ: Сразу после подключения кабелей на сервер может пойти питание с ИБП. В зависимости от преднастроек ПО сервер может автоматически запуститься).

  2. Запустите сервер.

    • Автоматически при включении.

    • Удалённо через IPMI.

    • На месте через кнопку питания.

WARNING! Эксплуатируйте сервер только со всеми вентиляторами, радиаторами, воздушной перегородкой и установленной крышкой. Неправильная работа системы охлаждения может привести к серьезным нарушениям и поломкам оборудования.

Регламент должен быть

Серверы во многом напоминают работу авиации – всё должно быть проверено, отточено, продублировано и отшлифовано до блеска. Авиадиспетчер не может прекратить работу из-за того, что выключился свет в аэропорту; сотни самолётов не станут ждать в небе. Также и банк не может ждать, пока кто-то придёт и починит серверную инфраструктуру, на которой всё держится. Потенциальные потери, как денежные, так и репутационные, несоизмеримы с затратами на превентивные меры.

Поэтому любой технике — инопланетному Мегатрону-3000 или обычному серверу за 50 т.р. — требуется обслуживание, профилактика и ремонт. Вы бы полетели через Тихий океан на Боинге 747-100, который не был на обслуживании несколько лет? Для бизнеса ситуация с серверами аналогичная.

Надеюсь, что этот регламент будет полезен и станет базой для вашего собственного. Если вы считаете, что что-то забыто или стоит дополнить какой-то момент – welcome в комментарии.

И напоследок хочется добавить, что всегда можно улучшить среду, в которой сервер работает: специальные серверные шкафы для неблагоприятных условий, фильтры воздуха, кондиционеры с контролем температуры и влажности, регулярная уборка ЦОДа или серверной (главное, без уборщицы с мокрой шваброй или бытовым пылесосом!). И тогда не придётся отключать сервер только для чистки, скорее чистка станет сопутствующей процедурой при обслуживании сервера.

  1. Manuals
  2. Brands
  3. HP Manuals
  4. Server
  5. ProLiant ML350 Generation 4
  6. Maintenance and service manual
  • Contents

  • Table of Contents

  • Bookmarks

Quick Links

HP ProLiant ML350 Generation 4 Server

Maintenance and Service Guide

August 2004 (Second Edition)

Part Number 356698-002

loading

Related Manuals for HP ProLiant ML350 Generation 4

Summary of Contents for HP ProLiant ML350 Generation 4

  • Page 1
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide August 2004 (Second Edition) Part Number 356698-002…
  • Page 2
    The information in this document is provided “as is” without warranty of any kind and is subject to change without notice. The warranties for HP products are set forth in the express limited warranty statements accompanying such products. Nothing herein should be construed as constituting an additional warranty.
  • Page 3: Table Of Contents

    Contents Illustrated Parts Catalog Mechanical Components……………………5 System Components……………………..7 Removal and Replacement Procedures Required Tools……………………… 11 Safety Considerations ……………………12 Preventing Electrostatic Discharge………………12 Symbols on Equipment………………….12 Rack Warnings and Cautions………………..14 Preparation Procedures ……………………15 Powering Down the Server ………………… 15 Extending the Server from the Rack………………

  • Page 4
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Re-Entering the Server Serial Number and Product ID …………..45 Diagnostic Tools Automatic Server Recovery ………………….. 47 HP Systems Insight Manager ………………….47 Integrated Management Log ………………….48 HP Instant Support Enterprise Edition ………………..48 Option ROM Configuration for Arrays………………..
  • Page 5: Illustrated Parts Catalog

    Illustrated Parts Catalog In This Section Mechanical Components ……………………5 System Components ……………………7 Mechanical Components…

  • Page 6
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description Spare Part Number Access panel, tower 365058-001 Access panel, rack* 371714-001 Tower bezel 365064-001 Rack bezel* 371752-001 Removable media blank 231212-001 SCSI Hard drive blank 319602-001 Hot-plug power supply blank…
  • Page 7: System Components

    Illustrated Parts Catalog System Components Item Description Spare Part Number System Components Fan assembly, 120 mm 367637-001 3.0-V lithium battery 234556-001 Heatsink 366866-001 Processor…

  • Page 8
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description Spare Part Number Intel® Xeon™ 3.00-GHz with 800-MHz system bus* 366864-001 Intel® Xeon™ 3.20-GHz with 800-MHz system bus* 373521-001 Intel® Xeon™ 3.40-GHz with 800-MHz system bus* 376069-001 Processor power module (PPM)
  • Page 9
    Illustrated Parts Catalog Item Description Spare Part Number 2-GB DDR DIMM PC2700* 367553-001 Options Two-bay, hot-plug drive cage* 253761-001 Tower-to-rack conversion kit* 366861-001 Redundant system fan assembly 372213-001 Duplex SCSI backplane* 371722-001 Second Serial Port* 372657-001 Keyboard* 355630-001 Mouse* 344704-001 *Not shown…
  • Page 11: Removal And Replacement Procedures

    Removal and Replacement Procedures In This Section Required Tools ……………………..11 Safety Considerations ……………………12 Preparation Procedures …………………….15 Removing Tower Feet ……………………19 Removing the Front Bezel (Tower Model) ………………19 Rack Rails………………………..20 Removing the Power Supply Blank………………..21 Hot-Plug Power Supply ……………………21 Non-Hot-Plug Power Supply………………….22 Hot-Plug Power Supply Backplane ………………..24…

  • Page 12: Safety Considerations

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide • Diagnostics Utility Safety Considerations Before performing service procedures, review all the safety information. Preventing Electrostatic Discharge To prevent damaging the system, be aware of the precautions you need to follow when setting up the system or handling parts.

  • Page 13
    Removal and Replacement Procedures WARNING: To reduce the risk of injury from electric shock hazards, do not open this enclosure. Refer all maintenance, upgrades, and servicing to qualified personnel. This symbol indicates the presence of electric shock hazards. The area contains no user or field serviceable parts.
  • Page 14: Rack Warnings And Cautions

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide WARNING: To reduce the risk of injury from electric shock, remove all power cords to completely disconnect power from the system. Rack Warnings and Cautions WARNING: To reduce the risk of personal injury or damage to the equipment, be sure that: •…

  • Page 15: Preparation Procedures

    For more information about telco rack solutions, refer to the RackSolutions.com website (http://www.racksolutions.com/hp). • Power down the server («Powering Down the Server» on page 15).

  • Page 16: Extending The Server From The Rack

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 1. Shut down the operating system as directed by the operating system documentation. 2. Press the Power On/Standby button to place the server in standby mode. When the server activates standby power mode, the system power LED changes to amber.

  • Page 17: Access Panel

    Removal and Replacement Procedures WARNING: To reduce the risk of personal injury, be careful when pressing the server rail-release latches and sliding the server into the rack. The sliding rails could pinch your fingers. 3. After performing the installation or maintenance procedure, slide the server back into the rack: a.

  • Page 18: Removing The Server From The Rack

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 1. Power down the server («Powering Down the Server» on page 15). 2. Remove the front bezel, if necessary («Removing the Front Bezel (Tower Model)» on page 19). 3. Loosen the two thumbscrews on the front panel of the server near the access panel.

  • Page 19: Removing Tower Feet

    Removal and Replacement Procedures Removing Tower Feet Remove the feet. Removing the Front Bezel (Tower Model) This server has a removable front bezel that must be unlocked and opened before accessing the hard drive cage or removing the access panel. The door should be kept closed during normal server operations.

  • Page 20: Rack Rails

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide If necessary, remove the front bezel. Rack Rails NOTE: This procedure applies to rack servers only. To remove the component: 1. Use a flat-head screwdriver to lift the spring tab.

  • Page 21: Removing The Power Supply Blank

    Removal and Replacement Procedures 3. Repeat steps 1 and 2 to remove other rail. To replace the component, reverse the removal procedure. Removing the Power Supply Blank Remove the thumbscrew that secures the redundant power supply blank, and then pull the blank from the back of the server. Hot-Plug Power Supply WARNING: To reduce the risk of electric shock, do not disassemble the power supply or attempt to repair it.

  • Page 22: Non-Hot-Plug Power Supply

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 2. Push down on the power supply release latch, and remove the power supply from the server. CAUTION: To prevent improper cooling and thermal damage, do not operate the server unless all bays are populated with either a component or a blank.

  • Page 23
    Removal and Replacement Procedures WARNING: To reduce the risk of personal injury from hot surfaces, observe the thermal labels on each power supply or module. WARNING: To reduce the risk of injury from electric shock hazards, do not open power supplies. Refer all maintenance, upgrades, and servicing to qualified personnel.
  • Page 24: Hot-Plug Power Supply Backplane

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide To replace the component, reverse the removal procedure. Hot-Plug Power Supply Backplane To remove the component: 1. Remove the power supplies from the server. 2. Remove the access panel («Access Panel» on page 17).

  • Page 25: Hot-Plug Scsi Hard Drive

    Removal and Replacement Procedures CAUTION: To prevent improper cooling and thermal damage, do not operate the server unless all bays are populated with either a component or a blank. NOTE: Depending on model purchased, the server may look slightly different than shown. Hot-Plug SCSI Hard Drive CAUTION: To prevent improper cooling and thermal damage, do not operate the server unless all bays are populated with either a…

  • Page 26: Non-Hot-Plug Scsi Hard Drive

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 3. Remove the hard drive. To replace the component, reverse the procedure. Non-Hot-Plug SCSI Hard Drive CAUTION: To prevent improper cooling and thermal damage, do not operate the server unless all bays are populated with either a component or a blank.

  • Page 27
    Removal and Replacement Procedures 3. Disconnect the power cable and the four-device SCSI cable from the hard drive. 4. Remove screws from the hard drive bay, and remove the hard drive. To replace the component: 1. Set the SCSI ID for the non-hot-plug SCSI hard drive. Refer to the documentation that ships with the hard drive.
  • Page 28: Redundant System Fan

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 2. Install two screws on the side of the hard drive to ensure proper alignment inside the bay. 3. Replace the hard drive into the hard drive bay, and reinstall the screws.

  • Page 29: Expansion Slot Cover

    Removal and Replacement Procedures 3. Remove the fan. To replace the component, reverse the removal procedure. Expansion Slot Cover To remove the component: 1. Remove the access panel («Access Panel» on page 17). 2. Remove the expansion slot cover.

  • Page 30: Expansion Board

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide CAUTION: To prevent improper cooling and thermal damage, do not operate the server unless all PCI slots have either an expansion slot cover or an expansion board installed. To replace the component, reverse the removal procedure.

  • Page 31: Cd-Rom Drive

    Removal and Replacement Procedures 4. Remove the expansion board. 5. Reinstall the expansion board retainer, then tighten the thumbscrew. To replace the component, reverse the removal procedure. CD-ROM Drive To remove the component: 1. Remove the access panel («Access Panel» on page 17). 2.

  • Page 32: Tape Drive

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 3. Push up on the release lever and push the drive partially out through the front of the server. 4. Remove the CD-ROM drive. Tape Drive To remove the component: 1.

  • Page 33: Internal Two-Bay Hot-Plug Scsi Drive Cage

    4. Remove the tape drive. To replace the component, reverse the removal procedure. IMPORTANT: HP recommends installing the tape drive on a separate SCSI cable to avoid a decrease in performance on other SCSI devices. Internal Two-Bay Hot-Plug SCSI Drive Cage To remove the component: 1.

  • Page 34
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 3. Disconnect the SCSI and power cables. 4. Remove the drive cage from the chassis. To replace the component, reverse the removal procedure. IMPORTANT: Be sure that the unit identification numbers (0 and 1) appear on the right side of the drive cage front panel.
  • Page 35: Processor And Heatsink

    Removal and Replacement Procedures Processor and Heatsink IMPORTANT: If upgrading processor speed, update the system ROM before installing the processor. IMPORTANT: PPM 2 must be installed when processor 2 is installed. The system fails to boot if the PPM is missing. To remove a processor and heatsink: 1.

  • Page 36
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 4. Remove the heatsink. 5. Open the processor locking lever and remove the processor. To replace the processor and heatsink: 1. Open the processor locking lever, if necessary. 2. Install the processor and close the processor locking lever.
  • Page 37
    Removal and Replacement Procedures CAUTION: Forcing the processor locking lever could lead to hardware damage. IMPORTANT: Do not remove the thermal tape from the bottom of the heatsink. Removing the tape will affect the thermal solution and prevent the system from working properly.
  • Page 38
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 3. Install the heatsink. 4. Close the processor retaining brackets.
  • Page 39: Ppm

    Removal and Replacement Procedures 5. Connect the heatsink connector to the correct header on the system board. Item Description CPU 1 heatsink header CPU 2 heatsink header 6. Replace the access panel («Access Panel» on page 17). To remove the component: 1.

  • Page 40: Second Serial Port

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide NOTE: PPM 1 is embedded onto the system board. NOTE: The appearance of compatible PPMs may vary. To replace the component, reverse the removal procedure. Second Serial Port To remove the component: 1.

  • Page 41: Duplex Scsi Backplane

    Removal and Replacement Procedures 4. Remove the second serial port option. To replace the component, reverse the removal procedure. Duplex SCSI Backplane To remove the component: 1. Remove the access panel («Access Panel» on page 17).

  • Page 42
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide 2. Remove the SCSI cable from the duplex SCSI backplane and from either the array controller or the system board. 3. Remove the duplex SCSI backplane. To replace the component, reverse the removal procedure.
  • Page 43: Battery

    Removal and Replacement Procedures Battery If the server no longer automatically displays the correct date and time, you may need to replace the battery that provides power to the real-time clock. Under normal use, battery life is 5 to 10 years. WARNING: The computer contains an internal lithium manganese dioxide, a vanadium pentoxide, or an alkaline battery pack.

  • Page 44: System Board

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide IMPORTANT: Replacing the system board battery resets the system ROM to its default configuration. After replacing the battery, reconfigure the system through RBSU. To replace the component, reverse the removal procedure.

  • Page 45: Re-Entering The Server Serial Number And Product Id

    Removal and Replacement Procedures Re-Entering the Server Serial Number and Product ID After you replace the system board, you must re-enter the server serial number and the product ID. 1. During the server startup sequence, press the F9 key to access RBSU. 2.

  • Page 47: Diagnostic Tools

    ASR increases server availability by restarting the server within a specified time after a system hang or shutdown. At the same time, the HP SIM console notifies you by sending a message to a designated pager number that ASR has restarted the system.

  • Page 48: Integrated Management Log

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide IMPORTANT: You must install and use HP SIM to benefit from the Pre- Failure Warranty for processors, hard drives, and memory modules. For additional information, refer to the Management CD in the HP ProLiant Essentials Foundation Pack.

  • Page 49: Option Rom Configuration For Arrays

    (http://www.hp.com/hps/hardware/hw_enterprise.html). To download HP ISEE, visit the HP website (http://www.hp.com/hps/hardware/hw_downloads.html). For installation information, please refer to the HP ISEE Client Installation and Upgrade Guide (ftp://ftp.hp.com/pub/services/hardware/info/isee_client.pdf). Option ROM Configuration for Arrays Before installing an operating system, you can use the ORCA utility to create the first logical drive, assign RAID levels, and establish online spare configurations.

  • Page 50: Rom-Based Setup Utility

    For more information about the RDP, refer to the HP ProLiant Essentials Rapid Deployment Pack CD or refer to the HP website (http://www.hp.com/servers/rdp).

  • Page 51: System Online Rom Flash Component Utility

    Automatically checks for hardware, firmware, and operating system dependencies, and installs only the correct ROM upgrades required by each target server To download the tool and for more information, refer to the HP website (http://h18000.www1.hp.com/support/files/index.html). SmartStart Software SmartStart is a collection of software that optimizes single-server setup, providing a simple and consistent way to deploy server configuration.

  • Page 52: Hp Insight Diagnostics

    Enabling access to the Array Configuration Utility, Array Diagnostics Utility, and Erase Utility SmartStart is included in the HP ProLiant Essentials Foundation Pack. For more information about SmartStart software, refer to the HP ProLiant Essentials Foundation Pack or the HP website (http://www.hp.com/servers/smartstart).

  • Page 53
    Enabling access to the Array Configuration Utility, Array Diagnostics Utility, and Erase Utility SmartStart is included in the HP ProLiant Essentials Foundation Pack. For more information about SmartStart software, refer to the HP ProLiant Essentials Foundation Pack or the HP website (http://www.hp.com/servers/smartstart).
  • Page 55: Server Component Identification

    Server Component Identification In This Section Front Panel Components ………………….55 Front Panel LEDs and Buttons …………………56 Rear Panel Components……………………57 Rear Panel LEDs ……………………..58 System Board Components ………………….59 System LEDs and Internal Health LED Combinations …………..62 System Board LEDs ……………………63 Hot-Plug SCSI IDs ……………………65 Hot-Plug SCSI Hard Drive LEDs………………..66…

  • Page 56: Front Panel Leds And Buttons

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description System power button UID button Diskette drive CD-ROM drive Front Panel LEDs and Buttons Item Description Status UID LED Blue = Activated Flashing = System remotely managed Off = Deactiviated…

  • Page 57: Rear Panel Components

    Server Component Identification Item Description Status External health LED Green = Normal (power supply) Red = Power redundancy failure NIC activity LED Green = Network link Flashing = Network link and activity Off = No link to network. If power is off, view the rear panel RJ-45 LEDs for status.

  • Page 58: Rear Panel Leds

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description Optional hot-plug redundant power supply bay SCSI connector knockouts PCI Express 4x (half length card), slot 1 PCI Express 8x (full length card), slot 2 64-bit 100-MHz PCI-X slot, bus 9, slot 3…

  • Page 59: System Board Components

    Server Component Identification Location Status Power supply LED Off = No power or inadequate power supply Green = Power supply is on and functioning UID LED Blue = Activated Off = Deactivated Flashing = Remote inquiry 10/100/1000 On = Link NIC link LED Off = No Link 10/100/1000…

  • Page 60: Nmi Jumper

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description Item Description CPU 1 heatsink header 64-bit 100-MHz PCI-X slot, bus 9 Processor socket 1 64-bit 100-MHz PCI-X slot, bus 9 Processor socket 2 NMI jumper Diskette drive connector…

  • Page 61: System Maintenance Switch

    Server Component Identification Systems running Microsoft® Windows® operating systems experience a blue screen trap when the operating system crashes. When this happens, Microsoft® recommends that system administrators perform an NMI event by pressing a dump switch. The NMI event enables a hung system to become responsive again. System Maintenance Switch Position Default…

  • Page 62: System Leds And Internal Health Led Combinations

    LEDs and the internal health LED indicate system status. The front panel health LEDs indicate only the current hardware status. In some situations, HP SIM may report server status differently than the health LEDs because the software tracks more system attributes.

  • Page 63: System Board Leds

    Server Component Identification System LED and Internal Health Status Color LED Color Overtemperature • The Health Driver has detected a cautionary (Amber) temperature level. • The server has detected a hardware critical temperature level. Fan (Amber) The minimum fan requirements are not being met. Fan has failed.

  • Page 64
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item LED Description Status PPM 1 (embedded) Off = PPM 1 functioning status Amber = PPM 1 failed Processor 2 fan Off = Processor fan is functioning status Amber = Fan is not installed or has failed…
  • Page 65: Hot-Plug Scsi Ids

    Server Component Identification Hot-Plug SCSI IDs The server supports single- or dual-channel SCSI hard drive configurations. The single-channel configuration (simplex) supports up to six SCSI hard drives on one channel. The dual-channel configuration (duplex) supports two SCSI hard drives on one channel (SCSI IDs 4 and 5) and up to four SCSI hard drives on the other channel (SCSI IDs 0 through 3) with the duplex option.

  • Page 66: Hot-Plug Scsi Hard Drive Leds

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Hot-Plug SCSI Hard Drive LEDs Item LED Description Status Activity status On = Drive activity Flashing = High activity on the drive or drive is being configured as part of an array.

  • Page 67: Specifications

    Specifications In This Section Server Specifications ……………………67 Environmental Specifications…………………..68 Rack Server Specifications………………….69 Hot-Plug Power Supply Calculations ……………….70 DDR SDRAM DIMM Specifications……………….70 1.44-MB Diskette Drive Specifications………………70 CD-ROM Drive Specifications ………………..71 Server Specifications Dimensions Specification Height (with feet) 46.8 cm (18.43 in) Depth (with bezel) 64 cm (25.2in) Width…

  • Page 68: Environmental Specifications

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Models with a Non- redundant power supply Input requirements Specification Rated input voltage 100 VAC to 240 VAC Rated input frequency 47 Hz to 63 Hz Rated input current 7.8 A (110 V) to 3.9 A (220 V)

  • Page 69: Rack Server Specifications

    Specifications Rack Server Specifications Dimensions Specification Height 21.87 cm (8.61 in) Depth (with bezel) 60.96 cm (24 in) Width 48.26 cm (19 in) Weight (no drives installed) 27.24 kg (60 lb) Models with a redundant power supply Input requirements Specification Rated input voltage 100 VAC to 240 VAC Rated input frequency…

  • Page 70: Hot-Plug Power Supply Calculations

    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Hot-Plug Power Supply Calculations For hot-plug power supply specifications and calculators to determine electrical and heat loading for the server, refer to the HP Enterprise Configurator website (http://h30099.www3.hp.com/configurator/). DDR SDRAM DIMM Specifications NOTE: Use only 256-MB, 512-MB, 1-GB, 72-bit wide, 2.5-B, PC2100…

  • Page 71: Cd-Rom Drive Specifications

    Specifications Item Description Drive rotation 300 rpm Transfer rate High 500 Kb/s 250 Kb/s Bytes/sector Sectors per track (high/low) 18/9 Tracks per side (high/low) 80/80 Access times Track-to-track (high/low) 3 ms/6 ms Average (high/low) 169 ms/94 ms Setting time 15 ms Latency average 100 ms Cylinders (high/low)

  • Page 72
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Item Description Width 132.08 mm (5.20 in) Weight 0.34 kg (0.75 lb) Data transfer rate Sustained 150 KB/s (sustained 1X), 1500/3600 KB/s (10X to 24X) Burst 16.6 MB/s Access times (typical)
  • Page 73: Acronyms And Abbreviations

    Acronyms and Abbreviations ABEND abnormal end Array Configuration Utility Array Diagnostics Utility Automatic Server Recovery double data rate DIMM dual inline memory module HD68 high density 68 International Electrotechnical Commission…

  • Page 74
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide Integrated Lights-Out Integrated Management Log initial program load interrupt request ISEE Instant Support Enterprise Edition multi-processor specification NEMA National Electrical Manufacturers Association NFPA National Fire Protection Association network interface controller…
  • Page 75
    Acronyms and Abbreviations NVRAM non-volatile memory ORCA Option ROM Configuration for Arrays PCI Express peripheral component interconnect express PCI-X peripheral component interconnect extended power distribution unit POST Power-On Self-Test Processor Power Module ProLiant Support Pack preboot eXecution environment RBSU ROM-Based Setup Utility…
  • Page 76
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide RILOE II Remote Insight Lights-Out Edition II SCSI small computer system interface SDRAM synchronous dynamic RAM Systems Insight Manager TMRA recommended ambient operating temperature unit identification VHDCI very high density cable interconnect…
  • Page 77: Index

    Health Driver 47, 66 buttons 55 health LEDs 56, 66 hot-plug power supply 21 HP Insight Diagnostics 52 HP ProLiant Essentials Foundation Pack 47 cautions 14 HP ProLiant Essentials Rapid Deployment CD-ROM drive 31, 55, 71 Pack 49 components 55…

  • Page 78
    HP ProLiant ML350 Generation 4 Server Maintenance and Service Guide server asset text 45 SmartStart Autorun Menu 51 management tools 47 SmartStart, overview 51 mechanical components 5 spare part numbers 5, 7 specifications 67 specifications, server 67, 68, 70, 71…

Как правильно обслуживать сервер

Обновлено Обновлено: 10.02.2017
Опубликовано Опубликовано: 04.02.2017

Обслуживание сервера — это комплекс мер, направленных на обеспечение безотказной работы сервисов, которые работают на данном сервере, а также увеличение срока службы серверного оборудования. Для поддержания бесперебойной работы или минимизации сбоев необходимо выполнить работы, по крайней мере, в двух направлениях — поддержка работоспособности аппаратной части и безошибочной работы программного обеспечения (ПО).
 

1. Техническое обслуживание оборудования

Сервера в стойке

  1. Электропитание. Необходимо убедиться в наличии источника бесперебойного питания (ИБП) и достаточном уровне заряда его аккумулятора. Желательно, чтобы ИБП мог отправить сигнал на выключение сервера, если заряда осталось очень мало.
     
  2. Пыль. Время от времени, необходимо чистить сервер от скопившейся пыли. Для этого рекомендуется использовать баллончики со сжатым воздухом. Особое внимание стоит уделить кулерам.
     
  3. Индикация. Визуально осмотреть сервер — если какой-либо из аппаратных компонентов работает со сбоем, можно увидеть горящую красную лампочку. Чаще всего выходят из строя жесткие диски. Необходимо вовремя заметить проблему, чтобы успеть выполнить замену комплектующих и избежать потери данных.
     
  4. Серверное помещение. В помещении, где находится серверное оборудование, должна быть невысокая температура воздуха — следите за работой системы кондиционирования. В помещении должно быть чисто.
     

2. Обслуживание программного обеспечения

Человек с ноутбуком в серверной

  1. Установка обновлений. Они содержат исправления критических ошибок, а также новые возможности. Правильно, сначала устанавливать обновления на тестовом сервере, чтобы проверить их корректность. В противном случае, можно навредить системе.
     
  2. Проверка безопасности. Включает поиск обновлений безопасности системы и их установку. А также поддержание актуальности антивирусных баз и запуск сканирования на вирусы (желательно одноразовым антивирусом, например CureIt).
     
  3. Чтение системных журналов (логов). Самый лучший способ устранить проблему — не допустить ее. С помощью журналов можно отследить все ошибки и предупреждения, которые происходят в системе и предотвратить серьезные последствия. Необходимо обратить особое внимание на системные логи и сообщения критически важных приложений.
     
  4. Выполнение оптимизации. Во время обслуживания сервера, необходимо просматривать счетчики производительности для поиска процессов, которые перегружают систему. Также необходимо чистить систему от временных файлов, выполнять дефрагментацию диска и его логическую проверку.
     
  5. Проверка состояния жестких дисков. Дисковые накопители, по двум причинам, являются одним из важнейших объектов проверки — во-первых, на них самое ценное — данные, во-вторых, они часто выходят из строя. Необходимо проверять состояние поверхности диска с помощью специализированных утилит, например HD Tune.

Windows и Linux — в чем разница поддержки

Как правило, принципиальных различий в обслуживании серверов на базе Windows и Linux нет. Отличаются только команды, инструменты и их внешний вид. В Windows больше работаем мышкой, в Linux — клавиатурой.

Вот небольшой список различий, на которые стоит обратить внимание:

  • Linux нужно реже перезагружать после установки обновлений. Это важно учитывать для Windows и обновлять систему в нерабочее время.
  • Системы на базе Linux меньше подвержены вирусным атакам и взломам. Однако не стоит расслабляться — вирусы все-таки есть и предусмотреть это стоит. Таким образом, не стоит исключать из регламента антивирусную проверку — просто в системах Windows это нужно делать почаще.

3. Как принять в обслуживание сервер

Процесс передачи сервера

В независимости, передал ли сервер другой специалист или Вы его видите впервые, действия должны быть следующие:

  1. Для доступа к системе получаем логин и пароль и меняем последний. Также не лишним будет сменить пароли всем учетным записям с привилегиями администратора. Если данных для авторизации нет, необходимо выполнить сброс пароля.
     
  2. Выполняем аудит ранее установленного программного обеспечения. Если обнаружено ПО для удаленного управления, удаляем или меняем данные для аутентификации.
     
  3. Проверяем планировщик заданий (в Windows) и cron (в системах на базе UNIX). Изучаем, что именно запускается и отключаем все лишнее и противоречащее безопасности.
     
  4. Выполняем действия по обслуживанию аппаратной и программной частей, описанные в данной инструкции выше (1-й, 2-й пункты).
     

4. Мониторинг и резервное копирование

Мониторинг и проверка резервных копий

Две неотъемлемые составляющие профессионального подхода к обслуживанию серверов.

Мониторинг

Рекомендуется использовать выделенную систему мониторинга, при использовании 10 серверов и более.

В первую очередь, необходимо мониторить сетевую доступность оборудования. Если мониторинг позволяет, также стоит проверять статусы служб, коды ответов на запросы, наличие свободного дискового пространства.

Резервное копирование

В рамках периодического обслуживания сервера, важно проверять своевременное создание резервных копий, но что важнее — возможность восстановить из них данные.
 

5. Составление регламента

Регламент по обслуживанию серверов

Для профессионального обслуживания серверного оборудования, необходимо заранее оговорить порядок проведения работ, другими словами — составить регламент. Он должен включать перечень выполняемых операций и частоту их выполнения. Также, в документе можно прописать скорость реагирования на возникающие проблемы.

Пример регламента для обслуживания серверов

Описание работ Периодичность
Тестирование ИБП 2 раза в год
Чистка от пыли 2 раза в год
Проверка состояния (индикации) 1 раз в месяц
Проверка серверного помещения 1 раз в месяц
Проверка обновлений безопасности 1 раз в неделю
Проверка обновлений системы и программного обеспечения 1 раз в месяц
Чтение журналов системы 1 раз в месяц
Чистка диска от временных данных 2 раза в месяц
Выполнение дефрагментации накопителей 4 раза в год
Проверка целостности дисковой системы 1 раз в квартал

6. Удаленное обслуживание

Удаленная поддержка и обслуживание сервера

При таком варианте поддержки не получится выполнить задачи 1-о пункта. В таком случае есть три варианта:

  1. Заказчик обслуживает оборудование собственными силами.
     
  2. Исполнитель организовывает командировки.
     
  3. Исполнитель находит подрядчика для выполнения работ по обслуживанию оборудования.

Дмитрий Моск — частный мастер

Был ли полезен этот ответ?

Да            Нет

Джейкоб Акерман, технический директор ЦОДа SkyLink, утверждает, что:

“Серверы, расположенные в правильно обслуживаемом дата-центре, никогда не должны открываться для очистки даже после 5-7 лет использования”.

Но далеко не все серверы работают в ЦОДах. Иногда они располагаются в обычных бытовых помещениях, иногда в импровизированных серверных, где чистоту и влажность воздуха сложно поддерживать в идеальных диапазонах. По той же причине мы периодически чистим свои ПК, а иногда и ноутбуки.

В 2009-ом году был опубликован отчёт, в котором говорится, что если не удалять пыль регулярно, то рабочая температура электроники может повыситься на 16.5°C, что в конечном итоге может способствовать отказу оборудования.

 При этом даже дата-центры не гарантируют стопроцентной чистоты. Однажды компания Spec-Clean, занимающаяся чисткой ЦОДов, разобрала и почистила 500 совершенно новых серверов, после инцидента с разлетевшимся повсюду строительным мусором.

Общие положения

Важно понимать, что уникального регламента нет. Новые серверы в ЦОДах требуют меньше внимания, чем старые в плохо оборудованных серверных. Серверы отличаются как конфигурациями, так и внутренней архитектурой в зависимости от поколений и вендоров. Во многих серверных количество оборудования нарастает со временем, а значит надо учитывать, когда сервер был введён в эксплуатацию. Поэтому за основу берётся комплекс базовых мероприятий, который адаптируется под частные случаи.

 Пример, как не забыть периодичность обслуживания конкретных серверов.

ТАБЛИЦА №1. РЕГЛАМЕНТНОЕ ОБСЛУЖИВАНИЕ СЕРВЕРОВ.

№ сервера, название

Наименование услуги

Введение в эксплуатацию

Последнее обслуживание

Периодичность

1. LENOVO X3550

Осмотр, профилактическая чистка, замена термопасты.

14.12.2017

14.12.2019

 1 раз в 2 года

2. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

06.04.2018

06.04.2020

 1 раз в 2 года

3. HP DL180 Gen10

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

 1 раз в 2 года

4. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

 1 раз в 2 года

Поскольку сервер – это программно-аппаратный комплекс, то ваш личный полноценный регламент должен затрагивать обслуживание и железа и софта. Но в этой статье мы рассмотрим техническое обслуживание (ТО) только аппаратной части. Несмотря на различия у производителей, фундаментально аппаратная часть во многом устроена одинаково.

ТАБЛИЦА №2. ПЕРИОДИЧНОСТЬ И ВИД РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ СЕРВЕРА.

ПРИМЕЧАНИЯ!

Периодичность проверки.

A – каждый день.

B – раз в полгода, год или два*.

 * Зависит от того, как часто вы решили разбирать сервер для обслуживания. Если к этому подготовились заранее, и есть аналогичный сервер в запасе (а лучше – работающий кластер, в котором отключение одного сервера не прерывает работу), а сервер работает не в самой чистой серверной, то проводить обслуживание можно почаще. Если же ваш сервер стоит в ЦОДе с фильтрацией воздуха и контролем влажности, то чистка сервера вообще может не понадобиться. Нужно отталкиваться от ситуации.

Вид обслуживания.

П – проверка.

О – обслуживание.

Ч – чистка, продувка.

З – замена.

Нештатные ситуации.

Помимо плановых процедур с комплектующими могут возникать нештатные ситуации. В таком случае обслуживание проводится по мере необходимости в ближайшее время.

ЧТО ОБСЛУЖИВАЕТСЯ

 ПРИМЕЧАНИЕ 

A

 B 

Расходники (термопаста, батарейки, аккумуляторы и т.д.)

1

     П     

З

Корпус

Ч

Блок питания

2

Ч

Вентиляторы охлаждения, радиаторы

Ч

Дисковые корзины

3

Накопители

4

П

Ч

ОЗУ

Ч

Материнские платы

П, Ч

CPU, GPGPU (если имеется)

 П, О, Ч 

PCIe-платы, райзеры и другие платы

П, Ч

1. Замена расходников всегда происходит по необходимости. Пока сервер работает, невозможно визуально определить, набухли ли аккумуляторы на контроллере. Если что-то пошло не так, то софт об этом скажет – тогда и делаем замену. Поэтому важна ежедневная проверка журналов.

2. Самостоятельный разбор БП может привести к будущим коротким замыканиям, пожарам и выходу из строя всего сервера. Внутренняя компоновка серверного БП очень плотная, поэтому его обслуживание ограничивается продувкой.

3. Чистку дисковых корзин лучше делать по мере необходимости, так как бывает, что всё работает, но если достать диски и снова вставить – перестаёт. Тот случай, когда работает – не трогай.

4. Накопители выходят из строя достаточно часто. По данным нашего сервисного – это 12% от всех гарантийных случаев у клиентов. Или 0,048% (≈ 1 сервер из 2000) от всех отгрузок за 2020 год. RAID-контроллер постоянно анализирует диски и сигнализирует о прогнозируемом сбое задолго до его возникновения. Поэтому ваша задача – как можно быстрее заменить проблемные комплектующие.

ТАБЛИЦА №3. КАТЕГОРИИ РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ В СЕРВЕРЕ.

Часть комплектующих может обслуживаться на горячую, без прерывания работы сервера, но если на сервере запущены критические приложения, то правильнее будет остановить работу для любого обслуживания, чтобы избежать сбоев. Это в меньшей степени касается накопителей и в большей — блоков питания. 

Обслуживание / замена на горячую

Элемент

Примечание

Накопитель

Требуется предварительная подготовка. (см. подготовка перед заменой диска в массиве при прогнозируемом сбое..)*

Блок питания

Обслуживание / замена на холодную

Элемент

Примечание

Батареи на платах

Если журналы IPMI указывают на неисправность батарей, замените их.

Вентиляторы

Модули ОЗУ

GPGPU, CPU

PCIe-платы, райзеры и другие

Материнская плата

Перенесите конфигурацию системы PROM (англ. Programmable Read-Only Memory, программируемое ПЗУ, ППЗУ) на новую материнскую плату.

Backplane плата дисковой корзины

Оптический привод

Всё остальное

*Подготовка перед заменой диска в массиве при прогнозируемом сбое.

Процедура отличается у разных вендоров и разного оборудования, поэтому рассмотрим общие принципы.

1. Основная причина прогнозируемых сбоев — на дисках появляются повреждённые секторы (не читающиеся). Сисадмины в разговорно называют их „бэды“ от англ. bad sector. Есть несколько причин их появления.

    • Программные. Код, корректирующий ошибки записи, не соответствует содержимому кластера.

    • Физические. Чаще всего происходит износ жёсткого диска после интенсивной эксплуатации. Это касается и HDD и SSD. Реже, но критичнее:  производственный брак, механическое повреждение, попадание воздуха и пыли в корпус и т.п.

2.  Когда дисковый контроллер обнаруживает сбойные секторы, он присваивает диску в массиве статус “Прогнозируемый сбой”, но не отключает его. Это лишь предупреждение, что вероятность сбоя увеличилась и диск требует немедленной замены.

3. Перед физической заменой диска его нужно безопасно исключить из RAID-массива, присвоив статус “Автономный режим”. Для этого у вендоров зачастую есть специальный софт. Например, у Dell — пакет управления Modular Disc Storage Manager (MDSM). По ссылке можете ознакомиться подробнее.

Этапы обслуживания сервера:

1.  Подготовка рабочего места и необходимого оборудования.

2. Отключение и демонтаж сервера из стойки.

3. Обслуживание.

4. Сборка, тестирование и установка сервера в стойку.

1) Подготовка рабочего места и необходимого оборудования.

Обслуживание сервера – процесс, требующий остановки оборудования, аптайм которого должен стремиться к бесконечности. Лучше подготовить всё необходимое заранее, чтобы сократить время простоя.

Чистое просторное место.

Серверная или ЦОД – это места, где работают серверы. Если выдувать пыль внутри, то она снова попадёт в оборудование. Подумайте заранее о месте, где будете работать. Да, можно всё делать в темноте на коленях или на полу, но зачем, а главное, для чего?

    • Помещение.

      По нашему опыту минимальные размеры стола и пространства вокруг него – (Ш х Г) 1500 х 700 мм и проходы минимум по 600 мм.

       1500 + 600 + 600 = 2700 мм – одна стена. 700 + 600 = 1300 мм – другая стена. Получаем минимальную комнату в 3,51 м². Но мы же не чулан для Гарри Поттера подготавливаем, так что лучше выбирать помещение побольше. Я бы советовал не меньше 1 метра от стола, а это уже около 6 м² — минимум.

    • Фильтрация воздуха. В идеале в сервисном помещении должны быть хорошая циркуляция и фильтрация воздуха, так как при обслуживании серверного оборудования пыль будет неизбежно подниматься вверх, а потом снова оседать. Лучше всего использовать комплекс из фильтров грубой и тонкой очистки + вытяжку прямо над столом.

       

    • Да будет свет. Нужно организовать общий рассеянный свет с достаточной яркостью. Если над столом организован локальный свет, то он не должен мешать работе мастера – без резких теней и избыточной ослепляющей яркости. Для определения точных характеристик можно ориентироваться на свод правил СП 52.13330.2016 (таблица 4.1, стр. 19).

Уберите всё лишнее и отвлекающее.

У вас есть местный корпоративный котик? Вокруг рабочего места заставлены проходы, из-за чего можно споткнуться или удариться? Убираем всё лишнее на время работ. Будет очень печально, если в ответственный момент вы дернете рукой с отверткой и повредите материнскую плату. Самое частое – повреждение контактов в сокете.

Что может понадобится?

Всё необходимое (конкретно для этого обслуживания) удобно расположите под рукой, чтобы не бегать в поисках: термопасту, набор отверток или одну со сменными битами, этиловый спирт, баллончик для выдува, кисточки и т.д. 

    • Органайзер для мелочей. Все теряли болты, винты, саморезы и прочее при сборке мебели – мелочь, а неприятно. Но мы обслуживаем серверы, а не мебель ИКЕА, а значит ничего лишнего или недостающего оказаться не должно. Органайзер стоит недорого, а экономия нервов и времени на поиск упавшего со стола болтика – колоссальная. А если ещё подписать и пронумеровать ячейки, то вы никогда не ошибётесь, что и в какой момент использовать при сборке.

      Если по каким-то причинам его нет, то можно использовать обычные зип-лок пакеты, их потерять намного сложнее, чем различную мелочь по отдельности. Дёшево и сердито. 

    • Антистатический коврик. Есть варианты с отделениями для мелких деталей. Это одновременно закроет вопрос с органайзером, но не так надёжно. Подобные коврики помимо антистатических свойств зачастую устойчивы к высоким температурам (можно паять), не скользят и долговечны.

      Также есть и напольные коврики, которые не только снимают статику, но и защищают людей от электрических разрядов. Бахнуть током не должно и так, но техника безопасности есть техника безопасности. Для этого даже разработан СП 29.13330.2011 для полов, в котором закреплены требования по удельному объемному электрическому сопротивлению (Rv) и по удельному поверхностному электрическому сопротивлению (Rs).

       

    • Антистатический браслет. Ещё одной антистатической мерой может стать браслет. Он не даст электростатического разряду (ESD) и электрическому напряжению (EOS) повредить оборудование. Профессиональные столы имеют клеммы заземления, но если у вас обычный стол, то можно подключить браслет к корпусу сервера или антистатическому коврику. В кругах сисадминов обычно пренебрегают антистатическими браслетами — не буду комментировать этот момент, но в нашем регламенте браслет нужен.

WARNING! Ремешок должен плотно прилегать к коже, а провод не должен мешать работе. Не подключайте клипсу к окрашенным и неметаллическим поверхностям. Иначе браслет станет гиковским аксессуаром.

    • Термопаста. От качества термопасты зависит теплообмен между радиатором и процессором. Отсюда все вытекающие. Берите хорошие термоинтерфейсы с высоким уровнем теплопроводности. Мы используем Arctic MX-4 c 8.5 Вт/(м·K), не реклама, но если вы из Arctic, готов стать амбассадором :)

      Главное – не наткнитесь на подделку и не забудьте лопатку или пластиковую карту, чтобы распределить термопасту равномерно. Мазать пальцами нинада.

       

    • Абсолютированный изопропиловый спирт 99+% (WARNING – не внутрь! Вкус не очень, а отравление и ожоги отличные. Даже нюхать не надо). Спирт хорошо подходит, чтобы обезжирить и очистить загрязнения или легкую окись с поверхности и контактов процессора, памяти и других комплектующих. Используется для очистки загрязнений и обезжиривания контактов.

       

    • Текстильные безворсовые салфетки. Ткань из микроволокна по свойствам и характеристикам отлично подходит для протирки электроники. Главное, чтобы салфетки были мягкими, прочными, антистатическими и не оставляли после себя ворсинок.

      Салфетки,CLEANROOM WIPERS 

      Также можно использовать влажные салфетки для сбора пыли с поверхностей (крышка сервера), очистки термопасты и т.д. Принцип аналогичен – безворсовые с антистатическим эффектом. 

       

    • Отвертки. У разных вендоров разные типы головок крепежей. Для одних серверов достаточно крестовой отвертки, для других понадобится комбинация нескольких. Поэтому самым удачным выбором станет отвёртка со сменными битами – в серверной никогда лишней не будет. И лучше иметь ещё одну с длинным стержнем.

      Подобного набора должно хватить. Несколько бит находились в работе :)  

    • Кисточки и щётки. Также полезный инструмент, чтобы очистить сервер от накопившейся пыли. Покупайте антистатические варианты разных размеров и жёсткости, чтобы эффективно избавляться как на больших поверхностях, так и в труднодоступных местах. Щетка от вашего триммера не подойдет.

    • Пневматический очиститель для продувки труднодоступных мест.  Ассортимент пневматических очистителей в магазинах большой. Неплохая альтернатива дорогим пылесосам и воздуходувкам, если над столом стоит хорошая вытяжка. Нам подойдут баллончики с антистатическим эффектом и высоким давлением, предназначенные для электроники.

    • Или сервисный пылесос — идеальный вариант.

      Сервисные пылесосы с антистатическими шлангами создавались специально для обслуживания профессионального оборудования, а потому минимизируют риск его повреждения. Они мощные, компактные, отлично фильтруют пыль и легко переносятся. Бытовые пылесосы и воздуходувки – не самый лучший вариант, в них нет статического электричества и нужной нам фильтрации.

      Например, Atrix VACOMEGASLFH Omega 

      Такие пылесосы используют для профилактической очистки ЦОДа или серверной. Устанавливаемый HEPA-фильтр имеет эффективность 99,97% для частиц от 0.3 мкм. Из минусов – высокая цена. Во многих дата-центрах регламент запрещает уборку без HEPA-фильтров.

2) Отключение и извлечение сервера из стойки.

WARNING! Есть риск повреждения оборудования, а также ваших ног/рук и других продолговатых конечностей. Серверное оборудование может весить больше, чем кажется на первый взгляд. Заранее уточните массу сервера. Чтобы избежать травм, демонтируйте и переносите оборудование вдвоём. Даже если вы на практике знаете, что такое становая тяга, БЦАА и углеводное окно

Перед началом работ уведомите пользователей, которых затронет остановка, что сервер вскоре отключат на обслуживание. Будет очень неприятно, если важная работа внезапно встанет.

1. Подготовка к обслуживанию.

    • Наденьте антистатический браслет на запястье (если есть в серверной). Если браслета нет, снимите статику другим способом. Например, прикоснитесь к заземленному оборудованию.

    • Если выключение вынужденное, вы можете запустить диагностику перед выключением, проверить состояние сервера и логи.

    • Сохраните необходимые файлы и закройте активные программы.

    • Завершите работу ОС и сервера.

2. Отключите кабель(и) питания.

3. Отключите всю периферию и оборудование.

4. Извлеките сервер из стойки.

    • Вытяните сервер в положение „для обслуживания“.

    • Разблокируйте рельсовые фиксаторы.

    • Снимите антистатический браслет (если есть).

    • Спереди потяните сервер, пока он не выйдет из стойки.

5. Перенесите сервер на заранее подготовленное рабочее место.

    • Запланируйте маршрут до места заранее, откройте необходимые двери и т.д., так как лишней руки может не оказаться.

    • В идеале упаковать сервер в пузырчатую плёнку с антистатическими свойствами.

    • Переносите оборудование вдвоём. Это поможет избежать ударов и падений. Это касается не только сервера, но и вас.

    • Для переноса лучше использовать прорезиненные перчатки, чтобы сервер случайно не выскользнул из потеющих рук.

    • Не переворачивайте сервер вверх ногами. Это не смертельно, но нежелательно. Некоторые компании, например Sun, устанавливает специальные датчики наклона и встряски в ящики с серверами. А переворот ведёт к потере гарантии. Всё, чтобы дорогостоящее оборудование не повредилось.

3) Обслуживание.

WARNING! Перед началом работ убедитесь, что сервер обесточен. Человек – отличный проводник.

WARNING! Печатные платы и другие комплектующие состоят из транзисторов и интегральных схем, которые чрезвычайно чувствительны к статическому электричеству. Обычное прикосновение одеждой или рукой может привести к повреждениям или к выходу оборудования из строя. Прочитайте

руководство

по работе с чувствительными к статическому электричеству комплектующими.

WARNING! Сервер, который находился под нагрузкой, может оставаться горячим ещё некоторое время после отключения. Избегайте контакта, если не хотите золотистой корочки на руках.

Самое сложное позади :) Сервер на столе перед вами, готовый ко всему. Под рукой предварительно подготовленные инструменты и икона Гейба Ньюэлла, а значит можно приступать к обслуживанию, пока сервер ещё тёпленький.

a.     Разборка.

У разных вендоров крышка снимается по-разному. На одних серверах нужно вставить пальцы под защёлки, поднять их и снять крышку.

 На других защёлка может быть одна.

На некоторых это могут быть замок и кнопки.

В целом, всё интуитивно понятно. Если возникнут сложности, всегда можно заглянуть в инструкцию к конкретной модели (иногда она прямо на крышке). Найти мануал в интернете – дело одной минуты. 

Когда вы сняли крышку, сразу же протрите пыль (но не над сервером!), чтобы не забыть это сделать на этапе сборки. Потом поставьте в безопасное место рядом со столом – не стоит класть крышку на стол, так как можно случайно уронить её и повредить. Запаски в комплекте нет.

b.     Чистка.

Перед дальнейшей разборкой сервера нужно провести первичную очистку. Если у вас сервисный пылесос, то вперёд. Если кисточки, то очищайте пыль, стараясь собирать её, а не поднимать в воздух.

c.     Осмотр.

Далее внимательно проводим визуальный осмотр. Самое время проверить все интерфейсы, платы, аккумуляторы, радиаторы, модули памяти, лопасти вентиляторов, воздуховоды и материнскую плату.

С конденсаторами в современных серверах практически никогда не бывает проблем. Наши мастера по гарантийному ремонту и сборке последний раз видели набухший конденсатор лет 10 назад. Но всё же стоит знать врага в лицо, как выглядит набухший из-за выкипания или испарения электролита конденсатор, так как это приведёт к отказу оборудования. Лотерею же кто-то выигрывает, в конце концов.

Слева направо – от нормального состояния до набухшего

P.S. Если вытекший электролит попал на любую печатную плату, сервер это или нет, то всегда очищайте загрязнение спиртом или другими средствами. Не стоит самостоятельно пытаться перепаивать конденсаторы, если вы не обладаете нужными знаниями, навыками и оборудованием. Для этого существуют сервисные центры.

d.     Снятие всех комплектующих.

Для того, чтобы провести качественное обслуживание и дополнительную чистку, нужно разобрать сервер, отсоединив все комплектующие: воздушную перегородку, вентиляторы, радиаторы, платы, планки RAM, GPGPU, CPU и т.д.

e.     Тщательная чистка.

WARNING! Изопропиловый спирт отлично очищает и обезжиривает поверхности, а также безвреден для электроники. Но саму протирку нужно проводить предельно аккуратно, чтобы механически не повредить оборудование.

Учтите, что попадание спирта внутрь организма вызывает отравление и ожоги. В том числе через слизистые глаз.

Остаточную пыль со всех элементов нужно ещё раз продуть баллончиком или пропылесосить. Такие комплектующие, как БП или GPGPU, лучше продувать подальше от сервера, чтобы пыль снова не оседала на него.

После нужно протереть контакты процессора (без резких движений, ковбой, дёрнешься и процессор — труп), различных плат салфеткой, пропитанной изопропиловым спиртом. Термопаста, если профи до вас выдавил от души, может оставаться как на контактах CPU, так и на контактной базе материнской платы. Разумеется, в таком виде оставлять нельзя.

f.     Замена вышедших из строя комплектующих и расходников.

Если что-то вышло из строя (или есть предпосылки), то замените неисправные комплектующие и расходники на новые. 

Замена батареек и аккумуляторов – простейшая процедура, не требующая профессиональных навыков. Однако расположение элементов на платах может отличаться в зависимости от моделей и вендоров, поэтому, если меняете впервые на незнакомом оборудовании, лучше изучите техническую документацию

g.     Нанесение термопасты.

WARNING!Металлическая крышка и контакты процессора должны быть хорошо очищены и обезжирены. Термопасту нужно наносить очень тонким слоем и равномерно распределять, чтобы она покрывала всю поверхность крышки.

WARNING!Не используйте термопасту повторно, если отсоединили радиатор от термораспределителя процессора. Это может привести к появлению пузырьков воздуха и значительному ухудшению охлаждения.

Если вы анализируете показатели работы сервера, то через определённое время (зависит от нагрузок, условий эксплуатации и качества термопасты) заметите увеличение рабочих температур CPU и GPU. Отклонения могут быть всего в несколько градусов, но это первый звоночек, что пора обновить термопасту. 

Тут пара советов. Если вы отключаете сервер на профилактику каждые полгода, то менять качественную термопасту вряд ли понадобится. Что уж там, в хороших условиях она может прослужить несколько лет. Поэтому анализируйте нагрузки и показатели, а чтобы не доводить ситуацию до вынужденной остановки, меняйте термопасту при профилактических остановках. 

Если рассмотреть крышку процессора под микроскопом, то на поверхности можно увидеть неровности и ямки. А воздух, как известно, плохой проводник тепла. Главная задача термопасты – заполнить эти неровности и осуществлять теплообмен между радиатором и процессором.

Если говорить о цифрах, то слой должен быть совсем небольшой: 0,5-1 мм. Замерять линейкой не нужно, визуально поверхность процессора будет слегка видна через такой слой.

Процесс нанесения термопасты на примере Dell PowerEdge R740 Rack Server. На других сокетах процесс может отличаться.

1. Снимаем радиатор.

2. Устанавливаем заглушку в сокет.

3. Аккуратно отсоединяем процессор от радиатора, повернув отвертку вдоль своей оси.

4. Кладём процессор на безопасную подложку.

5. Удаляем старую термопасту с CPU и радиатора салфеткой, пропитанной изопропиловым спиртом.

6. Равномерно наносим новую термопасту и распределяем по поверхности.

7. Соединяем процессор с радиатором и устанавливаем в сокет.

Перед закреплением с материнской платой убедитесь, что снаружи не появилось избытков термопасты. Иногда для этого очень кстати камера телефона или стоматологическое зеркало. Если избытка много, значит вы нанесли слишком толстый слой. Пробовали когда-нибудь очистить залитый сокет?

Также из-за избытка термопасты рамка может не зафиксироваться на радиаторе, и тогда процессор при установке может упасть на сокет. А это уже смерть материнской плате и, возможно, процессору. Ещё один неприятный сценарий может возникнуть, если вам удалось зафиксировать это безобразие и возник перекос процессора. Избыток термопасты не даст процессору встать правильно в рамке и в сокете, а когда вы начнёте прикручивать винты крепления, может надломиться угол процессора. 

Чтобы не допустить поломок, нужно повторить всё с шага №3.

Если же вы всё сделали правильно, то термопаста почти не будет вытесняться с краёв, а крышка процессора будет плотно и равномерно прилегать к радиатору.

h.     Соберите сервер и запустите диагностику.

ATTENTION! Не запускайте самодиагностику в том же месте, где чистили сервер от пыли. Если воздух в помещении не фильтруется (или не успел профильтроваться), то это приведёт к попаданию пыли внутрь оборудования. В таком случае лучше тестировать сервер в серверной или ЦОДе.

Здесь всё просто: устанавливаем комплектующие в соответствующие слоты и интерфейсы и закрепляем их. Де-факто это обратная процедура от разборки. Но пару слов о том, что может вызвать сложности.

    • Установка процессора.

      Сокеты CPU могут отличаться. А как следствие – методы установки процессоров разные. Чтобы узнать, какой сокет у вас, нужно зайти на сайт Intel и найти свою модель.

      https://ark.intel.com/content/www/ru/ru/ark.html#@PanelLabel595

        Далее открыть окно со спецификациями и найти соответствующий пункт.

      После этого переходите на другую страницу и смотрите подробную инструкцию по установке процессора. Или же сразу переходите на этот пункт, если знаете сокет.

      https://www.intel.ru/content/www/ru/ru/support/topics/desktop-server-processor-installation.html

    • Установка планок ОЗУ.

       Часто в серверах используются не все разъемы под память, как на фото выше. В таком случае лучше использовать специальные заглушки, чтобы циркуляция воздуха внутри была равномерной. Даже если вы устанавливаете заглушки, а не память, фиксаторы с боков должны полностью закрываться – до щелчка. Я же знаю, что вы всё равно будете переворачивать сервер при переносе :)

      Черные заглушки. Красным выделены фиксаторы. 

    • Если вы впервые в жизни разбирали сервер для профилактики, то можете фиксировать сложные и непонятные моменты на камеру, чтобы при сборке в точности повторить процедуру в обратном порядке и ничего не перепутать.

    • Наконец сервер собран, но прежде чем запускать ОС и вводить сервер в полноценную работу, нужно запустить встроенную самодиагностику POST (Power-On Self-Test). Она позволит проверить аппаратное обеспечение и понять, всё ли работает, правильно ли подключены комплектующие, не было ли что-то повреждено при обслуживании.

      Важно, что встроенные утилиты самодиагностики берут данные из датчиков, а потому могут выявлять неполадки на аппаратном уровне, которые пропустит ОС и сторонний софт.

      У всех вендоров утилиты реализованы по-разному, а процедура тестирования зависит от поколения сервера. Детальную инструкцию можно найти на сайте вендора.

      Hardware Diagnostics от Dell

      4) Установка в стойку и возврат сервера к работе.

      Когда всё необходимое в сервере заменено, а комплектующие очищены от пыли и протестированы инструментами самодиагностики, можно выпить пива
      похвалить себя за проделанную работу и вернуть сервер в работу.

      1. Подготовка к работе.

        • Принесите сервер вдвоем в серверную или ЦОД.

        • Снимите статику.

        • Установите сервер в рельсы (желательно вдвоём).

        • Заблокируйте рельсовые фиксаторы.

        • Медленно задвиньте сервер внутрь стойки.

      2. Подключите всю периферию и оборудование.

      3. Подключите кабель(и) питания. (ПРИМЕЧАНИЕ: Сразу после подключения кабелей на сервер может пойти питание с ИБП. В зависимости от преднастроек ПО сервер может автоматически запуститься).

      4. Запустите сервер.

        • Автоматически при включении.

        • Удалённо через IPMI.

        • На месте через кнопку питания.

    WARNING! Эксплуатируйте сервер только со всеми вентиляторами, радиаторами, воздушной перегородкой и установленной крышкой. Неправильная работа системы охлаждения может привести к серьезным нарушениям и поломкам оборудования.

    Регламент должен быть

    Серверы во многом напоминают работу авиации – всё должно быть проверено, отточено, продублировано и отшлифовано до блеска. Авиадиспетчер не может прекратить работу из-за того, что выключился свет в аэропорту; сотни самолётов не станут ждать в небе. Также и банк не может ждать, пока кто-то придёт и починит серверную инфраструктуру, на которой всё держится. Потенциальные потери, как денежные, так и репутационные, несоизмеримы с затратами на превентивные меры. 

    Поэтому любой технике — инопланетному Мегатрону-3000 или обычному серверу за 50 т.р. — требуется обслуживание, профилактика и ремонт. Вы бы полетели через Тихий океан на Боинге 747-100, который не был на обслуживании несколько лет? Для бизнеса ситуация с серверами аналогичная. 

    Надеюсь, что этот регламент будет полезен и станет базой для вашего собственного. Если вы считаете, что что-то забыто или стоит дополнить какой-то момент – welcome в комментарии. 

    И напоследок хочется добавить, что всегда можно улучшить среду, в которой сервер работает: специальные серверные шкафы для неблагоприятных условий, фильтры воздуха, кондиционеры с контролем температуры и влажности, регулярная уборка ЦОДа или серверной (главное, без уборщицы с мокрой шваброй или бытовым пылесосом!). И тогда не придётся отключать сервер только для чистки, скорее чистка станет сопутствующей процедурой при обслуживании сервера.

Как часто, насколько тщательно и в каком режиме обслуживать сервера на colocation — зависит от количества, возраста и типа оборудования. Здесь как с техникой: регламент техобслуживания трехлетнего Hyundai Solaris один, а у годовалого YAMAHA FJR1300AE совсем другой. Но если усреднить, всю программу обслуживания серверов можно свести к простому списку рутинных операций.

Структура обслуживания 

Сервер — это комплекс программного обеспечения, работающего на аппаратной части. Соответственно, в обслуживание сервера включается техническое обслуживание (ТО) «железа» и поддержка программной составляющей. Начнем с «железа»:

  1. Очистка от пыли. У нас в машзалах настелены антистатические полы, на системе приточной вентиляции установлены фильтры, а уборка проводится ежедневно. Но пыль вездесуща и, рано или поздно, она забивается в зазоры и оседает на контактах. Тотальную чистку оборудования от пыли в среднем проводят 2 раза в год. В остальное время можно ограничиться визуальным контролем и ситуативными мерами.

  2. Контроль индикаторов и замена комплектующих, требующих вскрытия корпуса. Чаще всего из строя выходят жесткие диски, но состояние выработавших ресурс RAM и процессора также может потребовать замены.

  3. Проверка портов. Безопасности много не бывает, поэтому неиспользуемые открытые порты нужно время от времени просматривать на предмет посторонних подключений.

  4. Внешний и внутренний осмотр, оценка температурных параметров.

Проверка аппаратной части

Проверка аппаратной части

В программной части работы не меньше:

  1. Обновление системы. Наша многолетняя практика показывает, что автоматические обновления не всегда устанавливаются чисто. Принудительная установка позволяет сначала проверить их корректность на тестовом сервере.

  2. Плановая перезагрузка. В процессе чистятся логи и завершают работу фоновые задачи, невыполненные из-за сбоя.

  3. Проверка безопасности, включая сканирование системы и выявление скрытых заражений.

  4. Контроль корректности резервного копирования. Сбои происходят везде, даже в системе резервного копирования. Чтобы точно знать, что в запасе есть рабочая копия, регулярно проверяйте, делаются ли копии, правильно ли сохраняются, в нужном ли объеме. В этом же блоке работ имеет смысл проводить тестовое восстановление резервных копий и баз.

  5. Чистка диска от временных файлов. Эта регулярная операция поддерживает системный диск в чистоте и освобождает место под нужные данные.

  6. Отслеживание ошибок по журналу логов. По записям можно узнать о проблемных местах сервера и предотвратить возникновение критических ошибок, вместо того, чтобы впоследствии устранять их.

  7. Контроль систем мониторинга. Мониторинг снимает массу рутинной работы с администратора, но излишнее доверие системе может привести к излишнему потреблению ресурсов сервера. Дело в том, что система не всегда успевает вовремя отреагировать на изменение ситуации и здесь нужен только личный контроль: просмотр отчетов потребляемых ресурсов, поиск критических точек, анализ тенденций.

Большая часть этих работ проводится с периодичностью раз в месяц, но чем больше серверный парк и чем масштабнее проект, тем чаще оборудование требуется контролировать и обслуживать.   

Обслуживание сервера по регламенту

Обслуживание сервера по регламенту

В идеале под обслуживание серверов составляется инструкция или регламент. Регламент может быть большим или сжатым, детально прописанным или общим — не важно. Важно, чтобы он стал опорным пунктом для любого, кто столкнется с администрированием вашего оборудования.

Понравилась статья? Поделить с друзьями:
  • Понятие руководства в малой группе
  • Инструкция к жизни от тибетских мудрецов 26 истин
  • Нииэфа санкт петербург руководство
  • Как разводить сухое молоко для телят инструкция по применению
  • Кофемашина jura z10 инструкция по эксплуатации