Иногда самые упрямые баги выглядят почти мистически: блок питания включается, индикаторы на плате горят, IPMI отвечает… а дальше — тишина. На форуме ServeTheHome пользователь пытается реанимировать купленную на eBay серверную материнскую плату Supermicro X11DPI-N, но упирается в типичную для «уставшего» железа проблему: плата ведёт себя так, будто процессора в сокете вообще нет.
История началась с попытки восстановить плату из категории «почти e-waste». При выправлении контактов в сокете CPU1 несколько пинов всё-таки сломались — рядом с зонами, где изгиб был сильнее всего. По словам автора, повреждены линии, относящиеся к UPI-сигналам (и пара VSS), а тесты он проводит с одним установленным процессором (CPU1).
Что именно происходит при включении?
Симптомы выглядят пугающе «пустыми»: признаков POST нет, вентиляторы не стартуют, а питание на VRM вокруг CPU1 не приходит (автор отмечает отсутствие 12V на этой части). При этом «дежурка» и логика включения питания срабатывают — загорается on-board power LED возле пинов кнопки питания, то есть плата включает ATX PSU.
Самое интересное — IPMI работает, но в интерфейсе датчиков все сенсоры отмечены как отсутствующие. И здесь всплывает ключевая деталь: похожая картина наблюдается и на другой, исправной плате очень близкой модели X11DPI-NT, если запускать её вообще без процессоров. Из-за этого автор всё больше склоняется к версии, что реальная проблема — не «умерший FPGA/прошивка», а именно отсутствие корректного определения присутствия CPU из-за повреждённых контактов.
Кстати, если вы когда-нибудь путались в том, что скрывается за названиями и классами плат, у меня на сайте есть отдельный разбор про то, как определить класс материнской платы по названию — полезно, когда речь идёт о серверных моделях, где один суффикс меняет половину возможностей.
Главный вопрос: как плата «понимает», что процессор установлен
Автор прямо формулирует то, что интересует многих, кто сталкивался с серверными платформами: какие именно контакты отвечают за определение присутствия CPU и почему при проблемах с детектом плата может даже не дать питание на VRM. Он отдельно отмечает, что «UPI не должен влиять на работу одного процессора», ведь UPI — это межпроцессорные связи, а тестируется одиночная конфигурация.
В попытке разобраться он ссылается на даташит Intel Xeon Scalable (2nd Gen) и ищет там типичные сигналы вроде «presence/detect», но явного ответа не находит. В обсуждении всплывает и типичная логическая дилемма: если процессор не запитан, как он может «что-то сообщить» плате по sense-линиям? Значит, детект должен быть хотя бы частично пассивным — через цепи, подтяжки и «ожидаемые» уровни на линиях.
Отдельный пласт — роль управляющей логики на серверных платах. Автор предполагает, что в отличие от некоторых потребительских решений, где VRM напрямую сидят на 12V, здесь питание VRM может быть «загейтено» логикой на стороне программируемой микросхемы. В его случае речь про Lattice LCMX02 (CPLD/FPGA-логика), и он задаёт практичный вопрос: можно ли перепрошить LCMX02 «на месте» и без установленного CPU — или же цепочка инициализации устроена так, что без корректного определения процессора дальше всё равно не уедешь.
Мне нравится эта ветка тем, что она отлично показывает разницу между «домашним» ПК-мышлением и серверной реальностью: на серверных платах многое завязано на управляемую последовательность включения — и когда один элемент (например, определение CPU) ломается, вся система выглядит мёртвой, хотя часть подсистем (типа IPMI) продолжает жить своей жизнью.
Если вам близка тема прошивок и того, как производители постепенно (или вынужденно) двигаются в сторону более открытых подходов, у меня есть материал про открытые прошивки для серверов — это не про Supermicro напрямую, но контекст «прошивка как точка отказа» там раскрыт хорошо.
А ещё эта история — хороший холодный душ для всех, кто любит «выгодные» покупки с рук: LGA-сокеты коварны, и даже несколько повреждённых пинов могут превратить плату в тот самый «почти рабочий лот», который внешне выглядит идеальным. Впрочем, именно такие кейсы и двигают комьюнити: когда люди документируют симптомы и задают правильные вопросы, потом это экономит часы другим.
Источник: ServeTheHome Forums
Раздел на xalabuda.com: железо




