Эта история о том, как медленно и уверенно могут умирать коммутаторы ZyXEL ES-3124/3124-4F
Несколько экземпляров данного устройства работали на паре-тройке тех.площадок. Трафик порядка 100-200 Mbps, включены как на выносе, так и в кольце(RSTP). Использовалось в таких коммутаторах до 10-ка медных портов, от 1-го до 4-х оптических портов. В принципе все в норме. Несколько лет полет нормальный. И вот случилось то, чему нужно было случится…

В syslog начали сыпаться сообщения следующего содержания:

Oct 20 12:57: 2 3124 system: system voltage has recovered to normal state
Oct 20 12:57:44 3124 system: system voltage has recovered to normal state
Oct 20 13:05:32 3124 system: system voltage has recovered to normal state
Oct 20 13:05:50 3124 system: 1.8VIN voltage value  2.000 is lower than its limit voltage value



Этот же коммутатор включен одним портом в Cisco 3550-12G, потом он был переключен  в Cisco 3560E. И вот что он сыпал в логи, когда были включены какие-то устройства в  порты 1-8 на ZyXEL ES-3124-4F:

Oct 18 14:25:37.182 KVS: %SPANTREE-2-RECV_BAD_TLV: Received SSTP BPDU with bad TLV on GigabitEthernet0/25 VLAN2.
7274: Oct 18 14:26:37.195 KVS: %SPANTREE-2-RECV_BAD_TLV: Received SSTP BPDU with bad TLV on GigabitEthernet0/25 VLAN2.
Oct 18 14:28:37.187 KVS: %SPANTREE-2-RECV_BAD_TLV: Received SSTP BPDU with bad TLV on GigabitEthernet0/25 VLAN2.

где vlan id 2 — это его же менеджмент вилан.

Пишу производителю относительно этих сообщений.
Ответ:

Сообщение говорит о неисправности цепи питания коммутатора. Это конечно влияет на возможность работы коммутатора. Некий запас прочности у устройства есть, поэтому пока оно сохраняет некоторое время свою работоспособность, но вероятность полного отказа высока.
Для диагностики и ремонта коммутатора вы можете обратиться в сервисный центр.


Последнее предложение ничем не удивило: все как обычно в сервисный центр, там заменят все внутренности и отдадут обратно. Наверное сами пока с таким не сталкивались.


Кроме сообщений в логах коммутатора смотрим на статистику ping к устройствам, которые подключены в медные порты.
Устройство №1:
статистика за сутки

за 6 часов:

Устройства №2(проблемный коммутатор):
статистика за 12 часов:

недельный график:

Итак, «видимо что-то случилось» со времени появления в логах сообщения(см. выше).


Прошло немного времени, коммутатор был заменен на аналогичный, только новый. Проблемы с STP и voltage улетучились. На коленках проблемный коммутатор после загрузки сообщал в логи все те же сообщения о «вольтаже», tcpdump с ничего аномального не показал, потерь нет к коммутатору или же через него. Короче, нужно в любом случае отдавать в сервис…