Global HomeLab News: Массовые зависания e1000e на Proxmox 9 (I219-LM): симптоматика и обходной путь

✎

19 мая 2026, 12:02

Global HomeLab News: Массовые зависания e1000e на Proxmox 9 (I219-LM): симптоматика и обходной путь

В сообществе Proxmox зафиксирован повторяющийся сетевой сбой на двух узлах с Intel I219-LM: драйвер e1000e уходит в состояние Detected Hardware Unit Hang, после чего хост теряет стабильную связность. Оба узла работали на Proxmox 9 и одном ядре, а временно восстановить работу удалось отключением offload-функций. Сценарий важен для HomeLab с mini-PC и встроенными Intel NIC, где проблема проявляется не сразу после установки, а спустя дни или недели.

Что произошло

Пользователь сообщил о двух отдельных инцидентах в течение одного дня:
- Узел 1: HP G5 (i7-8700T)
- Узел 2: Lenovo M720 (i5-8500T)
- Оба на Proxmox VE 9, kernel 7.0.2-2-pve
- NIC: Intel I219-LM

Ошибка в логах соответствовала зависанию e1000e (Hardware Unit Hang). После применения обходного решения (отключение сегментационных offload-опций) сетевой стек на узлах стабилизировался.

Технические детали

Паттерн похож на известный класс проблем e1000e на части встроенных Intel NIC:
- сбой TX/RX очередей под нагрузкой или при определённой комбинации фич ядра/драйвера;
- отложенное проявление (не в момент установки, а после накопления трафика/событий);
- временное лечение через отключение offload, что снижает производительность, но повышает предсказуемость.

Практически это означает, что для I219-LM на Proxmox 9 нужно заранее проверить поведение под рабочим профилем трафика (backup, репликация, медиапотоки, VLAN-транк), а не только «пинг после установки».

Риски и ограничения

Отключение offload уменьшает пиковую пропускную способность и может поднять CPU-utilization на узле.
Обходной путь не гарантирует устранение корневой причины драйвера/ядра.
Для production-нагрузки на HomeLab возможны скрытые деградации: рост latency, packet drops, нестабильность бэкапов.
При обновлениях ядра поведение может меняться (как в лучшую, так и в худшую сторону), нужна регресс-проверка.

Практика для HomeLab (чеклист)

Подтвердить симптом в логах
bash journalctl -k -g 'e1000e\|hang\|NETDEV WATCHDOG' --since '48 hours ago'
Критерий: есть повторяющиеся сообщения о зависании интерфейса/очереди.
Зафиксировать текущие offload-настройки
bash ethtool -k eno1
Критерий: сохранён baseline до изменений.
Применить временный mitigation (без перезагрузки)
bash ethtool -K eno1 tso off gso off gro off
Критерий: интерфейс перестал «падать», нет новых hang-событий в течение 24–72 ч.
Сделать настройку постоянной (systemd unit или ifupdown post-up)
Пример для /etc/network/interfaces:
ini auto eno1 iface eno1 inet manual post-up /sbin/ethtool -K eno1 tso off gso off gro off
Критерий: после reboot параметры сохранились.
Проверить цену mitigation по производительности
прогнать iperf3 между узлами;
сравнить CPU % до/после;
проверить окна backup/replication.
Критерий: деградация приемлема для вашей SLA/окон обслуживания.
План стабилизации
тест альтернативного ядра/обновлений Proxmox;
при критичной нагрузке — выделенная PCIe NIC (Intel i350/X550 и т.п.) вместо встроенной.
Критерий: 7+ дней без e1000e hang и без потерь бэкапов/мониторинга.

Источник:
- https://www.reddit.com/r/Proxmox/comments/1thhelw/2_of_my_proxmox_nodes_got_e1000e_hardware_unit/
- https://www.reddit.com/r/proxmox/new.json?limit=20

Ко всем постам