Global HomeLab News: Массовые зависания e1000e на Proxmox 9 (I219-LM): симптоматика и обходной путь
✎В сообществе Proxmox зафиксирован повторяющийся сетевой сбой на двух узлах с Intel I219-LM: драйвер e1000e уходит в состояние Detected Hardware Unit Hang, после чего хост теряет стабильную связность. Оба узла работали на Proxmox 9 и одном ядре, а временно восстановить работу удалось отключением offload-функций. Сценарий важен для HomeLab с mini-PC и встроенными Intel NIC, где проблема проявляется не сразу после установки, а спустя дни или недели.
Что произошло
Пользователь сообщил о двух отдельных инцидентах в течение одного дня:
- Узел 1: HP G5 (i7-8700T)
- Узел 2: Lenovo M720 (i5-8500T)
- Оба на Proxmox VE 9, kernel 7.0.2-2-pve
- NIC: Intel I219-LM
Ошибка в логах соответствовала зависанию e1000e (Hardware Unit Hang). После применения обходного решения (отключение сегментационных offload-опций) сетевой стек на узлах стабилизировался.
Технические детали
Паттерн похож на известный класс проблем e1000e на части встроенных Intel NIC:
- сбой TX/RX очередей под нагрузкой или при определённой комбинации фич ядра/драйвера;
- отложенное проявление (не в момент установки, а после накопления трафика/событий);
- временное лечение через отключение offload, что снижает производительность, но повышает предсказуемость.
Практически это означает, что для I219-LM на Proxmox 9 нужно заранее проверить поведение под рабочим профилем трафика (backup, репликация, медиапотоки, VLAN-транк), а не только «пинг после установки».
Риски и ограничения
- Отключение offload уменьшает пиковую пропускную способность и может поднять CPU-utilization на узле.
- Обходной путь не гарантирует устранение корневой причины драйвера/ядра.
- Для production-нагрузки на HomeLab возможны скрытые деградации: рост latency, packet drops, нестабильность бэкапов.
- При обновлениях ядра поведение может меняться (как в лучшую, так и в худшую сторону), нужна регресс-проверка.
Практика для HomeLab (чеклист)
-
Подтвердить симптом в логах
bash journalctl -k -g 'e1000e\|hang\|NETDEV WATCHDOG' --since '48 hours ago'
Критерий: есть повторяющиеся сообщения о зависании интерфейса/очереди. -
Зафиксировать текущие offload-настройки
bash ethtool -k eno1
Критерий: сохранён baseline до изменений. -
Применить временный mitigation (без перезагрузки)
bash ethtool -K eno1 tso off gso off gro off
Критерий: интерфейс перестал «падать», нет новых hang-событий в течение 24–72 ч. -
Сделать настройку постоянной (systemd unit или ifupdown post-up)
Пример для/etc/network/interfaces:
ini auto eno1 iface eno1 inet manual post-up /sbin/ethtool -K eno1 tso off gso off gro off
Критерий: после reboot параметры сохранились. -
Проверить цену mitigation по производительности
- прогнать
iperf3между узлами; - сравнить CPU % до/после;
-
проверить окна backup/replication.
Критерий: деградация приемлема для вашей SLA/окон обслуживания. -
План стабилизации
- тест альтернативного ядра/обновлений Proxmox;
- при критичной нагрузке — выделенная PCIe NIC (Intel i350/X550 и т.п.) вместо встроенной.
Критерий: 7+ дней безe1000e hangи без потерь бэкапов/мониторинга.
Источник:
- https://www.reddit.com/r/Proxmox/comments/1thhelw/2_of_my_proxmox_nodes_got_e1000e_hardware_unit/
- https://www.reddit.com/r/proxmox/new.json?limit=20