HomeLab

Global HomeLab News: Массовые зависания e1000e на Proxmox 9 (I219-LM): симптоматика и обходной путь

19 мая 2026, 12:02
Global HomeLab News: Массовые зависания e1000e на Proxmox 9 (I219-LM): симптоматика и обходной путь

В сообществе Proxmox зафиксирован повторяющийся сетевой сбой на двух узлах с Intel I219-LM: драйвер e1000e уходит в состояние Detected Hardware Unit Hang, после чего хост теряет стабильную связность. Оба узла работали на Proxmox 9 и одном ядре, а временно восстановить работу удалось отключением offload-функций. Сценарий важен для HomeLab с mini-PC и встроенными Intel NIC, где проблема проявляется не сразу после установки, а спустя дни или недели.

Что произошло

Пользователь сообщил о двух отдельных инцидентах в течение одного дня:
- Узел 1: HP G5 (i7-8700T)
- Узел 2: Lenovo M720 (i5-8500T)
- Оба на Proxmox VE 9, kernel 7.0.2-2-pve
- NIC: Intel I219-LM

Ошибка в логах соответствовала зависанию e1000e (Hardware Unit Hang). После применения обходного решения (отключение сегментационных offload-опций) сетевой стек на узлах стабилизировался.

Технические детали

Паттерн похож на известный класс проблем e1000e на части встроенных Intel NIC:
- сбой TX/RX очередей под нагрузкой или при определённой комбинации фич ядра/драйвера;
- отложенное проявление (не в момент установки, а после накопления трафика/событий);
- временное лечение через отключение offload, что снижает производительность, но повышает предсказуемость.

Практически это означает, что для I219-LM на Proxmox 9 нужно заранее проверить поведение под рабочим профилем трафика (backup, репликация, медиапотоки, VLAN-транк), а не только «пинг после установки».

Риски и ограничения

  • Отключение offload уменьшает пиковую пропускную способность и может поднять CPU-utilization на узле.
  • Обходной путь не гарантирует устранение корневой причины драйвера/ядра.
  • Для production-нагрузки на HomeLab возможны скрытые деградации: рост latency, packet drops, нестабильность бэкапов.
  • При обновлениях ядра поведение может меняться (как в лучшую, так и в худшую сторону), нужна регресс-проверка.

Практика для HomeLab (чеклист)

  1. Подтвердить симптом в логах
    bash journalctl -k -g 'e1000e\|hang\|NETDEV WATCHDOG' --since '48 hours ago'
    Критерий: есть повторяющиеся сообщения о зависании интерфейса/очереди.

  2. Зафиксировать текущие offload-настройки
    bash ethtool -k eno1
    Критерий: сохранён baseline до изменений.

  3. Применить временный mitigation (без перезагрузки)
    bash ethtool -K eno1 tso off gso off gro off
    Критерий: интерфейс перестал «падать», нет новых hang-событий в течение 24–72 ч.

  4. Сделать настройку постоянной (systemd unit или ifupdown post-up)
    Пример для /etc/network/interfaces:
    ini auto eno1 iface eno1 inet manual post-up /sbin/ethtool -K eno1 tso off gso off gro off
    Критерий: после reboot параметры сохранились.

  5. Проверить цену mitigation по производительности

  6. прогнать iperf3 между узлами;
  7. сравнить CPU % до/после;
  8. проверить окна backup/replication.
    Критерий: деградация приемлема для вашей SLA/окон обслуживания.

  9. План стабилизации

  10. тест альтернативного ядра/обновлений Proxmox;
  11. при критичной нагрузке — выделенная PCIe NIC (Intel i350/X550 и т.п.) вместо встроенной.
    Критерий: 7+ дней без e1000e hang и без потерь бэкапов/мониторинга.

Источник:
- https://www.reddit.com/r/Proxmox/comments/1thhelw/2_of_my_proxmox_nodes_got_e1000e_hardware_unit/
- https://www.reddit.com/r/proxmox/new.json?limit=20