HomeLab

Global HomeLab News: PBS и S3: риск битых бэкапов после расширения диска VM

26 мая 2026, 06:03
Global HomeLab News: PBS и S3: риск битых бэкапов после расширения диска VM

В сообществе Proxmox описан кейс: после увеличения виртуальных дисков у двух VM новые и существующие бэкапы в PBS стали невалидными из-за missing chunk, хотя задания резервного копирования завершались без ошибок. Симптом проявился только на затронутых VM и воспроизводился при проверке и restore. В обсуждении основной фокус сместился на связку PBS и S3-бэкенда, а не на саму операцию resize.

Что произошло

Оператор с парком более 50 VM сообщил о повторяемом инциденте: после стандартного расширения диска VM в Proxmox (увеличение виртуального диска и расширение раздела в гостевой ОС) проверки в PBS начали возвращать ошибку целостности - отсутствует один chunk на каждый проблемный бэкап.

Ключевая деталь: обычные backup-job не сигнализировали ошибку, а проблема обнаружилась только на этапе verify и restore. По описанию автора, остальные VM без resize остались без признаков повреждения.

Технические детали

  • Платформа: Proxmox VE и Proxmox Backup Server.
  • Хранилище PBS: S3 endpoint (дедупликационные чанки выгружаются в S3-совместимое хранилище).
  • Симптом: missing chunk при verify и restore, включая file-level restore.
  • Наблюдение из обсуждения: у других операторов с PBS на локальном ZFS/NFS похожий эффект после resize не воспроизводится.
  • Практический вывод сообщества: операция resize сама по себе обычно безопасна; более вероятна проблема в цепочке PBS и S3 (версия, стабильность S3 backend, консистентность объекта и индекса, сетевые сбои при записи чанков).

Риски и ограничения

  • Ложное ощущение исправности: backup-job может быть успешным, но restore непригоден.
  • Риск частичной потери данных при восстановлении конкретных VM после изменений размера диска.
  • Для S3 backend в старых релизах PBS возможны ограничения зрелости и поддержки; без регулярного verify это трудно заметить заранее.
  • Один успешный backup после инцидента не гарантирует, что цепочка инкрементов снова целостна.

Практика для HomeLab (чеклист)

  1. Сразу проверить целостность последних точек по измененным VM
  2. Запустить verify по affected datastore и группам.
  3. Критерий успеха: нет missing chunk, verify завершен без ошибок.

  4. Сделать контрольный full backup после resize

  5. Для критичных VM принудительно создать новую базовую точку (без опоры на потенциально битую цепочку).
  6. Критерий успеха: новый snapshot проходит verify и test-restore.

  7. Провести test-restore, а не только проверку задания

  8. Минимум: restore в изолированную VM или alternate target + проверка загрузки ОС и файлов.
  9. Критерий успеха: VM стартует, ключевые данные читаются, журналы без I/O ошибок.

  10. Проверить версию PBS и статус поддержки S3 backend

  11. Сверить текущую версию PBS с release notes и ограничениями S3 для вашего релиза.
  12. Критерий успеха: используемая версия официально покрывает нужный сценарий, нет известных критичных багов по chunk/object consistency.

  13. Включить регламент раннего обнаружения

  14. Ночной verify новых бэкапов + периодический re-verify старых.
  15. Алерты на ключевые строки: missing chunk, verify failure, restore failure.
  16. Критерий успеха: инцидент фиксируется до реальной аварии восстановления.

Источник:
- https://www.reddit.com/r/Proxmox/comments/1tn7rf0/pbs_corrupted_backups_after_vm_disk_expansion/
- https://www.reddit.com/r/Proxmox/new.json?limit=20