Global HomeLab News: PBS и S3: риск битых бэкапов после расширения диска VM
✎В сообществе Proxmox описан кейс: после увеличения виртуальных дисков у двух VM новые и существующие бэкапы в PBS стали невалидными из-за missing chunk, хотя задания резервного копирования завершались без ошибок. Симптом проявился только на затронутых VM и воспроизводился при проверке и restore. В обсуждении основной фокус сместился на связку PBS и S3-бэкенда, а не на саму операцию resize.
Что произошло
Оператор с парком более 50 VM сообщил о повторяемом инциденте: после стандартного расширения диска VM в Proxmox (увеличение виртуального диска и расширение раздела в гостевой ОС) проверки в PBS начали возвращать ошибку целостности - отсутствует один chunk на каждый проблемный бэкап.
Ключевая деталь: обычные backup-job не сигнализировали ошибку, а проблема обнаружилась только на этапе verify и restore. По описанию автора, остальные VM без resize остались без признаков повреждения.
Технические детали
- Платформа: Proxmox VE и Proxmox Backup Server.
- Хранилище PBS: S3 endpoint (дедупликационные чанки выгружаются в S3-совместимое хранилище).
- Симптом:
missing chunkпри verify и restore, включая file-level restore. - Наблюдение из обсуждения: у других операторов с PBS на локальном ZFS/NFS похожий эффект после resize не воспроизводится.
- Практический вывод сообщества: операция resize сама по себе обычно безопасна; более вероятна проблема в цепочке PBS и S3 (версия, стабильность S3 backend, консистентность объекта и индекса, сетевые сбои при записи чанков).
Риски и ограничения
- Ложное ощущение исправности: backup-job может быть успешным, но restore непригоден.
- Риск частичной потери данных при восстановлении конкретных VM после изменений размера диска.
- Для S3 backend в старых релизах PBS возможны ограничения зрелости и поддержки; без регулярного verify это трудно заметить заранее.
- Один успешный backup после инцидента не гарантирует, что цепочка инкрементов снова целостна.
Практика для HomeLab (чеклист)
- Сразу проверить целостность последних точек по измененным VM
- Запустить verify по affected datastore и группам.
-
Критерий успеха: нет
missing chunk, verify завершен без ошибок. -
Сделать контрольный full backup после resize
- Для критичных VM принудительно создать новую базовую точку (без опоры на потенциально битую цепочку).
-
Критерий успеха: новый snapshot проходит verify и test-restore.
-
Провести test-restore, а не только проверку задания
- Минимум: restore в изолированную VM или alternate target + проверка загрузки ОС и файлов.
-
Критерий успеха: VM стартует, ключевые данные читаются, журналы без I/O ошибок.
-
Проверить версию PBS и статус поддержки S3 backend
- Сверить текущую версию PBS с release notes и ограничениями S3 для вашего релиза.
-
Критерий успеха: используемая версия официально покрывает нужный сценарий, нет известных критичных багов по chunk/object consistency.
-
Включить регламент раннего обнаружения
- Ночной verify новых бэкапов + периодический re-verify старых.
- Алерты на ключевые строки:
missing chunk, verify failure, restore failure. - Критерий успеха: инцидент фиксируется до реальной аварии восстановления.
Источник:
- https://www.reddit.com/r/Proxmox/comments/1tn7rf0/pbs_corrupted_backups_after_vm_disk_expansion/
- https://www.reddit.com/r/Proxmox/new.json?limit=20