Theo dõi dung lượng disk Linux server và cảnh báo sớm production

Linux server đầy disk: checklist xử lý và cảnh báo sớm cho production

Server Linux đầy disk là một trong những sự cố gây downtime khó chịu nhất vì thường xuất hiện bất ngờ: app lỗi ghi file, database chậm, backup fail, deploy fail. Nếu anh chưa có quy trình theo dõi dung lượng và dọn dẹp chủ động, rủi ro này sẽ lặp lại.

Vì sao đầy disk nguy hiểm?

  • Ứng dụng không ghi được log/data mới
  • Database có thể lỗi transaction hoặc chậm bất thường
  • Cron backup và pipeline CI/CD bị fail dây chuyền

Lệnh kiểm tra nhanh trên Linux

df -h
sudo du -xh / | sort -h | tail -n 30
sudo du -xh /var | sort -h | tail -n 30

Luôn bắt đầu bằng df -h để xác định partition nào đầy trước, rồi mới đào sâu bằng du.

3 thủ phạm thường gặp

  • Log application/nginx/mysql phình quá nhanh
  • Docker images/containers cũ không dọn
  • Backup cục bộ giữ quá nhiều bản

Dọn dẹp an toàn theo checklist

  • Bật logrotate đúng chính sách
  • Dọn Docker artifact định kỳ
  • Xóa backup local quá hạn retention
  • Không xóa bừa thư mục hệ thống khi chưa xác minh
docker system df
docker system prune -f
sudo journalctl --vacuum-time=7d

Thiết lập cảnh báo sớm

Nên cảnh báo khi dung lượng dùng vượt 70% (warning) và 85% (critical). Có thể dùng node_exporter + Prometheus/Grafana hoặc script cron gửi Telegram.

Kết luận

Disk full không khó xử lý nếu có kỷ luật: kiểm tra định kỳ, logrotate chuẩn, cleanup đúng chỗ và alert sớm. Chỉ cần làm đúng 4 điểm này, anh sẽ giảm mạnh số lần “cháy” production vì đầy disk.

Leave a Comment

Your email address will not be published. Required fields are marked *