Linux server đầy disk: checklist xử lý và cảnh báo sớm cho production

Leave a Comment / Uncategorized / By admin

Server Linux đầy disk là một trong những sự cố gây downtime khó chịu nhất vì thường xuất hiện bất ngờ: app lỗi ghi file, database chậm, backup fail, deploy fail. Nếu anh chưa có quy trình theo dõi dung lượng và dọn dẹp chủ động, rủi ro này sẽ lặp lại.

Vì sao đầy disk nguy hiểm?

Ứng dụng không ghi được log/data mới
Database có thể lỗi transaction hoặc chậm bất thường
Cron backup và pipeline CI/CD bị fail dây chuyền

Lệnh kiểm tra nhanh trên Linux

df -h
sudo du -xh / | sort -h | tail -n 30
sudo du -xh /var | sort -h | tail -n 30

Luôn bắt đầu bằng df -h để xác định partition nào đầy trước, rồi mới đào sâu bằng du.

3 thủ phạm thường gặp

Log application/nginx/mysql phình quá nhanh
Docker images/containers cũ không dọn
Backup cục bộ giữ quá nhiều bản

Dọn dẹp an toàn theo checklist

Bật logrotate đúng chính sách
Dọn Docker artifact định kỳ
Xóa backup local quá hạn retention
Không xóa bừa thư mục hệ thống khi chưa xác minh

docker system df
docker system prune -f
sudo journalctl --vacuum-time=7d

Thiết lập cảnh báo sớm

Nên cảnh báo khi dung lượng dùng vượt 70% (warning) và 85% (critical). Có thể dùng node_exporter + Prometheus/Grafana hoặc script cron gửi Telegram.

Kết luận

Disk full không khó xử lý nếu có kỷ luật: kiểm tra định kỳ, logrotate chuẩn, cleanup đúng chỗ và alert sớm. Chỉ cần làm đúng 4 điểm này, anh sẽ giảm mạnh số lần “cháy” production vì đầy disk.

Leave a Comment Cancel Reply