1. Kích hoạt Module Prometheus trên Ceph Manager
Từ phiên bản Ceph Luminous trở đi, Ceph đã tích hợp sẵn một module Prometheus bên trong Manager (mgr). Điều này giúp việc xuất dữ liệu trực tiếp sang Prometheus trở nên cực kỳ đơn giản.Thực hiện trên bất kỳ node nào trong cụm Proxmox:
# Bật module prometheus
ceph mgr module enable prometheus
# Kiểm tra địa chỉ server đang listen (mặc định port 9283)
ceph prometheus stand-by
2. Cấu hình Scrape Job trong Prometheus
Sau khi module đã bật, bạn cần thêm cấu hình vào fileprometheus.yml để Prometheus bắt đầu thu thập dữ liệu từ các Ceph Manager nodes.
scrape_configs:
- job_name: 'ceph_cluster'
static_configs:
- targets: ['10.0.0.1:9283', '10.0.0.2:9283', '10.0.0.3:9283']
3. Sử dụng Ceph Dashboard Tích Hợp
Proxmox cung cấp một giao diện GUI rất mạnh mẽ để theo dõi Ceph. Tại tab Ceph -> Status, bạn có thể xem nhanh:- Cluster Health: HEALTH_OK, HEALTH_WARN hoặc HEALTH_ERR.
- OSD Status: Số lượng OSD đang Up/In.
- Data Usage: Dung lượng đã dùng và còn trống của toàn cụm.
- IOPS & Throughput: Biểu đồ đọc/ghi thời gian thực.
4. Tối ưu Dashboard Grafana cho Ceph
Để có cái nhìn sâu hơn về Latency từng OSD hoặc trạng thái của Placement Groups (PGs), bạn nên sử dụng Grafana với Dashboard ID 2842 (Ceph - Cluster).Mẹo: Hãy chú ý vào chỉ số 'Slow Requests'. Nếu con số này tăng cao, đó là dấu hiệu của việc một hoặc nhiều OSD đang gặp vấn đề về phần cứng hoặc nghẽn mạng.
5. Thiết lập Cảnh Báo Sức Khỏe Cluster
Bạn có thể cấu hình Alertmanager để gửi thông báo khi:- Ceph Health Error: Cụm rơi vào trạng thái nguy hiểm (Mất quá nhiều OSD).
- OSD Down: Một ổ đĩa vật lý bị lỗi.
- 90% Capacity: Cụm sắp hết dung lượng lưu trữ.
Tổng kết
Việc giám sát Ceph trên Proxmox không chỉ dừng lại ở việc xem biểu đồ, mà là xây dựng một hệ thống cảnh báo chủ động. Với bộ công cụ Prometheus & Grafana, bạn hoàn toàn có thể yên tâm vận hành các hệ thống quan trọng trên nền tảng Proxmox VE.Chúc các bạn vận hành hệ thống ổn định!
Leave a Comment