Giám Sát Ceph Proxmox 2024 | FixNhanh Infrastructure

Trong hạ tầng siêu hội tụ (Hyper-Converged Infrastructure - HCI) với Proxmox VE, Ceph đóng vai trò là 'trái tim' lưu trữ. Việc giám sát sức khỏe của cụm Ceph là yếu tố sống còn để đảm bảo dữ liệu luôn an toàn và hiệu năng máy ảo (VM) luôn ổn định.

1. Kích hoạt Module Prometheus trên Ceph Manager

Từ phiên bản Ceph Luminous trở đi, Ceph đã tích hợp sẵn một module Prometheus bên trong Manager (mgr). Điều này giúp việc xuất dữ liệu trực tiếp sang Prometheus trở nên cực kỳ đơn giản.

Thực hiện trên bất kỳ node nào trong cụm Proxmox:

# Bật module prometheus
ceph mgr module enable prometheus

# Kiểm tra địa chỉ server đang listen (mặc định port 9283)
ceph prometheus stand-by

2. Cấu hình Scrape Job trong Prometheus

Sau khi module đã bật, bạn cần thêm cấu hình vào file prometheus.yml để Prometheus bắt đầu thu thập dữ liệu từ các Ceph Manager nodes.

scrape_configs:
  - job_name: 'ceph_cluster'
    static_configs:
      - targets: ['10.0.0.1:9283', '10.0.0.2:9283', '10.0.0.3:9283']

3. Sử dụng Ceph Dashboard Tích Hợp

Proxmox cung cấp một giao diện GUI rất mạnh mẽ để theo dõi Ceph. Tại tab Ceph -> Status, bạn có thể xem nhanh:

Cluster Health: HEALTH_OK, HEALTH_WARN hoặc HEALTH_ERR.
OSD Status: Số lượng OSD đang Up/In.
Data Usage: Dung lượng đã dùng và còn trống của toàn cụm.
IOPS & Throughput: Biểu đồ đọc/ghi thời gian thực.

4. Tối ưu Dashboard Grafana cho Ceph

Để có cái nhìn sâu hơn về Latency từng OSD hoặc trạng thái của Placement Groups (PGs), bạn nên sử dụng Grafana với Dashboard ID 2842 (Ceph - Cluster).

Mẹo: Hãy chú ý vào chỉ số 'Slow Requests'. Nếu con số này tăng cao, đó là dấu hiệu của việc một hoặc nhiều OSD đang gặp vấn đề về phần cứng hoặc nghẽn mạng.

5. Thiết lập Cảnh Báo Sức Khỏe Cluster

Bạn có thể cấu hình Alertmanager để gửi thông báo khi:

Ceph Health Error: Cụm rơi vào trạng thái nguy hiểm (Mất quá nhiều OSD).
OSD Down: Một ổ đĩa vật lý bị lỗi.
90% Capacity: Cụm sắp hết dung lượng lưu trữ.

Tổng kết

Việc giám sát Ceph trên Proxmox không chỉ dừng lại ở việc xem biểu đồ, mà là xây dựng một hệ thống cảnh báo chủ động. Với bộ công cụ Prometheus & Grafana, bạn hoàn toàn có thể yên tâm vận hành các hệ thống quan trọng trên nền tảng Proxmox VE.

Chúc các bạn vận hành hệ thống ổn định!

Discover Intelligence

Hướng Dẫn Giám Sát Cụm Lưu Trữ Ceph Trên Proxmox VE Toàn Diện