ZabbixでGPUの状態を読んでみる

投稿日:April 28, 2024
Hero Image

はじめに

Zabbixを用いて,nvidia製GPUの使用状況などを読みたいなあと思ったので,やってみました.

導入

今回は,Zabbix6.0へ導入していきます.

1. テンプレートのダウンロード

偉大な先人によるテンプレートが既にあるので,そちらをダウンロードする.
リンクはこちら.

2. 監視対象での設定

既にnvidia-smiのコマンドが実行できる環境という想定で進めます.
テキストエディタで,/etc/zabbix/zabbix_agent2.confを開き,次の内容を追記する.

UserParameter=gpu.temp,nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader,nounits -i 0
UserParameter=gpu.memtotal,nvidia-smi --query-gpu=memory.total --format=csv,noheader,nounits -i 0
UserParameter=gpu.used,nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits -i 0
UserParameter=gpu.free,nvidia-smi --query-gpu=memory.free --format=csv,noheader,nounits -i 0
UserParameter=gpu.fanspeed,nvidia-smi --query-gpu=fan.speed --format=csv,noheader,nounits -i 0
UserParameter=gpu.utilisation,nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits -i 0
UserParameter=gpu.power,nvidia-smi --query-gpu=power.draw --format=csv,noheader,nounits -i 0

追記後,sudo systemctl restart zabbix-agent2.serviceを実行する.

3. Zabbix serverでの設定

webUIで設定>テンプレートより,右上の「インポート」を選択し,先ほどダウンロードしたファイルを選択.
次に,設定>ホストより監視したいホストを選択し(なかったら右上の「ホストの作成」を選択する),テンプレートの欄に「NVidia Sensors」と検索し出てきたものを追加し設定を反映する.
以上で,設定が反映され,各種数値が見れたりグラフが見れるはずだ.