ちょっと前から、統合監視ツールのZabbixの検証をしてる。 開発はラトビアの企業で、ZABBIX-JPという日本のコミュニティの方々のおかげで日本語化もされている。
社内で必要になったので主にNagiosと比較しつつ、検証した。
やはり大規模な導入事例は歴史があるNagiosの方が多い。 ヤフオクやmixiもクックパッドもNagiosを使っているそうだ。
ヤフオクの事例
WEB+DB PRESS vol.53「24時間停止しないシステムのためのサーバ監視体制」に記述あり。 2009年半ばまでは独自のスクリプトによる監視、その後Nagiosに移行。監視対象は4300台だそうだ。
mixiの事例
WEB+DB PRESS vol.55「スケーラブルなサービスの監視」に記述あり 稼働監視にNagios、リソース監視には自作ツールとRRDToolを組み合わせて活用
クックパッドの事例
Skypeに通知ってあるけど、どうやってるんだろう。Skype APIってWinからしか使えないと勝手に思っていた。
100台とか1000台とか監視対象があるわけではないので、パフォーマンスについてはある程度無視できそう。 Zabbixは監視記録をMySQLなどのRDBMSに保存するので、監視元のディスク容量を考慮する必要があるが、 ZABBIX-JPの@kodaiこと寺島広大さんによると、 「ちなみに、テスト環境での話ですが監視対象20台、アイテム数2000、監視間隔5分、ログ監視ありで1年間監視をして5〜10GBくらいに収まってます」 とのこと。
その上で、
- 専任のサーバ管理者が置けない状況ではNagiosの設定ファイルベースでの設定は負担が大きい。
- 同上の状況では、監視・障害通知・グラフ作成まで、オールインワンでできる。
を考えるとZabbixの方が使いやすい気がする。
テンプレートはデフォルトでもインストールされているし、 ZABBIX-JPでも各種テンプレートのダウンロードができるようになっている。 ミラクルリナックスから有償サポートも提供されているそうだ。 日本のコミュニティが活発なのは心強い。
最初にテンプレートの継承などに慣れる必要はあるが、慣れればなんのことはない。 しばらくアラートを出す閾値の調整をする必要はありそうだけど、 早いところ、突然クライアントから電話が来る事態を避けられるようにしたい。