Reach Over The Sky, Tear The Sky

投稿

10月, 2016の投稿を表示しています

小さな会社で一人で監視サーバ立てて運用して一年以上たったのでそのまとめ

10月 30, 2016

MECE目指して書き始めたけど全然無理でした。多分、初心者向けです。仕事で書いたドキュメントの流用です。会社にはインフラでズバッと意見を出す人がいないので、こういう割と広いこと見れてそうな入門ドキュメントを会社のドキュメントとしてためておくことで、将来誰か監視システムを刷新するときとかの方向性になれればという考えです。持つべきか、もたざるべきかまず大枠の設計として、監視システムを持つべきか、持たざるべきかという点について考える必要があると思います。これは監視をするかしないかという意味ではなく、監視システムのサーバを持つかどうかという意味を指します。つまりZabbixやmuninといった監視サーバを構築して運用していくのか、それともMackerelやNew Relicといった SaaS監視システムにお金を払って利用するのか、という監視システム運用の方向性の問題です。私の場合は、会社でインフラエンジニアが私一人だったので、私の興味からZabbixを立てることにしました。 Zabbixに惹かれたのは主に「ネット上に先人の記事がそれなりに上がってる」「カスタムスクリプト書けばなんでもできる」「成長したイケてるベンチャーも使ってて実はダサくない」という3点で、とくにスクリプトを書けばなんでもできそうというのは、私自身のコーディング経験の足しにもできるし、アプリケーションエンジニアにも説明すれば監視業務にコミットしてもらえそうという期待からでした。 CTOは新しくてイケてるSaaSを使うのが大好きだったので、実はすでにNew Relicが入っていました。しかし有料プランは結構高く、財布事情が許してくれなかったので、私の提案をしぶしぶ飲んで、Zabbixとの並行運用になりました。そしていま運用して一年ちょいになりますが、Zabbixでできることが増えてきたので、New Relicはほとんど見ていません。エージェント自体は残っているけど…。監視システムに欲しい機能監視システムには下にあげる機能が基本的に存在しているでしょう。一部の特化型システムにはないものもあるかもしれないですが…。そして、それらができるだけ自動化されていることが望ましいです。ここでいう自動化とは、少ない手作業で必要な多くの作...

一部のユーザだけ NET::ERR_CERT_REVOKED でサイトにアクセスできない

10月 18, 2016

一部のユーザから、HTTPSのURLにアクセスできなくなったという連絡を受けました。なんでも攻撃される恐れのあるサイトですとかなんとか…。ブラウザのスクリーンショットをもらってみたら、こんな表示が。 Google Chromeでも同じ感じのエラーメッセージが表示されていました。（サイト名が出るので省略…） Chromeの方のエラーメッセージをよく見ると、 NET::ERR_CERT_REVOKED と書かれています。ファッ！？証明書が失効している…！？そんな馬鹿なと思い手元でアクセスしてみたら普通に繋がる…HTTPSできてるよ？なんで？何が起こってるんだろう…。結論を言うと、 SSL証明書業者が手違いで中間CA証明書を失効させてしまったことにより、私たちが購入して使っている証明書が一時的に利用不可能になり、そのネガティブキャッシュをユーザが参照している、というお話でした。解消のための新しい中間CA証明書が公開されていたので、そちらを使って更新してみると、問題は解消されました。ただ、自社が買っていたのはクイックSSL証明書だとばかり思っていたので、更新に失敗しまくって時間がかかりました。違うやつだった…。 SSL証明書とかドメインの周りのメンテナンスは多くても年に数回とかっていう頻度なので、いろいろ思い出すのに苦労しますね。ていうか、そういうことあるんですね、中間証明書間違って消しちゃった！とか。レジストラのDNSサーバダウンと合わせて、「うちのせいじゃないんだけどご迷惑をおかけしてごめんなさい案件」って感じで覚えておきたい…。