Prev / Next / /home/pochi/ChangeLog

障害対応、原因はケーブルのショート[仕事]

2005-10-27

昨日の障害の続き。
朝、念のためもう一度調査。
メインのスイッチではなく、別のハブ経由であれば、
問題なく繋がることを確認し、
秋葉原ではなく、有楽町へ。
ハブが100%悪いとは限らないので、保険をかけて以下を購入。

- 代替用の安い24ポートスイッチ
- 暴れてるハブがいる場合の交換用の安い8ポートスイッチ
- 別回線経由で繋ぐための安いルータ
- どこかのサーバのNICがおかしい場合用の安いNIC
- バイパス経路を設定するためのケーブル数本

どれも「安い」が付く。
貧乏ソリューションってやつね。
安物買いのなんとやら、とは良く聞く言葉だし、
インフラにお金をけちるとロクなことはない、
というのは良くわかってるんだけど、
今回はあくまで緊急対応なので。
禀議の問題もあるしね。
システムは全面的にアウトソースしようぜ、と言ってるのに、
私が手や足を動かしてる時点でそもそも負けなんだけど、
まあ仕方ない。
お金がないってつらいねえ。

で、メインのスイッチを交換して障害復旧!!。

と思ったら、あるケーブルを差すと調子が悪くなることが判明。
調べてみると、そのケーブルの先は、別フロアのハブで、
そこのハブに差してあるケーブルの一本がショートしていた。
机の移動に伴ない、ケーブルのジャックが抜けてしまって、
銅線が剥き出しになっている先端を、誰かが親切のつもりで、
よじってまとめてくれていたみたいだ。
ショートにより、ハブが異常を検知して、そのポートを
ブロックしてくれれば良いものを、リセットをかけまくって、
それが伝搬してメインのスイッチもリセットされまくっていた、
というのが今回の真の原因でございました。
メインスイッチは無罪。

ツールを整備しておけばもうちょっと楽に調べられたよなあ、
もうちょっと高いハブを使ってちゃんとした設計をしてればなあ、
何人かいれば人海戦術で調べられたかなあ、
せめてハブにログインできればなあ、等々、
いろいろ思うところはある。
ちょっと負けた気分。
でもまあ、コストをかけない、というのは
経営判断なので従うしかないしねえ。
仕事は有限のリソースの中で最善の動きをするしかないのです。

permlink