【体験談】入社1年目の保守エンジニアが経験したやばい障害対応

現役システムエンジニアの体験談
https://ikeyan-kb-blog.com/wp-content/uploads/2022/11/IMG_1782-300x300.jpg

お疲れ様です!大卒現役システムエンジニアのいけやんと申します。

この体験談シリーズは本ブログ運営者「いけやん」がシステムエンジニアとしての経験や感じたことをざっくばらんに語っていく記事になります。

一人のシステムエンジニアとして思う事をダラっと書いているので肩肘張らずに読んでいただければと思います。『システムエンジニアってどんな仕事しているんだろ~?』と少しでも興味のある方はぜひ覗いてみてください!!

障害対応とは?

ちまたでたまに話題になる「システム障害」

そもそも「システム障害」「障害対応」とは何なのか…。
簡単な説明になりますが、以下のように解釈いただければ問題ありません!

あるWebサイトへアクセスができなくなる、ATMでお金の預け入れ引き出しができなくなるなどの事象のようなことをまるっとシステム障害と言います。
それをITエンジニアの中でも一般的に保守・運用エンジニアと呼ばれる人が、原因の究明から対応の計画を立て復旧させることを障害対応と呼びます。

システムの規模が大きい場合や、リアルタイム性が求められると社会に与える影響が大きくなり早急に対応することが求められるようになるのです。

やばかった障害対応について

過去障害で記憶に残るほど、やばかった障害対応のことを話します。
各方面の信用や社外秘情報にも抵触しかねないので、具体的な内容には触れられませんが雰囲気だけでも感じ取ってもらえればと…。

エラーメッセージが止まらない!

入社してからようやく半年が経過しようとしているころ、いつも通り出社をしていた時にそれは起こりました。

システムオペレータさんからエラーメッセージが止まらないと1本の電話がかかってきました。
エラーメッセージが止まらないと言っても、普段は自分が担当するシステムが原因ではないことが多いので、いたって冷静にシステムを監視する画面を見に行きました。

そしたら…。いつもとは比べ物にならないメッセージ量…。

https://ikeyan-kb-blog.com/wp-content/uploads/2022/11/IMG_1782-300x300.jpg

やばい、ナニコレ、終わった…。

そこから即時原因究明とお客さん報告から障害対応がスタートしました。

原因はなんとエンジニアの打ち間違い

調査を進めていくと、同じチームの一人のエンジニアのコマンドミスという事が分かりました。すぐにその情報はお客様に情報連携、対応策を立て障害を復旧させることができました。
しかし、コマンドを打ち間違えた本人は自覚がなかったため原因の確定までかなり時間がかかってしまい、影響はかなり大きいものとなってしまったのです。

たしか、9時に出社してお昼ぐらいに障害が発生して、対応を終えて帰宅できたのが翌日の10時くらいでしたのでほぼ24時間つきっきりでの作業となりました。体力的にも精神的にも消耗したのをよく覚えています。

本人は私の面倒をよく見てくださった優しい先輩でしたが、かなり責任を感じておりかける言葉も見つかりませんでした。(今は元気に働いています。)

障害が終わっても続く再発防止策

この障害は、完全にヒューマンエラーだったため、なんでそのようなことが起こったのかという原因を深堀りして再発防止策を立てなければいけませんでした。

これがまた、最後の再発防止策の対応が完了するまで10か月もかかり、その間の案件は全ストップ…。

ですが、大規模障害対応の大変さを身を持って体感できたのは、これからの教訓にもなりいい経験だったかなと今ではそう思っています。

障害対応はこれがきつい3選

深夜に対応

システム障害はいつ起こるかわからないため、基本的にはシステムオペレータという役割の人が交代制で24時間エラーメッセージを監視してくれます。システムオペレータは特定のエラーがあると自分たちで対処するのではなく、エンジニアに連絡をします。

私たちエンジニアは通常勤務のため、夜は稼働していませんがオペレータからの連絡があれば深夜でも電話にでないといけません。一般の生活をしていると、普段はあり得ない時間に電話がかかってくるので慣れるまで心臓がビクッとなりとても精神的にきついことがありました。中にはそれに耐えきれず部署移動をする人もいました。

営業時間外の電話対応は数名で交代かつ、毎日かかってくるわけではありませんが、睡眠時間が削られたりするのは結構苦痛でした。
私の会社では基本的には若手が対応を任されるので、今では晴れて、電話当番からは解放されて快適な睡眠ができるようになっています。

お客さんからのプレッシャー

障害の中でも、お客さんのビジネスに影響がある場合は障害対応中にお客さんとやり取りする場面が多々あります。
いつも優しい方でも、この時はそうもいってられず直接厳しい言葉や口調が怖くなります。クレーム対応など経験のなかった私はかなりこのプレッシャーに苦しめられ、空回りして余計に怒られることも…。今ではある程度の障害であれば動じず対応できるようになり、鋼のメンタルを手に入れました(笑)

障害中は常にギスギスした雰囲気

プレッシャーがかかるのは何もお客さんに限った話ではありません。原因特定ができなかったり対応策の方針がいつまでも立てられないとチーム内でもピリピリとした雰囲気になり、指示や連絡がもはや喧嘩しているのかというほどの口調になって飛び交う事もあります。(※結構まれなケースの話をしています)

ヒューマンエラーの場合は、誰もが人のせいにしてはいけないとわかっているものの。『あの人がやらかしたのか…。』という空気にはどうしてもなってしまいます。人間ですものしょうがないですよね。ただ、保守エンジニアはヒューマンエラーの原因はそもそもの仕組みが原因であること、明日は我が身という心得を徹底的に叩き込まれているので直接的に人のせいにすることはないんですね。そういうところは新人ながら感心していたのを覚えています。まあ、何年か経つと酒の肴になってたりするんでけどね。

最後に

いかがでしたでしょうか?今回は私が経験したシステム障害対応をもとに現場の空気感や大変さを知っていただきたく、このような記事を書いてみました。他にも、こんな経験が聞きたいというものをリクエストいただいたら、記事にしようと思いますので問合せtwitterから気軽にお問合せください。

システムんジニアを目指そうとした方には、かなりネガティブな話題になってしまいましたが。どんな仕事にも辛いことはあり、そのような辛い経験を乗り越えた先にやりがいや自分の成長があると思っています。もしシステムエンジニアについて知りたいと思った方は以下の記事もぜひ覗いてみてください!

いけやん

いけやん

現役システムエンジニアのいけやんです。 駆け出しシステムエンジニアやIT業界に転職を考えている方のために有力な情報発信をしていきます!

関連記事

特集記事

コメント

この記事へのコメントはありません。

TOP