はじめに
エラーログを見て、ターミナルではなく自分がフリーズした経験はありませんか?
「なんかエラーっぽいログが出てるけどよく分からない」
「とりあえず再起動して治ればOK…」
正直これやりがちです。自分もよくお祈りしながら再起動してました。
自己紹介
初めまして。Qurated編集部のTと申します。
私は様々な異業種を経てインフラエンジニアに転身。
業界未経験ながらマンションネットワークの保守運用を約1年経験したのち、現在は銀行系ネットワークの上流工程に携わっています。
現場での障害対応から上流工程まで経験する中で、「ログをどう読むか」の重要性を強く実感しました。
現場のリアル:とにかく”まず復旧”
マンションネットワークの保守をしていた頃は、障害が発生したら即現地対応。
L2スイッチを小脇に抱えて現地に走る、なんてことも日常でした。
よくある障害はこんな感じです。
- メディアコンバータの故障(主に電源ケーブル)
- L2スイッチの不調(再起動や交換で復旧)
正直このレベルなら”経験”でなんとかなります。
どうしても分からない障害がある
問題はここからです。
- 機器交換したのに復旧しない(不具合再発する)
- 再起動しても直らない
- そもそも原因が分からない
こうなった場合、頼れるのはログだけ。
…なんですが…
そのログが読めない
実際に詰んだ事例
あるとき、マンション全体で通信障害が発生しました。
同じ物件の複数の居住者から 「ネットがつながらない!!」 との問い合わせ。
しかしZABBIXを見ても通信不可を示すアラートは出ていない。
試しに通信できない世帯のログを調査すると、大半の世帯でDHCP_REQUESTのログが安定して出ているのに対し、1世帯の特定の端末からはこんなログが出ていました。
DHCP_DECLINE
「え?ナニコレ?」
調査して分かったこと
最終的に原因はかなりヤバいやつでした。
- 特定の世帯のルータ(TP-Link)がたったの1台で約350個ものIPアドレスを取得
- それによってマンション全体のIPアドレスプールが枯渇
- 他の世帯が通信不可に
これではたとえL2スイッチを再起動してもTP-LinkルータがIPを一瞬で食い尽くしてしまうので解決するはずありません。 なので居住者に事情を説明し、TP-Linkルータをネットワークから切り離してもらうことで問題は解決しました。
どうやって原因に辿り着いたのか
正直に言うと
ググっても無理でした
マンション1棟が丸ごと通信できなくなるなんて事例は出てきませんし、「IPアドレスを固定してると重複が発生する可能性がある」程度の情報しか出てきませんでした。
そこで使ったのがAI
私がその時メインで使っていたのはChatGPTでした。
ダメもとでやったこと
- ログをAIに投げる(値までセットにするのは怖かったので値は抜きました
- エラーの意味を聞く
すると、
- DHCP_DECLINEの意味(本当に分かりやすかった)
- どういうときに発生するか
- 想定される原因
全部一瞬で整理されました。
「マンション」での事象と限定するだけで出力が驚くほど具体的になったのです。
AIで何が変わったか
これまで
- ログが読めない
- 原因が分からない
- 手が止まる
AI使った後
- ログの意味が分かる
- 原因の当たりがつく
- 切り分けできる
“分からない”が”考えられる”に変わる
実際の対応
- 原因となっている端末の特定
- ネットワークから切り離し
- 通信復旧
ログ解析の本質
ここで気づいたこと、それはログは”読むもの”ではなく解釈するもの”
そしてその解釈は、AIでかなり補える
まとめ
エラーログに出会ったとき、
- 分からなくて当然
- でも放置するのはもったいない
今はAIに聞けばいい時代です。
ただし、その出力を自分の血肉として吸収しなければならない。
結論
分からないログに出会ったら、まずAIに聞け。そして自分の頭に叩き込め。
それだけでトラブル対応のスピードは確実に変わります。