高負荷時の初動対応｜CPU・メモリ・I/O・コネクションを最短で切り分ける手順

サーバーが重くなった瞬間に迷わず動けるよう、高負荷時の初動対応をCPU・メモリ・I/O・コネクション別に最短ルートで整理します。

目的は「まず叩くコマンド」と「切り分けの観点」を即時に判断し、復旧と恒久対策につなげることです。

本記事ではLinuxコマンドを活用した方法を解説していきます。基本的な Bash についての知識が必要になります。Bashについて不安がある方はこちらも参考にしてください → Bash

詳細な流れを横断的に確認したい場合は Linuxトラブルシューティング総合ハブから全体像をご覧いただけます。

高負荷時にまず確認すべきこと
CPU負荷の確認と初動対応
メモリ逼迫の確認と初動対応
I/O負荷の確認と初動対応
コネクション逼迫の確認と初動対応
まとめ：高負荷時に再現性を残す行動
1. 参考リンク
関連記事

高負荷時にまず確認すべきこと

最初に大切なのは「利用者に影響が出ているか」を確認することです。アラートやログだけに気を取られると、実際のサービス応答を見落としがちです。応答速度が遅くなっていないか、エラー画面が出ていないかをブラウザやアプリから直接確かめましょう。

次に監視ツールや uptime コマンドで、直近の負荷上昇が一時的か継続的かを確認します。特にロードアベレージの急上昇は、CPUに限らずI/O待ちやメモリ不足でも発生します。そのため「何が原因で上がっているのか」を後続の確認で切り分けていく必要があります。

この時点では、まだ手を加える必要はありません。まずは症状とリソース変動の記録を残すことが、後で恒久対策を検討する際の大きな助けになります。

CPU負荷の確認と初動対応

CPUの高負荷が疑われる場合、最初に使うべきは top です。top を実行するとロードアベレージやCPU使用率、メモリ使用状況まで一度に確認できます。あわせて uptime を叩けば、直近1分・5分・15分のロードアベレージの推移が分かり、一過性のスパイクか長期的な高止まりかを判断できます。

もしCPUが高止まりしているなら、次はプロセス単位での切り分けです。

ps -eo pid,ppid,cmd,%cpu --sort=-%cpu | head

を使えば、CPUを最も消費しているプロセスが即座に分かります。htop が導入されている環境なら、より直感的にプロセス別負荷やコアごとの使用状況をリアルタイムで追跡できます。

ここでポイントとなるのは「本来CPUを使うべき処理かどうか」です。バッチ処理やビルドなど想定どおりの負荷なら待つだけで済むこともありますが、アプリケーションの無限ループや暴走プロセスであれば即座に停止対応を検討する必要があります。

メモリ逼迫の確認と初動対応

メモリの状態を確認するには、まず free -m を叩きます。ここで空きメモリが極端に少なく、スワップ領域の使用が増えていれば逼迫のサインです。より詳細に見る場合は vmstat 1 5 を実行し、ページングやスワップの発生状況を継続的に観察します。

スワップが活発に使われている場合、ディスクI/Oが増えて応答速度が大幅に低下します。どのプロセスがメモリを占有しているのかを切り分けるには、

ps -eo pid,ppid,cmd,%mem --sort=-%mem | head

で上位プロセスを洗い出すと有効です。

初動対応としては、不要なプロセスの停止や、キャッシュクリアを試みるのが現実的です。ただし闇雲にプロセスを落とすのではなく、サービス影響を最小限に抑えることが優先です。アプリケーションのメモリリークや設定ミスが原因なら、一時的に解放しても再発するため、後続で恒久的な修正を検討する必要があります。

I/O負荷の確認と初動対応

CPUやメモリに異常がなくても、ディスクI/Oが詰まっていると全体の処理が重くなります。

まず

iostat -x 1 5

を実行し、ディスク利用率（%util）や待ち時間（await）が高騰していないかを確認します。値が常に80%以上を示す場合、I/Oがボトルネックになっている可能性が高いです。

より詳細に見るなら iotop が有効です。どのプロセスが大量の読み書きを行っているのかをリアルタイムで把握でき、問題箇所の特定に直結します。特にログ出力の暴走やバックアップ処理がI/Oを占有していないかを切り分けるのが第一歩です。

I/O負荷が高いときの落とし穴は、ディスク容量逼迫です。空き容量が不足すると書き込みエラーや応答遅延が発生し、負荷がさらに悪化します。もしログファイルの肥大が原因なら、ローテーションや削除で速やかに対応します。詳細な手順は［ディスク逼迫の初動対応］を参照してください。

コネクション逼迫の確認と初動対応

サーバーが「重い」と感じられるとき、CPUやI/Oではなくネットワークコネクションの逼迫が原因となるケースも多いです。まず ss -s を実行して全体の接続数や状態を把握しましょう。TIME_WAIT や ESTABLISHED が急増していれば、アプリケーションや外部からのアクセス集中が疑われます。

より詳細に確認するには netstat -antp | head や ss -ant を使い、特定ポートへの接続数や同一IPからの大量アクセスを洗い出します。ここで特定のプロセスに紐づいている場合は、負荷元のサービスを明確にできます。

もし特定のIPから異常な数の接続がある場合は、攻撃や誤設定の可能性があります。その場合は一時的に iptables や firewalld で遮断する対応も選択肢に入ります。ただし恒久的には、アプリケーション側のコネクション管理や同時接続数の制御を見直す必要があります。

ネットワーク関連ではポート競合や不要プロセスが原因になることもあるため、併せて［ポート競合の解消手順］を確認しておくと安心です。

まとめ：高負荷時に再現性を残す行動

高負荷対応で最も重要なのは、ただ切り分けて一時対応するだけでなく、再現性のある記録を残すことです。

top -b -n 1 > /tmp/top.log

や

vmstat 1 10 > /tmp/vmstat.log

のように、負荷時の状態を保存しておけば、後で原因を精査できます。ログやスクリーンショットでも構いませんが、時刻付きで残すことが大切です。

また、監視閾値の見直しも欠かせません。今回の高負荷が想定外だったのか、アプリケーションの利用増加による必然だったのかを振り返り、恒久対策に繋げます。スケールアップやキャッシュ導入など、中長期の施策を検討する材料になります。

Linuxトラブルシューティングの全体像を確認すれば、今回の初動対応を他のトラブルと関連付けて整理できます。高負荷の初動対応は「切り分け」がすべてです。

あわせて［ディスク逼迫の初動対応］や［ポート競合の解消方法］も参考にしてください。

高負荷時に落ち着いて状況を記録し、切り分けを積み重ねることで、次回はより迅速かつ安全に対応できるようになります。

参考リンク

「Linux でディスクが満杯になった原因を特定する方法」 — LinuxConfig による解説記事 (LinuxConfig)
「Linux でポート競合を検出し解決する方法」 — Labex のチュートリアル (LabEx)
「Linux のネットワークトラブルシューティングに使うコマンドまとめ」 — Codilime ブログ (CodiLime)
「ポートバインディングエラーのトラブルシューティング」 — Alibaba Cloud 技術記事 (Alibaba Cloud)
「10 Ways to Check Ports in Linux」 — TechRepublic 記事 (TechRepublic)

Linux初心者がまず覚える監視コマンド｜CPUやメモリの使いすぎを調べるtop入門サーバーやパソコンを使っていると、「なんだか動作が重い」「アプリがすぐに固まる」と感じることはありませんか。とくにクラウドやVPSを契約してLinuxを触り始めたばかりの方にとっては、原因が分からないまま不安になることも […]...
動いているか確認したいときの基本｜psコマンドの実用例まとめプログラムやサービスを動かしているときに「本当に動いているのかな？」と気になることはありませんか。特にLinuxやUNIXを使うサーバー環境では、アプリケーションが裏で正しく動作しているかどうかを確認するのは大切な作業で […]...
ディスク逼迫の初動対応｜ログ肥大と「deletedハンドル」を最短で片づける実務手順サーバーの空き容量が一気にゼロへ――。監視が赤く染まり、アプリはログを書けず、最悪の場合はOSの挙動まで不安定になります。実務でよくある原因は二つ。無制限に成長したログの肥大、そして削除したはずのファイルをプロセスが […]...
権限エラーが出たらこれ！chown・chmodの基本と安全な直し方 LinuxやWordPress運用で突然の権限エラーに直面したとき、原因を最短で見極めて安全に直す流れを身につければ復旧は早くなります。この記事ではls -lでの確認からchown・chmodによる最小限の修正までを、 […]...
ポート競合の原因と解消手順【Windows/Linux対応：netstat・lsof・ss 完全ガイド】サーバーやアプリを起動した瞬間に「ポートが使用中です」と止まる——本番でも開発でも、最も焦るトラブルのひとつです。犯人が分からないまま再起動を繰り返すと、復旧が遅れるだけでなく、別のサービスを巻き込むリスクも高まります。 […]...
動かなくなったアプリや処理を止める方法｜Linuxでの強制終了コマンド入門パソコンを操作していてアプリが急にフリーズし、どんなにクリックしても反応しない…。あるいは、サーバーで動かしている処理が止まらず、負荷が高いまま改善しない…。こうした「終了したいのに止められない」という状況は、Linux […]...
メモリ不足でサーバーが遅い？｜freeコマンドでリソース状況を即チェックサーバーが急に重くなったとき、その原因がどこにあるのかを素早く把握することは運用者にとって重要です。特にメモリ不足は処理速度低下やサービス停止の直接的な要因となるため、早期の確認が欠かせません。そんな時にはLinux環 […]...
デプロイ後の初動チェック｜Bashで5分で回す安全確認リスト本番へのリリース直後、Webサービスが本当に正常稼働しているかを「迷わず・素早く」確かめる方法。ブラウザではキャッシュやログイン状態の可否などで「実はうまく反映されていなかった」が起こりえます。ここではデプロイ後の不安 […]...