
NTTインテグレーション株式会社
「障害ゼロ」への挑戦。「EDIPACK」が実現した“攻め”の運用改革 ~年間障害件数を75%削減。夜間の緊急呼び出しから解放され、エンジニアが本来の業務に向き合える環境へ~
企業の受発注を支えるミッションクリティカルなSaaS型EDIサービス 「EDIPACK」。そのインフラ運用チームは、複雑なシステムに潜む「見えない恐怖」と戦い続けていた。従来の監視体制では捉えきれない予兆や突発的な障害対応が大きな負担となっていたが、「NI+C APM as a Service」の導入により年間障害件数は75%削減。サービス導入後は業務を計画的に進められるようになった。残業も減り、夜間の緊急コールもなく安心して眠れるようになった。エンジニアの負荷が大幅に軽減され、合わせて運用や開発部門への改善提案に割く時間が増えサービス品質向上への好循環が生まれている。
導入前の背景と課題 (Before)
月数回の夜間障害対応と「守りの運用」の限界
サービス影響がないものも含め、月に1-2回は夜中に障害アラートで電話がかかってくる状況。メモリが徐々に増える等の予兆があっても、従来のインフラ監視ツールでは閾値を超えるまで検知できず、障害が発生してから対応するしかなかった(リアクティブな運用)。
見えない壁と「遠慮」による調査の遅れ
監視ツールがサーバーやネットワークごとにサイロ化。各サーバーの状況を知るには別の監視担当者にデータ抽出を依頼する必要があり、CSV受領まで半日~1日かかることも。「頻繁に頼むのは気が引ける」という遠慮が、調査を後手に回させていた。
属人化と手作業
抽出したCSVデータを手作業でグラフ化して分析しており、経験と勘に頼る運用だった。

導入の経緯と選定 (Why & How)
きっかけ:社内で「NI+C APM as a Service」を提供しているチームからの提案。提案されたサービスが『既存監視ツールと同等の監視レベル』を維持でき、更に予兆検知まででき現状の課題を解決するものだったため。
導入の決断:現場には稼働中のミッションクリティカルなサービスの「既存の運用フローを変えること」への抵抗感もあった。
麻生氏(運用責任者)が「障害が起きるのをもうやめようぜ。夜中に起きるの嫌でしょ?」と説得。「障害が減るならやるしかない」と導入を決断。
導入プロセス:現場エンジニア(吉原氏)が中心となり、NI+C APM担当チームの手厚い技術サポートを受けながら、可観測性(オブザーバビリティ)のある環境を構築。実稼働しているサーバーにエージェントを導入する際も自動化も可能で、手動で導入する場合も通常のメンテナンスウィンドウ内で対応できた。
導入後の効果と成果 (After)
【定量成果】障害件数が75%削減
導入後の1年間は、導入前の1年に比べ、障害件数を75%削減。発生した件数のうち、リソース不足起因で起きていた障害をゼロに。
【運用改善】データ抽出の「待ち時間」がゼロ、運用の民主化を実現
以前は他部署に依頼して半日待つこともあった。またそのデータを解析できる形にするのに1サーバー辺り数十分を要していた。それがダッシュボードでリアルタイムに確認可能に。「待つストレス」から解放された。日々の運用のモニタリングや障害時の原因究明に必要なデータを能動的に入手して対応することができるようになった。
【予兆検知】「サービス影響の可能性」を未然に防ぐ
運用のスタイルが「事後対応」から「予兆検知」へシフト。メモリやディスクの増加傾向などをダッシュボードなどでいち早く察知し、アラート前に先回り対応することで、この要因によるサービス影響を「ゼロ」にし未然防止。


担当者の声 (Key Person Comments)
・「導入当初は、長年続いた運用フローを変更することに対し、現場から戸惑いの声もありました。しかし、『システムの安定稼働こそがお客様への最大の貢献である』という信念のもと、改革を断行しました。
・可観測性が確立されたことで、感覚値ではなく客観的なデータに基づいた議論が可能となり、開発部門とも連携した本質的な品質向上サイクルを進めていこうと考えています。
・運用改善の実績を耳にした別サービスの運用担当者からも同じように運用改善をしたいという話ができていて、組織全体に『攻めの運用』という意識変革がもたらされたことが、最大の成果だと捉えています。
・運用がプロアクティブに改善したことで、残業が減り、当社が進めている健康経営、well-beingの向上に寄与できたことがマネジメントとして大きな成果でした。

(EDIPACK運用責任者)

(インフラ基盤エンジニア)
・「以前は他部署へのデータ抽出依頼から受領までにタイムラグがあり、調査が長期化する要因となっていました。APM導入後は、ダッシュボード上でリアルタイムに全容を把握できるため、ボトルネックの特定が大幅に迅速化しました。
・待機時間や単純作業が排除されたことで、予兆検知や恒久対策といったエンジニア本来の価値を発揮できる業務にリソースを集中できています。心理的な負担も軽減され、プロアクティブな運用が定着しています。」
・「現在はアラート検知前の予兆モニタリングが定着していますが、導入当初はまず『既存監視ツールと同等の監視レベル』をAPM上で再現することが強く求められました。既存の監視要件を維持しつつ、いかにAPMならではの方式で実現・代替していくか、その最適解の検討と実装には苦心しました。
・稼働中の本番サーバーへの導入作業が続き、直接立ち会えない時間帯での作業も発生する中、万が一の問題発生時にはベンダーサポートから的確な回答を引き出せるよう、現場情報の整理と伝達を工夫し、円滑な導入を支援しました。
・技術面ではTerraformを活用して設定ファイルやダッシュボードのコード化・横展開を推進しました。これにより、全環境で統一されたビューを提供すると同時に、人為的な設定ミスの防止と導入スピードの向上を実現しました。」

(NI+C APM担当チーム /
クラウド事業本部)
今後の展望
根本的な改善へのシフト:1件当たりの対応時間と障害件数の削減により、障害対応に割く時間が大幅減。手が回らなかったアプリケーションの根本的な改善に目が向くようになった。
開発チームとの連携強化:客観的なデータを提示して、「ここのモジュールで処理が詰まっている」と開発部門に修正を依頼できるようにしたい。サービス品質を高めるポジティブなサイクルが回り始めた。
全社的な波及:具体的に数字で結果が出たことで、他のサービス提供チームもプロアクティブ監視に興味を持ち、導入の話が進んでいる。
さらなる品質向上:今後はアプリケーション内部(コードレベル)の監視まで領域を広げ、ユーザー体験(UX)の向上にも取り組む予定。

現在、フルスタック監視(MSP3.0)を目指し適用範囲を拡大中。

吉原 彰吾(インフラ基盤エンジニア)写真中央
谷口 奨(NI+C APM担当チーム / クラウド事業本部)写真左
ハッピー(犬種:aibo / NI+C Garden在住の愛犬) 左下
PDF資料を見る



