「auブランド」の人気ポータルにおける予測・計測・実証を通じたサービス品質の向上
利用用途
medibaが運営する「auスマートパス」「au Webポータル」などのau関連サービスをモニタリングし、ユーザー体験に影響するパフォーマンスボトルネックの検知・早期解決にNew Relic Oneを活用
New Relicの選定理由と成果
- フロントからバックエンドまで横断的にメトリクスを収集し顧客体験を一目瞭然に
- パフォーマンスボトルネックの発生箇所と原因の特定、問題解決を迅速化
- 顧客価値を生み出すための予測・計測・実証の試行錯誤を実施可能に
- ビジネスと経営とエンジニアの「共通言語」となるダッシュボードを整備
auスマートパス、au Webポータル、ポイントためる、auゲーム、au占い、auウェルネス――medibaは、KDDI グループの一員としてauブランドの人気ポータルサービスなどを運営している。1,500万人超という国内最大規模の有料会員を擁する「auスマートパス」では、コンテンツの企画・開発・編集からサービス運営までをトータルに担う。テクノロジーセンター CTO準備室の佐藤崇氏は次のように話す。
「モバイル通信業界は再び大きな変革期に突入しました。medibaのミッションは、お客様が『auを長く使い続けたい』『auと共に人生を過ごしたい』と思っていただけるポータルサービスの提供を通じて、auブランドの価値向上に貢献することです。私たちテクノロジーセンターでは、お客様に快適で使い勝手の良いポータルサービスをお届けするために、システムとアプリケーションを常に磨き上げています」
medibaでは「ヒトに“HAPPY”を」という企業理念を掲げ、顧客価値の高いサービスの創造に取り組んでいる。アプリケーション開発、UI/UXデザイナー、SRE/アーキテクトなど、80名を超えるテクノロジーセンターのエンジニアの行動指針にもこの理念が根づいている。
「medibaでは、サービス/プロダクト単位でエンジニアチームを編成し、1チームに1名のSREをアサインしてきましたが、2020年度にこれを見直しSREチームがプロダクト横断型の共通サービスを提供する体制に移行しました。より良いお客様体験を基礎から支えているのは、バックエンドのインフラとアプリケーションです。安定的に高いパフォーマンスを発揮させるシステム運用のナレッジを、プロダクト単位でなく、全社レベルで活用すべきと考えたのです」と佐藤氏は話す。
2021年9月、medibaはテクノロジーセンターの新体制を支える基盤ツールとして、オブザーバビリティ(可観測性)プラットフォームNew Relic Oneの本番環境での利用を開始した。
Site Reliability Engineeringを実践するチーム
medibaのテクノロジーセンターにおけるSREチームの業務範囲は広い。そのミッションは、ビジネス目標に合致したテクノロジーの選定、クラウド上でのインフラ設計と構築、運用監視とトラブルシューティングまで、システムアーキテクトとしての役割までを網羅するものだ。
「Site Reliability Engineeringを実践するためのチームとして幅広く業務を定義しています。特にインフラまわりの設計に関してはSREチームがリードする形にこだわりました。モダンなシステム環境でより良いサービス品質を追求していく上では、SREであるエンジニアにはアプリケーションとインフラ双方への理解が求められます。Infrastructure as Code(IaC)を使いこなすスキルも欠かせません」(佐藤氏)
medibaが運営するサービス基盤の大部分はAWS上に構築されており、適材適所でGCPやAzureを組み合わせている。ユーザー管理・認証はKDDIが運営するシステムとAPIを介して連携する仕組みだ。テクノロジーセンター SRE UNITの板谷藍子氏は次のように話す。
「これまで利用してきたモニタリングツールは、システムの死活監視やリソース監視にとどまっており、アラートが発せられたときユーザー体験にどれだけの影響があったのか、レスポンスがどれだけ遅延したのかを把握することは困難でした。New Relic Oneのアプリケーションパフォーマンス管理(APM)では、フロントからバックエンドまで横断的にメトリクスを収集し、お客様の体験をダッシュボード上で一目瞭然にできます。さらに、パフォーマンスボトルネックの発生箇所と原因の特定も容易にし、問題解決までのリードタイムを短縮できます」
New Relic Oneは業界を代表するオブザーバビリティ(可観測性)プラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。業界標準の指標である「Apdex」を用いた顧客満足度の評価も可能だ。
New Relic Oneを活用した予測・計測・実証
medibaがNew Relic Oneを選択した狙いは、ユーザー体験の可視化や問題解決の迅速化にとどまらない。佐藤氏は次のように話す。
「より良いお客様体験、より優れたお客様価値を追求するためのインフラやアプリケーションの改善には、予測・計測・実証のサイクルが必須だと考えています。様々なケースを想定した環境を用意して、アプリケーションパフォーマンスを計測し、実際に期待通りのサービス品質が得られるかを検証する――New Relic Oneならコストを抑えながらこうした試行錯誤が可能になります」
New Relic Oneは、ユーザー数と取り込んだデータ量でコストが決まるシンプルなライセンス体系を採用しており、APM、Infrastructure、Browser、Logs、Syntheticsなどすべての機能セットを利用できる。エンジニアが複数のテスト環境を用意して試行錯誤を繰り返しても、想定以上のコストを発生させないメリットがある。
「New Relic Oneの導入により、私たちはシステムリソースの監視からアプリケーションパフォーマンス管理へ、従来型のシステム監視からオブザーバビリティ(可観測性)へと大きく転換します」(佐藤氏)
メトリクスを全社の共通言語として使う
New Relic Oneの本番環境への導入は、ユーザーが楽しみながらPontaポイントを貯められるサービス「ポイントためる」から始まった。SRE UNITの土井淳氏は次のように話す。
「お客様の画面遷移が極端に遅い事象がアクセス分析ツール上で確認されていたのですが、その原因がアプリケーションコードにあるのか、インフラなのか、ネットワークなのかを特定できないまま課題として残されていました。New Relic Oneの利用を開始し、アプリケーションプロセス全体がダッシュボード上に可視化されて即座に原因が特定されたとき、改めてオブザーバビリティ(可観測性)の威力とメリットを実感しました」
New Relic One のAPMは、Webアプリケーションのレスポンスタイム、スループット、エラー率、トランザクションなどを可視化するとともに、ユーザー体験に影響するコードやコード間の依存関係をリアルタイムで特定する。こうしたメトリクスは「ユーザーの体感」として解釈可能であり、SREチームがサービス品質を改善するための有益な情報が含まれている。この情報の価値をビジネス部門や経営層と共有する試みも始まっている。SRE UNITの北浦智也氏は次のように話す。
「お客様のサービス体験を、ビジネスや経営の視点で直感的に把握できるダッシュボードの開発を進めています。サービスの品質や信頼性を同じ指標で評価し、同じ意識をもって改善に取り組むことができれば、ポータルサービスのお客様価値をさらに高めることができるはずです。SREチームとしては、エラーバジェットの考え方を採り入れてSLI/SLOを制定するところまで行きたいと考えています」
「New Relic Oneのメトリクスを、ビジネスと経営と開発エンジニアとSREの『共通言語』として活用できるよう、洗練されたダッシュボードの完成を目指してSREチームを中心に開発を進めています。ベストプラクティスを探す試行錯誤を続けていきます」と板谷氏は話す。
SREチームのあるべき姿を目指して
medibaテクノロジーセンターにおける、Infrastructure as Code(IaC)によるインフラ構築・運用自動化への取り組みは先進的だ。クラウド上でのデータベース構築、サービスの立ち上げやアップデートに伴う本番環境へのデプロイはAnsibleによって自動化されている。
「全社を見渡すとTerraformとCloudFormationが広く使われているのですが、いまSREチームではTerraformでNew Relic Oneのアラート設定を進めているところです。アラートのしきい値を設定する際に、メトリクスを指定するところでNRQL(New Relic Query Language)を便利に使っています」(北浦氏)
New Relic Oneの活用が進むことで、アプリケーションのプロセス全体が可視化され、トラブルシューティングは迅速化され、プロアクティブな運用管理も可能になり、そしてアプリケーション品質の向上も期待できる。佐藤氏は「New Relic OneはSREチーム自身にも変化をもたらしつつある」と言いつつ次のように続けた。
「SREチームはインフラ設計と構築に力を注いできた時期が長かったのですが、現在はアプリケーションの改善に貢献し、お客様体験をより良いものにしていく役割が期待されています。SREチームには、これに応えるためにNew Relic Oneをフルに活用し、予測・計測・実証のサイクルを高速に回しながら、ポータルサービスの品質向上に貢献してもらいたいと考えています。New Relic Oneは、様々な試行錯誤を行うための理想的なツールです。これからも技術支援を含めて私たちのビジネスを支えてもらえることを願っています」