株式会社AbemaTV|新しい未来のテレビ「ABEMA」のSLI/SLOに基づく最適化への挑戦
- Year joined New Relic
-
2021
利用用途
“新しい未来のテレビ”として展開する動画配信サービス「ABEMA」のオブザーバビリティを向上させ、クライアント環境におけるSLI/SLOに基づく顧客体験の最適化にNew Relic Oneのフルスタックオブザーバビリティを適用
New Relicの選定理由と成果
- オブザーバビリティ(可観測性)の実現と組織的な運用監視体制の構築
- 独自に定義したSLI/SLOに基づく適切かつ合理的な意思決定の実現
- チーム間連携が必要なインシデント対応が迅速化され、解決までに要する時間を半日から数分程度まで短縮
“新しい未来のテレビ”として展開する動画配信サービス「ABEMA」の成長が止まらない。「ABEMA」の強みは、国内唯一の24時間編成のニュース専門チャンネルをはじめ、オリジナルのドラマや恋愛番組、アニメ、スポーツなど多彩なジャンルのコンテンツを24時間365日放送するほか、有料オンラインライブ「ABEMA PPV ONLINE LIVE」や月額サブスクリプション「ABEMAプレミアム」など多岐に渡るビジネスモデルにある。エンジニア兼マネージャーとしてネイティブアプリ開発チームを率いるとともに、クライアント戦略室のリーダーを務める波戸勇二氏は次のように話す。
「2021年6月に、ABEMAアプリのダウンロード数が6,800万を突破しました。ウィークリーのアクティブユーザーは1,200万を推移し、ABEMAでのニュースやエンターテインメントの視聴習慣を定着化させながらメディアとしての存在感を高めています」
「ABEMA」で配信されるオリジナルエピソード数は、国内発の動画サービスで日本No.1を誇り(2021年4月時点、株式会社AbemaTV調べ)総エピソード数は常時約30,000本以上が配信されています。サービス基盤はGoogle Cloud Platform(GCP)を中心に構築され、AWSやプライベートクラウドとも連携する。2018年に総視聴数7,400万という72時間のライブ配信を実施した際に「障害ゼロ」を達成したことで、「ABEMA」はその優れた技術力を世に知らしめた。
「私自身はサービスの立ち上げ直後からABEMAに参画し、クライアントエンジニアとして主にiOSアプリの開発に携わってきました。ネイティブグループでは、iOS/Androidを開発しています。ABEMAではその他にWeb/IPTV/Apple TV/Android TVなど様々なプラットフォームに対応しており、その全体戦略の策定と推進を担うのがクライアント戦略室です」(波戸氏)
2021年1月、「ABEMA」開発局はNew Relic Oneを導入。サービスレベル指標(SLI)およびサービスレベル目標(SLO)の定義と、これに基づくサービス品質向上へのチャレンジを開始した。
より良い顧客体験を実現するためのオブザーバビリティ
動画配信サービス「ABEMA」では、より良い顧客体験を実現するために、各プラットフォームに最適化した洗練されたUI/UXを追求しユーザーの使用感を高めている。
「ユーザー体験をより良いものにするために、チーム内での議論やテストを積み重ねながら開発・改善を続けています。高速なリリースサイクルには長短ありますが、品質を維持しながら高速に改善サイクルを回すことができることで仮説・検証の精度を上げていき、素早くユーザーのニーズに応え継続的に改善をすることができるようになりました」と波戸氏は話す。
「ABEMA」では、クライアントからネットワーク、API、Webアプリケーション、インフラまで顧客体験に大きく影響する要素は広範に及ぶ。だが、「モニタリングの仕組みは必ずしも満足できるものではなかった」と波戸氏は言う。
「開発者ごとにFirebaseやBugSenseを使ったパフォーマンスやエラーの監視を行ってきたのですが、何らかの指標を持ってチーム全体でサービス品質を管理するというところまでは至っていませんでした。私たちは、ユーザー体験のオブザーバビリティ(可観測性)を向上させるとともに、組織的な運用監視体制を構築するという基本方針を掲げ、New Relic Oneを採用しました」
クライアント戦略室主導でDevOpsへの取り組みが進められており、ネイティブグループでは、計画、開発、テスト、デプロイ、モニタリングのプロセスをいかに効果的に回していくかを議論してきた。それぞれのフェーズにおける課題を洗い出す過程で、「オブザーバビリティ」の重要性が共通認識として示されたという。波戸氏らはこれを実現するための3つの製品を慎重に検討した。
「New Relic Oneは、私たちが設定した7つの評価項目(コスト、機能性、信頼性、使用性、効率性、保守性、移植性)のトータルで最も高いスコアを獲得しました。ユーザー数と取り込んだデータ量に基づくシンプルなライセンス体系、私たちの判断でデータ量を柔軟にコントロールできることは、New Relic Oneならではのメリットと言えるでしょう」(波戸氏)
シンプルなライセンス体系とダッシュボードの柔軟性・機能性
New Relic Oneは業界を代表するオブザーバビリティ(可観測性)プラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化。オブザーバビリティ(可観測性)を実現するためのすべての機能セット「Telemetry Data Platform」「Full-Stack Observability」「Applied Intelligence」を横断的かつ包括的に利用できる。
「ダッシュボードの柔軟性と機能性も、New Relic Oneを高く評価したポイントのひとつです。見たい情報を見やすいチャートとして表示したり、しきい値に基づくアラートを設定することも容易です。New Relicクエリ言語(NRQL)を使いこなせば、収集したメトリクスデータのクエリやフィルタリングを自由に行えますので、私たちが本当に欲しい情報を素早く手に入れて『やるべきこと』を即座に実行できると期待しました」と波戸氏は話す。
波戸氏の狙いは、「ユーザー体験(Availability/Latency)を監視して、指標に基づいて合理的にアクション(やるべきこと)を決める」ことにあった。
SLI/SLOを定義し適切かつ合理的な意思決定を可能に
New Relic Oneによるフルスタックオブザーバビリティが、「ABEMA」のより良い顧客体験を実現するための新しい行動指針をもたらす。
「ABEMAにサービスレベル指標(SLI)およびサービスレベル目標(SLO)を定義し、これに基づく合理的な判断とアクションを全体に行き渡らせることがチャレンジです。クライアント領域でのSLI/SLOの導入は世界を見渡してもほとんど例がないため、試行錯誤しながら継続的に取り組んでいます」と波戸氏は話す。
たとえば、特定のコンテンツを表示するまでの時間に対しては、SLI(評価指標)を「コンテンツが表示されるまでにかかった時間がX秒以下のセッションの割合」、SLO(目標値)を「95.0%」といった具合に定められる。
「SLOを達成していなければ、アプリケーションの改修やリソースの増強など具体的なアクションが必要になります。逆にSLOを達成しているときには、それを大きく上回る性能は過剰品質になるわけです。New Relicが可視化した情報に基づき、状況に応じて開発チームのリーダーが適切かつ合理的に意思決定できる環境を目指しています」(波戸氏)
SLI/SLOを定義するための基礎となったのが、SREチームが策定した「モニタリングクオリティレベル」と呼ばれる14段階におよぶガイドラインだ。
●レベル0:モニタリングを行っていない状態
●レベル1:メトリクスの収集と可視化を行っている状態
●レベル3:アラートを設定し、システム状態の不具合を検知できる状態
●レベル4:問題を検知したときの対応フローが整備されている状態
・・・
●レベル7:サービスレベル指標(SLI)が設定されサービスの健全性を評価する軸が定まっている状態
●レベル8:サービスレベル目標(SLO)が設定されサービスの健全性に対して維持すべき閾値が定まっている状態
・・・
「iOS版のABEMAアプリでは、現時点でレベル4の段階ですが間もなく7~8に到達するでしょう。今後はすべてのプラットフォームへ横展開しつつレベルを向上させながら、全体でモニタリングクオリティを均質化していきます」(波戸氏)
オブザーバビリティの向上をビジネスの成果へ
New Relic Oneの導入から約半年、徐々に効果があらわれているという。
「オブザーバビリティが向上したことで、これまで見えなかった有益な情報が見えるようになりました。たとえば、API連携でボトルネックが発生している可能性を調べるにはネットワークやサーバーサイドのチームとの協力が不可欠でしたが、クライアントサイドで原因を把握できるケースも増えています」
アラートのフィルタリングやチューニングによって「意味のあるアラート」へ絞り込む対応も進んでいる。アラートはSlackと連携し、SREチームはスレッドからクリックしてNew Relic Oneのダッシュボードを参照できる。
「何か遅いな、不調かな、と気づいたSREがその時点で見に行くような従来の運用監視から、アラートを受け取ったらNew Relicのダッシュボードで状況を即座に把握し、関係者と情報共有して迅速に対応する、という体制に変わりました。半日を要していたインシデント対応を、数分で解決できるようになった例もあります」
SRE業務の変革は目に見える効果のひとつだが、今後はビジネス視点での成果もさらに生まれてくるだろう。波戸氏は次のように話して締めくくった。
「New Relicのオブザーバビリティを活用することで、SLI/SLOの定義と運用が少しづつ形になってきました。『守るべきサービス品質』と『攻めの開発』をバランスよく両立させ、より良い顧客体験を実現するためにどのようにリソースやコストを投入するか、合理的に意思決定できるようになるはずです。
今後は、クライアントオブバーバビリティをさらに探求するとともに、ビジネスKPIを根拠に持つSLI/SLOを策定していきたいと考えています。New Relicには、これからも私たちのビジネスをしっかりとサポートしてもらえることを期待しています」