合同会社DMM.com|DMM.comのビジネスアジリティと、50を超えるインターネットコンテンツサービスを支えるSREチーム
利用用途
インターネットコンテンツサービスのサービス品質を定量的に計測・評価し、顧客体験の向上とインフラ/アプリケーションの最適化にNew Relic Oneのフルスタックオブザーバビリティを活用
New Relicの選定理由と成果
- 経験に基づく推測からデータに基づく意思決定への変革
- アプリケーションモニタリングとオブザーバビリティ(可観測性)の強化
- キャンペーン実施時の観測データに基づいた合理的な負荷対策の実現
- インフラのクラウドへの移行推進と信頼性の高いサービス基盤の実現
DMM.com は、 動画配信、電子書籍、オンラインサロン、オンラインゲームなど50以上のサービスを提供する国内屈指のコンテンツサービスプロバイダーである。「DMMブックス」で扱う電子書籍はおよそ66万冊。
「DMM動画」では100,000タイトル以上の動画をダウンロード/ストリーミング販売しており、PCやスマホはもちろん、テレビ、ゲーム機からも視聴できる。
会員制コミュニティサービス「DMM オンラインサロン」の人気も上昇中だ。ITインフラ本部SRE部 部長の近藤英憲氏は次のように話す。
「ITインフラ本部では、DMM.com全体で提供する様々なサービスを支えるためにクラウドとオンプレミスを組み合わせたサービス基盤を運用しています。中でも動画配信のインフラは千数百台規模のサーバーからなる巨大なシステムです。私たちSRE部は、インフラのクラウド移行を加速させてビジネスアジリティを高め、より信頼性の高いサービス提供を支えるためのチームとして2019年に編成されました」
SRE部は多数の事業部門に対してインフラ面から様々なサポートを行うチームとして活動している。およそ130名の技術者で構成されるITインフラ本部のうちSRE部はわずか7名だが、近藤氏を含めそれぞれユニークなキャリアと高度な技術スキルを持つ。
「DMM.comの注力事業を中心にSRE部がサポートし、CI/CDパイプラインの構築や、クラウド上でサービスを安定的に提供するための改善を行っています。インフラやアプリケーションのモニタリング環境の強化には特に力を注いでおり、この一環としてNew Relic Oneの検討を始めたのは2020年の夏ごろでした」(近藤氏)
モニタリング環境の強化とエビデンスに基づいた負荷対策
DMM.comでは、ポイント還元などさまざまなキャンペーンを日々開催しており、その実施に伴うサービスへの負荷対策に問題を感じていた。
「大規模なキャンペーンやイベントを実施する際には事前にインフラを増強して備えるのですが、それでも過負荷でサービスが不安定になることがありました。お客様のより良いサービス体験を維持するためには、負荷を正確に予測して適切なリソースを準備しなければなりません。問題は、モニタリングの精度不足とエンジニアの経験に頼った負荷対策でした」と近藤氏は振り返る。
ITインフラ本部ではモニタリングツールを利用してCPUやメモリ使用率などを監視していたが、データベースクエリの実行時間、ユーザー環境での画面表示時間、外部APIとの接続時間など、近藤氏にとって「本当に欲しい情報」は収集できていなかったという。
「ユーザー体験に近いアプリケーションパフォーマンスを計測し、必要なログを収集し、エビデンスに基づいたリソース配備を組織的に行うためにNew Relic Oneを採用しました。キャンペーンのような一時的な負荷対策だけでなく、DMMオンラインサロンのように急成長するサービスのインフラを計画的に最適化していく目的にも、New Relic Oneはすぐに活用できると考えました」(近藤氏)
ITインフラ本部だけで130名、多数の事業部門が50以上のサービスを展開するDMM.comにとって、意思決定を「組織的に行う」ことは極めて重要だ。スムーズな合意形成には、「標準化されたモニタリング環境」と「誰にでも理解できるデータ」が必須になると近藤氏は考えた。
「実際にサービス基盤で何が起こっているのか、ユーザー体験がどうなっているのか、New Relic APMでこれらを可視化して関係者で問題点を共有し、組織として対策を具体化していく方法が最も合理的です。負荷対策はサーバー増強に限りません。アプリケーションの改善ひとつで、パフォーマンスボトルネックを解消できるケースは少なくないのです」(近藤氏)
シンプルなライセンス体系で大規模環境へ有利に適用
New Relic Oneは業界を代表するオブザーバビリティ(可観測性)プラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。ITインフラ本部は、New Relic Oneの豊富な機能セットのうちアプリケーションパフォーマンス管理(APM)から利用を開始した。
「私自身はアプリケーションエンジニアとしての経験が長いので、New Relic APMのインターフェースは直感的でとても理解しやすいものでした。組織やサービスを横断してメトリクスを取得できることも、DMM.comのインフラ全体がサポート範囲となるSRE部にとって大きなメリットです」と近藤氏は話す。
New Relic APMは、ITインフラ本部が運用する数千台規模のサーバー群のうち、動画配信、電子書籍、オンラインサロン、EC系を中心に適用が進められている。ITインフラ本部SRE部 エンジニアリングマネージャーの小野博志氏は次のように話す。
「私たちが検討を始めたタイミングで、New Relic Oneのライセンス体系がユーザー数と取り込んだデータ量に基づくシンプルな形に変更されました。これにより、大規模な環境でもコストを抑えられるようになったことが導入の後押しとなりました」
ITインフラ本部SRE部 エンジニアの遠藤純平氏は、SREの視点からNew Relic Oneの優位性を次のように紹介する。
「私たちが使っている開発言語、ライブラリ、フレームワークに幅広く対応していることが大きな安心材料です。また、New Relic Oneは分析の柔軟性という点でも優れていると感じました。NRQL(New Relicクエリ言語)を使えば、私たちが見たい情報を見たい形でチャート化して分析し、重要な洞察を得ることができます」
経験に基づく推測から、データに基づく意思決定へ
New Relic Oneから得られるデータは、近藤氏が期待した通り、ITインフラ本部とアプリケーション開発チーム、事業部門がサービス品質に関して話し合うときの「共通言語」として活用が進んでいる。
「New Relic APMを導入してデータを収集したところ、様々な問題が見えてきました。インデックスが効いていない大量のクエリを発行している、1つのリクエストで多数のコネクションが張られるといった、サーバーリソースの増強では解決しないような問題も次々に明らかになりました」と近藤氏は話す。
こうしたエビデンスをインフラチームとアプリケーションチームが共有することで、「まずはプログラムを見直してパフォーマンスを改善させよう」という判断が可能になったという。New Relic APMを使えばプログラム改修の効果も即座に確認できるので、それでも必要ならサーバー増設の判断ができる。
「経営層や事業部門に対して、顧客視点で説明しやすくなったことも大きいですね。たとえば、サーバー増設を検討するにあたって、CPU使用率で説明するよりも、New Relic APMで計測したレスポンスタイムを示して『顧客の利用体験がこれだけ悪くなっています』と話した方が、明らかに実感レベルが高いですから」(近藤氏)
インフラとアプリケーションという専門性の異なるエンジニア、経営や事業部門のマネージャーとエンジニア、立場の違う人たちが歩み寄って会話できるようになったことは大きな成果と言えるだろう。
「まさに、双方が連携してサービスをより良いものにしていくための『共通言語』ができたわけです。経験に基づく推測からデータに基づく意思決定へ、New Relic Oneが私たちの行動を変えつつあります」(近藤氏)
テックカンパニーへの変革を支えるSREチーム
小野氏と遠藤氏は、DMM.com全社へのNew Relic Oneの導入・活用を推進する中心メンバーだ。現在2人は、SREとしてDMM.comが注力するサービスへの導入プロジェクトに臨んでいる。
「DMMブックスへのNew Relic APMの導入を行った際に、セットアップを終えてわずか数分でパフォーマンスボトルネックを特定できた時は驚きました。インフラ視点では見えなかった問題点が見えるようになることで、問題解決までの時間は大幅に短縮されるでしょう。他のサービスへの横展開をどんどん進めながら、勉強会・トレーニングも実施していきたいですね」と小野氏は抱負を語る。
遠藤氏は、「New Relic APMでは、お客様から要求があったときインフラやアプリケーション上で何が起こっているのか、クエリの実行時間やディスクアクセス時間まで可視化されます。さらに、New Relic Browserと組み合せることで、お客様の利用体験を定量的に把握することもできます。New Relicの言うエンドツーエンドのオブザーバビリティ(可観測性)をまさに実感しています。これからのチャレンジは、膨大なアクセスと高負荷に耐えるインフラとアプリケーションの整備に、オブザーバビリティ(可観測性)を活かしていくことです」と続けた。
ITインフラ本部にSRE部が設置されて2年、チームを率いる近藤氏は、New Relic Oneの導入に確かな手応えを感じている。SRE部への期待が高まる中、近藤氏は全社への支援体制を強化するためにエンジニアの拡充に積極的に動いているという。
「必ずしもオールマイティなエンジニアを求めているわけではありません。『この分野には自信がある』『この領域なら自分の経験を活かせる』というのがひとつあればいい、足りないものはチームで補完できると考えています。DMM.comでは『DMM Tech Vision』を掲げてテックカンパニーへの変革を推進しています。このビジョンに共感していただける人に、チームの一員として伸び伸びと活躍してもらいたいですね」
「New Relic APMの社内での認知はかなり上がっており、導入したいという部門が増えてきました。フロントエンドエンジニアからは『欲しかった情報が全部手に入る』とNew Relic Browserへの期待も高まっています」(近藤氏)
「DMM Tech Vision」とテックカンパニーへの変革――SRE部はこの指針にどのように応えていくのか。近藤氏は次のように話した。
「全社のアプリケーション/システムを正しくモニタリングすること、必要なログを取得していつでも参照できるようにすること、重要なメトリクスを共有して組織的な改善につなげること――SRE部として目の前のテーマは山積していますが、スピード感をもって取り組んでいきます。こうした取り組みが、真のテックカンパニーへの着実な歩みとなるはずです。New Relic Oneは私たちが選んだ現時点で最も優れた製品です。私たちが使い続けるにふさわしい製品力をさらに磨き上げてほしいと願っています」