1日の売上5.5億円を達成、SRE・開発チームが一体となった「LOWYA」のパフォーマンス向上へのチャレンジ
- Year joined New Relic
-
2020
- Featured Use Cases
利用用途
家具・インテリアのECサイト「LOWYA」におけるオブザーバビリティ活用を進化させ、SREチームとLOWYA開発チームが一体となってECシステムの信頼性向上とユーザー体験改善のサイクルを加速
New Relicの選定理由と成果
- 成長を続ける家具・インテリアのECサイト「LOWYA」におけるオブザーバビリティの更なる活用
- セールやTV放映に起因する突発的なシステム高負荷に起因するパフォーマンス問題の解決を迅速化
- LOWYA開発チーム主導で検討したクリティカルユーザージャーニー(CUJ)に基づきSLOを再定義
- SREチームとLOWYA開発チームが一体となって着実に改善サイクルを推進
利用機能
- New Relic APM
- New Relic Mobile
- New Relic Browser
- New Relic Logs
- New Relic Infrastructure
- New Relic Synthetics
- New Relic Service Levels
- New Relic Workloads
家具・インテリアのECサイト「LOWYA」を展開する株式会社ベガコーポレーションが、新たな成長戦略を打ち出した。2022年9月にイオンスタイル幕張新都心(千葉県)で、続く10月にはイオンスタイル北戸田(埼玉県)で卸売販売を開始し、2023年初春には創業以来初となる直営店を開業予定だ。インターネット通販に特化してビジネスを成長させてきた同社にとって、大きな転換点となるチャレンジだ。システム統括部 SRE部 部長 兼 SREグループでリーダーを務める小原一真氏は次のように話す。
「お客様にもっとLOWYAブランドを知っていただきたい、LOWYAの商品を実際に体験していただきたい、というのがリアル店舗展開の大きな狙いです。私たちが目指しているのは、EC事業にしっかりと軸足を置きながら、オンラインとリアルが融合するD2C(Direct to Consumer)のビジネスモデルです」
年商およそ200億円――EC事業を順調に拡大するベガコーポレーションが、「LOWYA」のサービス基盤を汎用ECパッケージから自社開発のECシステムに移行したのは2020年8月のことだ。モダンなアーキテクチャーを採用したバックエンドシステム、購入者の使い勝手が工夫されたスマホアプリは、LOWYAに優れたユーザー体験をもたらした。AR(拡張現実)技術を組み込んだ専用アプリでは、購入者が自分の部屋の撮影イメージにソファーやベッドを仮想的に配置して、大きさや色味、レイアウトのイメージを購入前に確認できる。
「LOWYAでは、家具・インテリアという大型で比較的高単価の商品を、お客様に安心してお買い求めいただくために様々な工夫を採り入れています。自社開発のECシステムだからこそ、ARによる配置シミュレーションなど、競合優位性につながるリッチなコンテンツの提供が可能になりました。在庫・配送管理など、業務系システムとのリアルタイム連携も万全に作り込みました」(小原氏)
オブザーバビリティプラットフォームNew Relicは、LOWYAサービス基盤の刷新とともに2020年に導入された。それから2年以上が経過し、ベガコーポレーションにおけるNew Relicの活用は目覚ましい進化を遂げている。
年に一度のイベント「608(ロウヤ)の日」の売上5.5億円を達成
New Relicは業界を代表するオブザーバビリティプラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。
「SREチームのミッションの一つとして、システムの信頼性向上を通じてお客様のサービス体験をより良いものにしていくことが挙げられます。処理要求が高まってもシステムがボトルネックにならない状態を維持し、何らかの問題が発生したときには速やかに原因を特定して解決することが求められます。New Relicは、SREチームの活動を支える基盤ツールとして、システム全体を見通したモニタリングとトラブルシューティングに欠かせないものです」(小原氏)
日々の稼働監視と問題解決、中長期でのシステムの負荷対策や設計改善、顧客体験向上のためのサービスレベル指標・目標(SLI/SLO)の制定、オブザーバビリティの提供と知識の共有など、全社横断的な技術組織としてのSREチームの活動範囲は多岐にわたる。
「毎年6月8日に行われるイベント『608(ロウヤ)の日』は、トランザクションが通常の数倍に跳ね上がるため今年も慎重な負荷対策を行って臨みました。結果としては、パフォーマンス劣化による機会損失を発生させることなく、過去最大となる1日の売上5.5億円を達成することができました。しかし、実はイベント開始直後から様々な問題が発生していたのです」とSREグループの石内涼太氏は振り返る。
LOWYAのバックエンドシステムは、Amazon ECS/AWS Fargate上で稼働するモダンなコンテナアプリケーションである。SREチームは、事前にAmazon Aurora(RDB)をスケールアップし、イベント時間や広告配信のタイミングに合わせてAPIをスケールアウトするためにPre-Warmingを行って万全に備えていた。
「ところが、イベントが始まるとAuroraの最大接続数を超えるトランザクションが発生し、注文完了メールの配送能力を上回る速度で注文が殺到しました。メール遅延の影響で多重注文が発生したことも事態を悪化させた要因です。New Relicはこれらの問題を即座に検知し、迅速な原因の特定に威力を発揮しました。私たちは速やかに必要なリソースを確保し、コード修正にも対応して深刻なサービス影響を回避することができました」とSREグループの髙原宏介氏は話す。
SREチームは、その後も様々なイベントやTV放映に伴う様々なバーストトラフィック体験を経て、New Relicによる問題解決のスキルを向上させていった。さらに、CDNを効果的に活用して負荷対策を強化するとともに、New Relicが定量的に示したパフォーマンスやユーザー体験の分析を通じて着実にLOWYAサービス基盤の信頼性を高めている。
「パフォーマンス定点観測会」による継続的な改善
SREチームは、LOWYA開発チームとともに「パフォーマンス定点観測会」を週次で実施している。全社で共有するビジネスKPI(流通取引総額:GMV)の達成に向けて、サービス基盤のパフォーマンス・可用性を継続的に改善させることが大きな目的だ。
「バックエンド、フロントエンド、アプリ、インフラを担当するおよそ20名のメンバーが参加して毎週議論を重ねています。New Relicのメトリクスを全員で確認しながらスコアの変化を把握し、課題やナレッジを共有するとともに必要に応じて対応すべきタスクを決めていきます」(小原氏)
顧客サービスの向上を目的とするLOWYAの新機能は次々とリリースされている。しかし、新機能がシステム負荷を増大させ、ユーザー体験を低下させる要因になっているとすればどうだろう。
「主要なページで、機能リリース後の応答率は正常か、表示エラーはないか、レイテンシは許容範囲かといったことを見ていきます。前週との比較でスコアが低下しているなら対策を具体化し、状況によっては追加の機能リリースを保留してパフォーマンス強化策を優先させるような判断もあり得ます。New Relicのメトリクスを共通の指標として、LOWYAの開発(Dev)と運用(Ops)に携わっている全員がそれぞれの視点から問題に気づいて議論し、改善のサイクルを回しています」とSREグループの髙品純大氏は話す。
「パフォーマンス定点観測会」では、New Relicで収集するメトリクスの最適化も検討される。ときに、アラートの断捨離、利用コストの最適化、エラーログの整理なども議論の対象となる。
「New Relicの『分散トレーシング』の活用に着手しましたが、開発チームと議論を重ねた結果、現時点では十分な成果が得られるほど使いこなせないという判断をしました。『やるべきこと』をしっかりと行い、私たち自身のNew Relic活用のステージを上げるタイミングで再度チャレンジする予定です」(小原氏)
「SLOの再定義」にNew Relic Service Levelsを活用
LOWYAの開発・運用チームが「やるべきこと」とは何か――小原氏は次のように話す。
「クリティカルユーザージャーニー(CUJ)の観点からサービスレベル目標(SLO)を再定義し、より現実に即したユーザー体験の向上を図ることです。従来は、APIの平均応答時間、ページ平均表示速度、アプリ全体のエラー率などをサービスレベル指標(SLI)として、それぞれの目標値(SLO)を定めていました。しかし、よほど深刻な問題が発生しない限りSLO違反になることはなかったのです」
CUJとは、ユーザーがWebサイトで「ひとつの目的」を達成するまでに必要な動作のこと。LOWYAの例を挙げるなら、「購入ボタンをクリックし、決済処理が行われて完了画面が表示されるのを待つ」といったユーザー体験そのものである。
「LOWYAの開発チーム主導で、『お客様にとってクリティカルな体験とは何か』『それが何秒以内ならお客様が不満を感じないか』を徹底的に議論し新しいSLOを制定しました。開発チームが自らCUJとSLIを決めること、SLOは定期的に見直すこと、SREチームはサポートに徹することがポイントです。New Relicが2022年5月から提供している機能『Service Level Management(SLM)』を使えば、SLOの観測と可視化は非常に容易です。エラーバジェットの消費ペースを把握しながら、より良い改善策を検討できるようになりました」と小原氏は話す。
SREチームは、APM、Browser、Mobile、Infrastructure、SyntheticsなどNew Relicの多彩な機能群をフルに活用している。LOWYAの開発チームが使うカスタムダッシュボードの作成には「Workloads」と呼ばれる機能を利用した。
「New Relic Workloadsでは、関連するリソースを紐づけるだけで自動的にダッシュボードを生成することができます。Service Levelsと組み合せることで、新しいSLOを適用したダッシュボードを手間なく整備することができました。さらに、経営陣やビジネスチームが意思決定に活用できる新しいダッシュボードの開発も検討しています。サービスの遅延や停止時間だけでなく、これに伴う損失額などを示すことができれば、ビジネス視点での活用がさらに進むものと期待しています」(小原氏)
OMO型D2C企業を指向するベガコーポレーション
New Relicの導入からおよそ2年半、小原氏はその成果を次のように話す。
「システムやサービスの改善は継続性こそが重要で、エンジニア一人ひとりの取り組みだけでなくチームプレイが不可欠です。New Relicというプラットフォームの活用が根づいたことで、SLI/SLOという共通指標に基づくコミュニケーションとアクションが可能になり、エンジニアに負担をかけることなく改善サイクルが回るようになりました。トラブルシューティング迅速化の効果も含め、New Relicの働きはエンジニア3人分かそれ以上に匹敵します」
小原氏は、New Relicのユーザーコミュニティ「New Relic User Group(NRUG)」の運営メンバーとして精力的に活動している。そのモチベーションはどこから生まれるのか。
「立場は違えども同じSREである運営メンバーとのコミュニケーションが、私自身の知識やスキルを向上させてくれます。NRUGでの活動を通じて最新のオブザーバビリティを学び、メンバーとともにお互いの技術を高め合えるのは何事にも代えがたい経験です」(小原氏)
オンラインとリアルが融合するD2C(Direct to Consumer)のビジネスモデルを指向するベガコーポレーションにとって、New Relicのオブザーバビリティはこれからどのように貢献できるだろうか。小原氏は次のように結んだ。
「ビジネスの成長・拡大とともに、それを支えるシステムが複雑化していくのはある意味宿命とも言えます。そうした状況で技術負債を残すことなくサービス基盤を進化させていくことが、SRE部に課せられた重要なテーマです。New Relicのオブザーバビリティをさらに使いこなすことで、システムの健康状態を正しく維持し、信頼性を損なうリスクを低下させながら、より洗練されたお客様体験を実現できると確信しています。New Relic社には私たちのビジネス成長のために、適切なアドバイスと技術サポートを期待しています」
こちらも併せてご覧ください(ご導入時事例)
・自社開発ECシステムによる「LOWYA」のサービス体験を改善し売上向上に貢献