
はじめに
こんにちは、ぐるなびでデータエンジニアをしている大塚です。
私は現在、ぐるなびが長年蓄積してきた膨大なデータを、全社で安全かつ快適に活用するための「データ基盤」の構築・運用を担当しています。
創業から長い歴史を持つ弊社には、言わば「秘伝のタレ」のように継ぎ足されてきたデータやシステムが多く存在します。そんな老舗企業ならではのデータの悩みに向き合い、モダンな環境へと刷新していくのが私のミッションです。
今回は、近年で取り組んだデータ基盤の刷新プロジェクトの裏側と、そこで見えてきた「正直、まだここが足りていない!」というリアルな課題、そしてこれからの展望について赤裸々にお話しします。
「データの民主化」への第一歩
さて、ちょうど昨年の11月、弊社のCTOが「データ民主化」についての記事を公開しました。 (※参照:Snowflake World Tour Tokyo 2024 に登壇しました)
この記事の中で、データ民主化を阻む3つの壁の一つとして「データ資産のサイロ化」が挙げられており、その課題を解決するべく「データ・ツールの集約化」のための仕組みを整えたことが紹介されています。
これにより確かにデータ利活用は促進されましたが、この頃はまだデータ移行が完了しておらず、データ基盤そのものや、運用といったところにはまだまだ課題が残っていました。
やったこと:モダンデータスタックへの刷新
まずは、私たちがこの1年で実施した技術的な刷新内容をご紹介します。キーワードは「脱レガシー」と「モダン化」です。
- DWHの刷新: 従来のAmazon EMRから、フルマネージドな Snowflake へ移行
- ETL処理のコード化: 内製ETLツールを廃止し、dbt (data build tool) を導入
- データ処理基盤の移行: AWS Glue で行っていた処理の一部を Snowpark へ移行
- インフラのコード管理: Terraform を導入し、IaC (Infrastructure as Code) を実現
- レガシー資産の整理: 古くなった内製ツールやワークフローを廃止・統合
字面だけ見れば、かなり今風の「モダンデータスタック」が完成したように見えます。 実際、ツールが統一されたことでデータの利便性は向上しました。しかし、「基盤担当者としての本音」を言えば、これはまだ道半ば……いや、スタート地点に立ったに過ぎません。
正直な話、「リフト」はできたが「シフト」ができていない
この1年間は、旧システムから新システムへデータを移行し、古いワークフローを止め、データの棚卸しをするだけで手一杯でした。 その結果、何が起きたかというと、「システムはSnowflakeになったが、中身の設計思想はレガシーなまま」という状態が発生してしまいました。
いわゆる、「リフト&シフト」の「リフト(持ち上げて移動)」だけで力尽きてしまったのです。
具体的には、以下のような課題(妥協点)が残っています。
🚧 課題1:データレイク不在問題
理想的な構成であれば、生データ(Raw Data)を保持する「データレイク層」を明確に定義すべきですが、現在はデータソースを加工せずにそのまま保持する層が不十分です。データの源泉を辿り直す際のトレーサビリティに課題があります。
🚧 課題2:モデリングの最適化不足
移行スピードを優先するため、既存のジョブのロジックを解析し、「いくつかのパターン」に分類して、それを新環境に当てはめる方式を取りました。 結果として、Snowflakeやdbtの強みを活かした「あるべきデータモデリング」への再設計ができず、旧来の非効率な処理フローを引き継いでしまっています。
🚧 課題3:複雑すぎる連携とコスト
データの取り込みパターンが統一されておらず、運用負荷が高い状態です。また、Snowflakeデータの連携先(Google Cloud Storageや古い外部BIツールなど)へのデータ転送コストが依然としてかかり続けています。
目指すゴール:真に「筋肉質」なデータ基盤へ
現状の課題は山積みですが、ポジティブに捉えれば「伸びしろしかない」状態です。 私たちは今、単にデータを貯める場所ではなく、「筋肉質なデータ基盤」への進化を目指しています。
私たちが描くロードマップは以下の通りです。
- 「Snowflakeを見れば全てがわかる」状態の確立
- データのサイロ化を完全に解消し、シングル・ソース・オブ・トゥルース(SSOT)を実現します。
- アーキテクチャの最適化
- Apache Iceberg などのオープンフォーマットの採用を検討し、コスト効率と柔軟性を高めます。
- 単なるリフトで終わらせず、dbtを活用した適切なデータモデリングへリファクタリングを進めます。
- ビジネス貢献への直結
- Snowflake Intelligence などを活用し、営業担当者が自然言語で問いかけるだけで必要なデータが得られる「AIエージェント」の構築を目指します。
最後に
私たちのデータ基盤刷新プロジェクトは、「ツールの導入」という第一フェーズを終え、「活用と最適化」という第二フェーズに入りました。
「モダンなツールを入れたら魔法のように全てが解決した」なんてことはありませんでした。 しかし、土台(Snowflake + dbt + Terraform)が整った今だからこそ、これからの改善サイクルは劇的に速くなると確信しています。
「未熟な基盤を、最強の基盤に育て上げる」 そんなエンジニアリングの醍醐味を味わいたい方、老舗企業のデータ改革という難問に一緒に挑んでくれる方、もし興味があればぜひお話ししましょう。
