【アドベントカレンダー2025】Snowflake移行はゴールじゃない!老舗企業が直面した「リフト止まり」の現実と、そこから描く筋肉質な未来地図

はじめに

こんにちは、ぐるなびでデータエンジニアをしている大塚です。

私は現在、ぐるなびが長年蓄積してきた膨大なデータを、全社で安全かつ快適に活用するための「データ基盤」の構築・運用を担当しています。

創業から長い歴史を持つ弊社には、言わば「秘伝のタレ」のように継ぎ足されてきたデータやシステムが多く存在します。そんな老舗企業ならではのデータの悩みに向き合い、モダンな環境へと刷新していくのが私のミッションです。

今回は、近年で取り組んだデータ基盤の刷新プロジェクトの裏側と、そこで見えてきた「正直、まだここが足りていない!」というリアルな課題、そしてこれからの展望について赤裸々にお話しします。

「データの民主化」への第一歩

さて、ちょうど昨年の11月、弊社のCTOが「データ民主化」についての記事を公開しました。 (※参照:Snowflake World Tour Tokyo 2024 に登壇しました

この記事の中で、データ民主化を阻む3つの壁の一つとして「データ資産のサイロ化」が挙げられており、その課題を解決するべく「データ・ツールの集約化」のための仕組みを整えたことが紹介されています。

これにより確かにデータ利活用は促進されましたが、この頃はまだデータ移行が完了しておらず、データ基盤そのものや、運用といったところにはまだまだ課題が残っていました。

やったこと:モダンデータスタックへの刷新

まずは、私たちがこの1年で実施した技術的な刷新内容をご紹介します。キーワードは「脱レガシー」と「モダン化」です。

  • DWHの刷新: 従来のAmazon EMRから、フルマネージドな Snowflake へ移行
  • ETL処理のコード化: 内製ETLツールを廃止し、dbt (data build tool) を導入
  • データ処理基盤の移行: AWS Glue で行っていた処理の一部を Snowpark へ移行
  • インフラのコード管理: Terraform を導入し、IaC (Infrastructure as Code) を実現
  • レガシー資産の整理: 古くなった内製ツールやワークフローを廃止・統合

字面だけ見れば、かなり今風の「モダンデータスタック」が完成したように見えます。 実際、ツールが統一されたことでデータの利便性は向上しました。しかし、「基盤担当者としての本音」を言えば、これはまだ道半ば……いや、スタート地点に立ったに過ぎません。

正直な話、「リフト」はできたが「シフト」ができていない

この1年間は、旧システムから新システムへデータを移行し、古いワークフローを止め、データの棚卸しをするだけで手一杯でした。 その結果、何が起きたかというと、「システムはSnowflakeになったが、中身の設計思想はレガシーなまま」という状態が発生してしまいました。

いわゆる、「リフト&シフト」の「リフト(持ち上げて移動)」だけで力尽きてしまったのです。

具体的には、以下のような課題(妥協点)が残っています。

🚧 課題1:データレイク不在問題

理想的な構成であれば、生データ(Raw Data)を保持する「データレイク層」を明確に定義すべきですが、現在はデータソースを加工せずにそのまま保持する層が不十分です。データの源泉を辿り直す際のトレーサビリティに課題があります。

🚧 課題2:モデリングの最適化不足

移行スピードを優先するため、既存のジョブのロジックを解析し、「いくつかのパターン」に分類して、それを新環境に当てはめる方式を取りました。 結果として、Snowflakeやdbtの強みを活かした「あるべきデータモデリング」への再設計ができず、旧来の非効率な処理フローを引き継いでしまっています。

🚧 課題3:複雑すぎる連携とコスト

データの取り込みパターンが統一されておらず、運用負荷が高い状態です。また、Snowflakeデータの連携先(Google Cloud Storageや古い外部BIツールなど)へのデータ転送コストが依然としてかかり続けています。

目指すゴール:真に「筋肉質」なデータ基盤へ

現状の課題は山積みですが、ポジティブに捉えれば「伸びしろしかない」状態です。 私たちは今、単にデータを貯める場所ではなく、「筋肉質なデータ基盤」への進化を目指しています。

私たちが描くロードマップは以下の通りです。

  1. 「Snowflakeを見れば全てがわかる」状態の確立
    • データのサイロ化を完全に解消し、シングル・ソース・オブ・トゥルース(SSOT)を実現します。
  2. アーキテクチャの最適化
    • Apache Iceberg などのオープンフォーマットの採用を検討し、コスト効率と柔軟性を高めます。
    • 単なるリフトで終わらせず、dbtを活用した適切なデータモデリングへリファクタリングを進めます。
  3. ビジネス貢献への直結
    • Snowflake Intelligence などを活用し、営業担当者が自然言語で問いかけるだけで必要なデータが得られる「AIエージェント」の構築を目指します。

最後に

私たちのデータ基盤刷新プロジェクトは、「ツールの導入」という第一フェーズを終え、「活用と最適化」という第二フェーズに入りました。

「モダンなツールを入れたら魔法のように全てが解決した」なんてことはありませんでした。 しかし、土台(Snowflake + dbt + Terraform)が整った今だからこそ、これからの改善サイクルは劇的に速くなると確信しています。

「未熟な基盤を、最強の基盤に育て上げる」 そんなエンジニアリングの醍醐味を味わいたい方、老舗企業のデータ改革という難問に一緒に挑んでくれる方、もし興味があればぜひお話ししましょう。


2019年入社。Webエンジニアを経て現在はデータエンジニアに従事。運動後のビールが大好物。