こんにちは、ぐるなび データマネジメントグループの中島です。
我々のグループは、全社的なデータマネジメントの企画・推進を行っております。直近では特に、メタデータ管理に力を入れています。
今回はその メタデータ管理 の一端についてお伝えしたいと思います。
そもそもデータとは?
そもそもデータとは何でしょうか。
メタデータの話をする前に、データについておさらいしておきます。
エンジニアブログを読んで頂いているみなさんに「データ」の話なんて いまさら何を……と思われるかもしれませんが、初心に返って調べてみると色々と発見ができました。
Wikipediaによると、
データ(英: data)とは、事実や資料をさす言葉。言語的には複数形であるため、厳密には複数の事象や数値の集まりのことを指し、単数形は datum(データム)である。
とあります。(Wikipedia データ 2019年4月10日 (水) 08:23 より)
データの収集や分析は、紀元前から行われており、その最たる物が統計学です。
近年になるまで、その収集や分析は手作業で行われていたため、莫大な労力がかかっていました。コンピュータの普及や性能の向上と共に、その労力も軽減され、可能なデータの収集量や分析の複雑さも向上しました。
ここ数年では、「ヒト」、「モノ」、「カネ」に次ぐ資産だと言われ 「世界で最も価値ある資源は、石油ではなくデータだ」 というレポート *1もあります。
統計学が大昔からあるため、データの価値は一部の方には認識されていたのかもしれません。しかし、データ収集や分析のコストが緩和されたことで、より広くデータの価値が認識されつつあるのだと思います。
たとえば、ぐるなびでは、
店舗のメニュー情報やユーザー行動履歴を分析することで飲食店・消費者の流行を掴むことが可能な「ぐるなびデータライブラリ」というサービスを提供しています。
その他にもデータを起点に、 KPIの取得、UI改善、キャンペーン施策など、様々なことに活かされ支えられています。
データは、企業の躍進に欠かせない資産なのです。
メタデータとは
データはそれ単独では意味を成しません。
特に、ローデータはその特徴が顕著です。
そのデータがどのような「もの」か分かることで、初めて何かに使えます。
データの価値を発揮するためには、どういったデータか把握し理解する必要があります。
そんなデータを説明するためのデータのことをメタデータと呼びます。
またデータを効率よく管理するために非常に重要なデータとなります。
メタデータとデータの違い
さきほど、メタデータは「データを説明するためのデータ」と言いましたが、本に例えると分かりやすいと思います。
上記の例ですと、
- 本の内容をデータ
- タイトル・著者をメタデータ
として分類しています。
他にも、本のジャンルや出版社などもメタデータとして分類でき、 本を説明・管理するためのあらゆる項目がメタデータとなりえます。
これをファイルにすると以下のようになります。
上記のような、直感的に分かりやすい項目だけがメタデータというわけではなく、様々なものをメタデータとして扱えます。
例えば、
- 管理者
- どの端末に格納されている
- 文字コード・改行コード
・・・だとか。
メタデータも一種のデータのため、データとの明確な線引はありません。
データを管理するために必要なものをメタデータとして扱うだけです。
メタデータ管理とは
メタデータ管理というとハードルが高そうですが、システム開発に関わる方なら 程度に差があれど、何らかのメタデータ管理をされていると思います。
小規模だと、テーブル定義書やファイル一覧の管理です。
テーブル定義書であれば、テーブルの一覧を作成して、テーブル毎に物理名・論理名・桁型などがあって、カラム毎に・・・・というアレです。
弊社には複数の開発チームがあり、各々のグループ・チーム・プロジェクトでテーブル定義書の管理方法も多様で、ExcelだったりA5:SQL Mk-2だったりEclipseのプラグインを使っていたりと、フォーマットもツールも様々です。
我々のグループで運用しているメタデータ管理システムは、会社で統一的に管理することを目指したもので、Webから登録・更新・参照を一元的にできるようにしています。
メタデータを管理すると何がうれしいのか
メタデータ管理の利点は複数ありますが、データマネジメント知識体系ガイド (DAMA-DMBOK*2 )によると以下のようなものがあげられています。
- データのコンテキストを提供、データ品質の測定を可能にしてデータへの信頼を向上させる
- 戦略的な情報(例えばマスターデータ)を多様な用途に利用できるようにし、その価値を高める
- 冗長なデータとプロセスを特定し、業務効率を向上させる
- 古いデータや間違ったデータの利用を防止する
- データを活用した調査に関する時間を短縮する
- データ利用者とIT専門家の間のコミュニケーションを改善する
- 影響分析が正確になり、プロジェクト失敗のリスクを減らせる
- システム開発のライフサイクル時間を短縮し、製品の市場投入を早める
- データのコンテキスト、履歴、発生元を全て記録することにより、トレーニングコストを削減しスタッフ交代の影響を軽減する
- 法規制遵守を支援する
(出典:データマネジメント知識体系ガイド(DAMA-DMBOK)第二版 第12章メタデータ管理より)
詳しくは後述しますが、我々の中でメリットに感じているのは 社内データの横断検索です。どこにどんなデータがあるのか誰かに聞かなくても、検索するだけで辿り着けることに意味を感じています。
ただし そのためには、メタデータが検索にヒットするように整備されなければなりません。
メタデータ整備に手間をかければ、メリットもありますが、その分の運用負担も少なくありません。そのため、どのレベルまでメタデータを整備するのか要件を絞ることは非常に重要です。
世間的なトレンド、事例
爆発的に増えていくデータに対して、管理面でおいつかず、データの価値を引き出せない企業は多いようです。
欧米では、メタデータ管理に関する投資はここ数年で倍増すると言われています。
データの利活用とメタデータ管理の関係は切っても切り離せないため、個人的には、倍増までいかないまでも ゆるやかに増えて行くのではないか と予想しています。
国内でもメタデータ管理を導入している企業は少しずつ増えていますが、DMBOKで規定されている内容を全て満たすような仕組みを導入している事例は、まだ聞いたことがありません。
おそらく、費用対効果が読みづらく、導入に躊躇されている企業が多いのでしょう。
また、強すぎるガバナンスによって通常のプロジェクト運営に支障をきたすケースもあると聞いたことがあります。
何を導入するか、どのデータまでメタデータ管理の対象とするか というバランスは、非常に悩ましい問題です。
ぐるなびにおけるメタデータ管理の現状
メタデータ管理で狙う効果
現在の我々のグループのメタデータ管理におけるミッションは、データ利活用の促進です。
「メタデータを管理すると何がうれしいのか」でいうところの、
- データを活用した調査に関する時間を短縮する
- データ利用者とIT専門家の間のコミュニケーションを改善する
を改善するため、
様々な方法で管理されているテーブル定義書を集約し、
「人とサーバの探索」から「キーワード検索」で 目的のデータに辿り着く仕組み
を目指して構築しています。
メタデータがうまく管理できていないと、「特定データが欲しい!」となった場合に、人づてにどこにあるのか聞き回り、サーバ間を探して・・・とデータの探索に時間と手間がかかります。
メタデータ管理システムを導入することで、データ探索のステップ数を減らし、調査コストとコミュニケーションコストの削減を狙っています。
管理対象のメタデータ
我々が構築した仕組みで収集しているメタデータは、主に RDB・NoSQLの定義情報です。
管理対象のメタデータをいくつかのレベルに分割し、レベルが低いほど低コストで効果の高いデータと位置づけ、RDBや一部のNoSQLの物理的な定義情報を実装から自動収集しています。
※メタデータレベルの抜粋
論理的な情報については、各システム開発者手動によるメンテが必須な点が現在の運用上の課題です。
また現在は、データ分析をする際に作成される ノウハウ や やり取り は 個別管理されています。今後の展望としては、これらの情報も集約し、データに関わる議論の活発化を促し、担当者ごとの冗長的な調査を削減できるデータ利活用の中心となるシステムに昇格していければと考えています。
メタデータ管理状況のまとめ
このように、一度に全てを満たす機能やメタデータを収集することは負担が大きいので、手が出せる範囲から少しずつ補充している状況です。
最後に
メタデータ管理の一端となりましたが、いかがでしたしょうか。
実は今回メタデータ管理について発信することに理由があります。
端的に言いますと、メタデータ管理をもっと世間的に流行らせたいからです。
データ分析の重要性は日に日に叫ばれており、様々なノウハウが共有されていますが、
データ分析に必須なメタデータ管理のノウハウは乏しいのが現状です。
データマネジメントをしたいけど何から始めれば良いのか、こんな時に何をすれば良いのかなど、我々も様々な壁にぶつかりました。
進めていく中で分かったことは、メタデータ管理は 多くの企業で類似した仕組みになる可能性が高いことです。
今回のように情報が発信されることで議論が活発になれば、より簡易なメタデータ管理の仕組みが共有されると考えました。
もしデータマネジメントをされていなければ、まずは「メタデータ管理」の一歩を進めてみませんか?まず現状を知ることが重要なので、そういった意味でも最初の一歩に適していると思います。
今後も可能な範囲で情報発信していきますので、本ブログが何かのきっかけになれば幸いです。
お知らせ
「焼きおにぎり」は英語で? Alexaで 料理メニューのクイズにチャレンジしてみませんか。
*1:イギリス『Economist』誌 「The world’s most valuable resource is no longer oil, but data」
*2:「DAMAインターナショナル」がデータ管理全般の知識をまとめたものです。弊社もデータマネジメント検討の際に参考にさせて頂いてます。