Snowflake World Tour - Tokyo 2024 - データの民主化による持続可能なビジネスの成功のためのAI活用(前編)

ぐるなびCTOの岩本です。自社の全プロダクト・サービスにおける技術戦略の責任者としてサービス構築・品質向上に最適な技術の選択、意思決定を行っています。また、在籍するEngineer全体に対して技術的なビジョンを示し、エンジニア組織を牽引しています。

ぐるなび社ではデータの活用を推進しており、その過程で発生する課題に対してどのような対策を講じているかについて、お話しさせていただきました。セミナーには約300名の方々にご参加いただき、盛況のうちに終了しました。今回のブログでは、セッションで使用したスライドの内容に基づき、セッション中にお伝えしきれなかった情報を詳しくご紹介したいと思います。

続きを読む

モニタリング品質改善でMTTA(平均確認時間)を90%短縮した話

こんにちは。ぐるなびでSREをしている江島です。 普段はコンテナ基盤の運用やサービスの品質向上に向けたSRE活動といった業務を行っています。

9月6日に開催された「Cloud Operator Days Tokyo 2024」で登壇し、「モニタリング品質向上」をテーマに発表を行いました。今回の記事では、その内容を掘り下げ、具体的な方法や実践的なアプローチについて解説していきます。

続きを読む

SREエンジニアが目指すGKE共通デプロイ基盤の完成形

こんにちは。開発部門 開発部 Data AI Strategyセクション データ基盤 Unitの小野です。
2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。

ここ一年ほど、DAOという組織改善プロジェクトを推進していく中で、Google Kubernetes Engine (GKE)を使ったGKE共通デプロイ基盤の整備も進めてきました。
※ DAOについての詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください

SREエンジニアの責務の一つは、プロダクトのリリースサイクルを極限まで短くし、次々と新しいサービスを世の中にリリースすることです。ChatGPTのような誰でも簡単に扱えるAIモデルが誕生したことで、プロダクト開発競争は今後ますます激しくなっていくと予想しており、SREエンジニアの責務の重要性をヒシヒシと感じています。

そういった背景もあり、アプリケーションの実行基盤である「共通デプロイ基盤」のニーズもあるかと思い、私がこれまで取り組んできたGKE共通デプロイ基盤構築・運用についての道のりを記事にしました。

続きを読む

SREエンジニアのSLI/SLO導入への挑戦

こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。

ここ一年ほど、DAOという組織改善プロジェクトを推進してきました。このプロジェクトは組織内で発生するあらゆるイベントを「機能」として定義・実装し、それらを束ねてサービスとして組織内外に提供するプロジェクトです。 ※ 詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください

これまでの通常業務をサービスとして提供するという考え方は、我ながらとてもユニークかつ俊逸な発想だったと感じています。なぜなら、このサービスベースな考え方により組織にSLI/SLOを導入しやすくなったためです。

SLI/SLOの導入は個人的に難しいと考えています。導入するためにはさまざまな「ハードル」を突破する必要があるためです。しかし一方で、SLI/SLOを導入したいと考えている方も多いのではないでしょうか。そこで今回は「SREエンジニアのSLI/SLO導入への挑戦」というタイトルで、私がデータ・AI戦略部で取り組んできたSLI/SLO導入への道のりをお伝えしたいと思います。

続きを読む

1ヶ月でSnowflakeのPoC検証から報告までを実現した効率化の取り組み

こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。

私の所属するデータ・AI戦略部は、クラウドやSaaSの活用を積極的に行っています。私自身も「業務に役立ちそうなサービス」を見つけたら上長に相談するようにしています。

今回は、「1ヶ月でSnowflakeのPoC検証から導入提案まで行った話」をお伝えしたいと思います。ちなみにこのブログの執筆時点では、Snowflakeの導入はまだ実現していません。

<書くこと>
PoC検証の取り組み方から提案までの手法」を中心に執筆します。今後ChatGPTのような技術革新がますます活発化した時、新しいサービスの検証や提案を「より高品質」に「よりスピーディ」に行うことが必要になってくると思います。そういったニーズの参考になれば幸いです。

<書かないこと>
Snowflakeを題材にしていますが、Snowflakeの機能紹介はしません。今後、Snowflakeを導入し、知見を得た後に改めてエンジニアブログでご紹介したいと思います。

続きを読む

SREエンジニアがヘルプデスク体制を作ってみた話

こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。

ここ一年ほど、SRE業務の一環で組織作りに挑戦しています。SREエンジニアの責務は自社サービスを安定稼働させ障害に強い基盤を作ることであり、どちらかというと「システム」に焦点が置かれがちです。しかし、個人的にはシステムを運用するメンバーのマネジメント(ピープルマネジメント)を含めた組織作りも重要だと考えています。なぜなら、どれだけ最先端で素晴らしいシステムを構築してもそれを運用するメンバーの行動次第では、障害につながる恐れがあるためです。

私にとってのSREは組織作りにおける文化のようなものであり、「SRE(文化)を組織にインストールする」気概で色々と挑戦しています。

今回は、その挑戦の一つとして「ヘルプデスク体制を構築した話」をお伝えしたいと思います。

続きを読む

テストについて学ぼう! ~第6話 ペアワイズ法とは~

第6話 ペアワイズ法とは

みなさん、こんにちは。鎌倉です。日本時間の2023年9月13日、Apple社のiPhone 15シリーズが発表されました。iPhone 15のカラー展開はブラック、グリーン、ピンク、ブルー、イエローの5色で、ストレージが128GB、256GB、512GBの3種類です。「iPhone 15の全バリエーションをテストする」といった場合、15種類の端末を準備しなければなりません。さらに、購入ルートによっては端末に「SIMロック」が掛けられている場合がありますよね。ドコモ、au、ソフトバンク、SIMフリーの4パターンを区別する場合、テストする端末の種類は60種類に増えてしまいます。

このように考慮する条件が増えるとテストするパターンの数は掛け算で増加していくので、全てのパターンをテストすることは現実的ではありません。かといって、無作為に選んでテストすると、バグを見落としてしまうリスクが高まってしまうので、何らかの法則にしたがってパターンを間引く必要がありそうですね。第6話では、パターンを間引くためのテスト手法のひとつである「ペアワイズ法」をご紹介したいと思います。

続きを読む