Snowflakeから学ぶデータ活用 ラクスル社内勉強会レポート
DX(デジタルトランスフォーメーション)が台頭する現在、データを活用して事業成長させていくことが当たり前になってきています。
そのような時代の中、有象無象あるデータをどのように取得し、ビジネスの発展に活かしていけるかが鍵になります。
ラクスルでは「Snowflakeの凄さ」をテーマに、近年注目が集まるデータクラウド「Snowflake」の概要や活用事例を学ぶ勉強会を開催しました。
シリコンバレー発のスタートアップとして2012年に創業したSnowflakeは、2020年9月にNYSE(ニューヨーク証券取引所)へ上場した会社です。実はこの上場のタイミングで、当時のソフトウェア業界のなかでも過去最大級の資金調達を実施したこともあり、大きな話題になったことでも知られています。
現在の時価総額はおよそ9兆円と呼ばれており、成長著しい企業として今もなお業界を牽引している企業と言えるでしょう。
垣根を超えて、データの力を集結させる
冒頭では、Snowflake株式会社 アカウントエグゼクティブの植村大樹さんに登壇いただき、Snowflakeのサービス概要や主な特徴についてご説明いただきました。
昨今、どの業界でもDXが求められており、データは非常に重要な資源として捉えられています。では、なぜ、Snowflakeがマーケットで支持されているのでしょうか?
Snowflakeは「垣根を超えて、データの力を集結させる」というミッションステートメントを掲げています。
Snowflakeが評価されている理由として、データを扱えるユーザーやデータ自体の幅の広さ、かつ希少性の高いデータに素早くアクセスできるようなフレキシビリティの高いソリューションを提供できているのが挙げられます。こうしたことから、データドリブンを加速化させ、DXを下支えする存在として多くの企業様に導入いただいているような状況です
また、“垣根を超えて”というのが「Snowflakeのサービスを語る上でキーポイントになってくる」と植村さんは続けます。
例えばラクスルで言うと、複数の事業部が存在していると思いますが、そのなかでも扱えるデータは事業部ごとに限定的となりやすいとも捉えることができます(データのサイロ化)。こういった状況を解決するために、従来のデータウェアハウスやデータレイクといったソリューションを用いることで、部署の垣根を超えてデータへアクセスしにいけるようになります。
他方、Snowflakeはさらにその先をいっており、部署内の垣根を超えるだけでなく、取引先の企業やサードバーティで連携しているサービスも含めたデータへ瞬時にアクセスできるのが最大の特徴です。Snowflakeは『データクラウド』のサービスとして、企業やデータプロバイダーのビジネスに最適化されたデータを繋いでいくような“データの民主化”を図っていく。つまり、データそのものがネットワークを持っており、データ同士が結合していくような世界観を目指しているのです
データの民主化を図るのに最適な高性能エンジンとインフラ
データを分析して次のアクションを起こすための意思決定をしていくためには、自社内のデータのみだけでは事足りなくなってきているのが今の時代です。
そこで、取引先や関連企業の「2ndパーティーデータ」と自社内のデータ(「1stパーティーデータ」)を相互連携したり、あるいはオープンソースの人流データやECデータ、金融データなどの「3rdパーティーデータ」にも自由にアクセスし、自社のデータと掛け合わせて分析していくことで、解像度の高い予測を立てることができる仕組みになっています。これがSnowflakeにおける最大の価値になります
また、Snowflakeでは「伸縮性のある高性能エンジン」と「インテリジェントなインフラストラクチャー」、「SNOWGRID」の主な3つの要素がデータクラウドを支える役割を果たしています。
その中でも、伸縮性のある高性能エンジンがSnowflakeが提供するプラットフォームの一番の強みになっています。
「Snowflakeのアーキテクチャは、ストレージレイヤーとコンピュートレイヤーの2つに大別されます。ストレージレイヤーはペタバイト級のデータを扱えるものになっていて、そこに蓄積された膨大なデータへアクセスしたり処理をしたりするのがコンピュートレイヤーのリソースになっています。この2つのレイヤーを独立分離して管理することで、複数のワークロードを同時に実行することが可能になっている。これが大きな特徴と言えるわけです。
業務に当てはめて説明すると、分析用ツールを同じ時間帯に複数名使う場合でもワークロードが競合しない。すなわち、パフォーマンスの低下を招くことなく、データ分析業務を行えるというわけです。このようなアーキテクチャーは創業当初から提供しているものであり、ハイスペックな技術に支えられているからこそ、データクラウドの世界を実現できているのです
そして、インテリジェントなインフラストラクチャーをSnowflakeが有しているのも大きな利点です。フルマネージド型のSaaSモデルとして提供しているサービスであり、基本的にデータベースの管理は不要になっています。また、システム部門以外の営業やマーケティングといったビジネスサイドのメンバーでも使いやすい設計になっているので、あらゆる人がデータにアクセスできる、つまり、データの民主化の実現に向けて非常に有効なインフラストラクチャーになっていると言えるでしょう」
また、Snowflakeは「AWS」「Azure」「GCP」上でサービス提供が可能であり、マルチクラウドに対応したクラウドサービスです。
要は、各リージョンやクラウド、組織ドメインに関わらず、シームレスなデータ共有を可能にすることで、データドリブンなビジネスをサポートしてくれるわけです。
加えて、グローバルに広がるネットワークを活かし、事業継続性を維持できるのも外せないポイントです。
「Snowflakeはクラウドの製品なので、もしクラウドベンダーに障害が発生した場合、サービス自体がストップしてしまいます。ですが、AWSの環境に本番を置いておき、Azureの環境にバックアップを取っておく。このようなマルチクラウドに対応できる環境を用意できるので、一つのクラウドベンダーに障害が発生した際でも事業を止めることなく、ビジネスを継続できるのです」
Snowflakeでは、現在、何千もの企業が自社のエコシステムとデータを共有し、また、何テラバイトものデータを顧客と共有しています。
自社内にとどまらず、サプライヤー、パートナー、クライアントなど多様なステークホルダーとデータを共有することで、新たなビジネスの指針となる。
このような世界を作るのにSnowflakeは欠かせないサービスであると言えるのではないでしょうか。
コストや運用面における優位性がSnowflake導入の背景に
次にノバセルがSnowflakeを導入した背景について、ノバセルCTOの戸辺 淳一郎が説明を行いました。
データハウスにSnowflakeを採用した理由について、戸辺は以下の3つを挙げました。
①サービスそのもののコストの優位性
②運用に関するコストの優位性
③変化に柔軟であるということ
それぞれ順を追って解説していきます。
まず①についてですが、日本におけるデータウェアハウスのデファクトスタンダードは「Amazon Redshift」や「Google BigQuery」、「Microsoft Azure Synapse」が主だったものになります。
そんななか、Snowflakeの優位性について次のように説明しました。
「私は過去にRedshiftを長く活用する中で、データ分析時に追加でかかるコストが発生しないメリットは実感していました。ただ、ストレージもコンピューティングリソースもレイヤーが一緒くたになっており、分析するしないに関わらず、双方がずっと稼働し続けている状況がゆえ、ベースコストが高くなるのが欠点でした。一方で、BigQueryは安価なベースコストで運用が可能ですが、その代わりに分析時にコストが発生します。『分析時にどれだけのデータをスキャンしたか』ということに対してコストが発生する『クエリ課金』と呼ばれているもので、データ解析の際は課金額が増えないように気を使った運用をする必要がありました。
Snowflakeはというと、『使った分しかコストがかからない』というプライシングストラクチャーを有しているのが特徴です。分析時のコストについても『分析にかかる時間に対してコストが発生する』というものなので、コストが計算しやすくミスオペによる法外な課金請求がくる心配もないのが特徴になっています」
また、②についてはRedshiftやBigQueryよりも、データ分析に伴う専門知識を必要とせずに運用できるのがSnowflakeのメリットです。
Snowflakeは他のサービスで必要となる専門性やエンジニアリングの知識が不要になるので、まさに『フルマネージド』という言葉がしっくりきます。特にテーブル定義の際は、インデックスやパーティショニングの設計を必要としないので、誰でも高度で安心なデータ分析ができるようになっています」
「Speed is King」を体現する素早いデータ分析が可能
そして、ビジネスの観点で一番重要なのが③の「変化に柔軟」であること。
ユースケースの把握やデータ分析時の事前の設計が不要というのが大きく、すぐにデータ分析の実行に移せることができるわけです。
データエンジニアリングの世界には、『Schema on Write』と『Schema on Read』という言葉があります。従来であれば、それぞれの業務に合わせて事前のテーブル設計をし、データを書き込むときにはデータの構造をしっかりと作っておく必要性がありました。これがSchema on Writeの概念になります。
しかし昨今の変化が激しい時代では、想定外のことが起きたり蓄積する前には想像していなかった方法で活用したくなったりするケースも多くあります。こういう場面でSchema on Writeに則ったデータ分析の設計をしていては、非常に脆く汎用性に欠けてしまう。何か変更が生じるごとに設計を見直したりしなくてはならず、最終的には時間とコストという形で重くのしかかってくるわけです。
こうしたなかで台頭してきたのがSchema on Readの概念を持つデータレイクです。こちらは、「データを読み出すときにデータの使用用途を考えれば良い」というものになるので、データの使われ方や活用の仕方に囚われずに、どんどんデータを蓄積していけるのです。SnowflakeはSchema on Readに対応しており、データレイクのアーキテクチャーを別で用意しなくても、データレイク環境を構築していけるのが非常に利便性が高いと認識しています
ノバセルでは「Speed is King」というビジョンを持っており、変化に柔軟なデータ基盤は必要不可欠なものになっています。そのため、刻一刻と変化するビジネスに対応するべくSnowflakeを導入するに至ったのです。
ノバセルにおけるSnowflakeの活用事例
続いて、ノバセルのデータエンジニアである山中 雄生が、ノバセルにおけるSnowflakeの活用事例を紹介しました。
ノバセルでは、2020年6月にテレビCM効果分析ツール「ノバセルアナリティクス」をリリースしました。
これは、テレビCMを放映したことで、どのくらいセッション数やコンバージョン数が伸びたかをWeb上で数値計測できるツールです。
CM放映データに、Webサイトの流入データやアプリダウンロードデータなどさまざまなデータを組み合わせることで、CM効果の可視化や分析結果に基づく施策の提案を行うソリューションになっています。
ビジネスの根幹になりうるWebセッションデータや検索データ、ソーシャルデータといったものは、それだけだと価値を生み出しません。そのひとつ上のレイヤーに、データを組み合わせたり加工したりして価値を創造し、さらに一元管理できるソリューションが必要だったのです。そこでノバセルでは、2021年1月からSnowflakeを導入し、同年の7月にアナリティクスのデータをSnowflakeへ集約させました。直近では、新規サービスのプロダクト開発でSnowflakeをフル活用しています。
ビジネスを継続していくと、常にデータが増え続け、それゆえに複雑なデータ加工処理が求められてきます。ですがSnowflakeは、ほぼ無制限のデータ保存容量を持ち、かつ必要に応じて大きなコンピュートエンジンを利用することで、素早いデータ加工処理も可能になっています。また、これまで、パフォーマンスの最適化のために複雑な実装を行う必要があったワークロードも、Snowflakeを導入することで開発の難易度が下がり、シンプルな実装で十分なパフォーマンスを維持することができるようになりました」
データが現実世界を写す鏡となる「デジタルツイン」の時代に
最後に、Snowflakeでプロダクトマーケティングマネージャーを務めるKTさんが、「データクラウドが実現した世界」と題した展望を語りました。
Snowflakeは誰でも簡単にどんなデータでも扱えるソリューションであり、柔軟で弾力性のあるプラットフォームです。
データドリブンを加速させることで、データを駆使したクリエイティブな発想やアプローチを生み出しやすくなる一方、未だにデータのサイロ化が価値実現を阻んでいます。
KTさん:「自社の製品やサービスのデータだけを見ていては、どうしても限定的な考えになってしまいます。今の時代、外部のデータを有効活用して自社のデータと組み合わせ、新しい道筋を見出していくことが大切になっています。また、可処分所得や時間の奪い合いも各所で起こっていて、全く違うジャンルのデータとも向き合いながら、顧客がどのようなインサイトを持っているかを理解しないといけない時代と言えます。そういうなかで、データがバラバラに存在していては、いっこうに知りたいことも知れないわけです」
これからはあらゆるデータがリアルタイムに連携し、現実世界の情報をデジタルの仮想空間に展開していく「デジタルツイン」の世界が到来するといわれています。
このデジタルツインがさまざまな業務の集合体として現れてくると、鏡のような世界(ミラーワールド)になっていき、こうしたバックグラウンドのデータをもとにアクションを起こしていくことが肝になってくるでしょう。
「もし、データが現実世界を写す鏡だとしたら、当然リアルタイム性や高精度、周囲のもの全てが包含されていなければならない。Snowflakeはまさにありとあらゆるデータを繋げるプラットフォームです。データクラウドには組織や顧客、外部のデータなど多様なコンテンツと呼べるデータが存在しています。これらをビジネスの意思決定に活用し、よりクリエイティブにイノベーティブなアウトプットへと繋げていくことが大事になってくるのではないでしょうか」
とKTさんより提言いただき、勉強会は幕を閉じました。