GCPで始めるデータ分析のススメ~データウェアハウス Big Query編~
こんにちは!PA Labメディアです。
すでに社内でGCPやAWSなどのクラウドを導入しているでしょうか。最近ではDWH(データウェアハウス)をBigQueryで置き換えるパターンが主流になってきています。スケールアップから管理も楽で様々な機能が付与されているため、もっともメジャーな選択肢の一つになってきています。
今回の記事では以下のような方を対象にしております。
- 「BigQueryの名前はしっているが、どのように使っていくものか興味を持っている」
- 「DWHでデータ分析を行なう事が出来る環境構築の調査をする必要がある」
- 「新規サービスを立ち上げたが、RDB以外の選択肢がわからない」
今回のGoogleが提供しているGoogle Cloud Platform(GCP)のサービスの一つ、BigQueryについて解説していきます。
目次
DWHとは
DWH(データウェアハウス)はいわゆるデータを一箇所に管理出来るための倉庫のことで、様々なシステムからデータを取得・分析・整理するためのシステムです。一箇所に集約して分析をするため、データを分析しやすい形で格納されて素早く分析が可能な事が特徴的です。
データ分析スキルのニーズは、2013 年から 2018 年までの間に 86% 増加しました。 1 Google Cloud でデータドリブンへと変革しましょう。データを利用してリアルタイムの分析情報を取得し、意思決定の改善やイノベーションの加速へとつなげます。データ処理システムの設計および構築方法を学習します。
https://cloud.google.com/training/data-ml?hl=ja
上記のようにGCPの公式ページでも言及されているように近年はデータ分析の需要がますます増加しています。データ分析を行なう事で収益化を最大化したり、より業務を効率化するための施策などを打つ事が出来て、多くの企業は利益を増やしていっています。
BigQueryとは
Googleが提供しているマネージドタイプのデータウェアハウスで、特にデータ分析に特化しているサービスとなっています。GCPの多くのサービスも同様ですが、BigQueryは元々Google内部で使用されているインフラを外部に提供しているものになっています。ペタバイトのスケールで膨大なデータを高速に処理することができ、フルマネージドなため管理も簡単に使用することが出来ます。
BigQueryは勿論単体でも便利な機能は沢山ありますが、一つの大きな特徴として色々な機能がどんどん追加されている、という点もあります。
- BigQueryML
- BigQuery Omni
- BigQuery BI Engine
- BigQuery GIS
こちらに関しては別の記事でまた詳しく言及していきます。
BigQueryの大きな特徴
BigQueryと通常のデータベースとの違いとは何でしょうか。
BigQueryの大きな特徴(1) 列志向データストア
基本的にはBigQueryは分散処理が出来る仕組みになっており、高速に大量のデータを処理出来る仕組みになっています。MySQLなどの一般的なRDBの仕組みでは行単位でのデータ保存を行っていますが、BigQueryは列志向と呼ばれる形式を採用しており、高速データ処理をおこなうことが出来ます。
BigQueryの大きな特徴(2) ツリーアーキテクチャ
もう一つの大きな特徴としてはツリーアーキテクチャと呼ばれる仕組みによって分散処理を行っています。クエリ処理を実行する多数の葉サーバーに対して、クエリがツリー構造で分散出来るようになっている仕組みのことです。
より詳細なBigQueryの仕組みに関してはGoogleが提供している公式のドキュメントで解説されています。
BigQueryの導入事例
BigQueryの導入事例(1) Twitter
皆が知っている大企業の例、Twitter社では広告プラットフォームの日常業務として数十億の広告エンゲージメントイベントを扱っています。広告主がユーザーエンゲージメントを測定して、広告キャンペーンの効率を追跡できるように、ほぼリアルタイムで1秒につき数百万の指標を集約出来るような分析ツールやAPI、ダッシュボードを提供しています。
Twitter社は2017年にGCPを導入して広告のデータプラットフォームの再設計を行いました。その後何度かデータプラットフォームの再設計を行っています。主にデータの保存場所に関してBigQueryとCloud Bigtableを導入したことで、移行後6ヶ月後に既存のデータパイプラインをより簡単に高速に構築できるようになりました。
BigQueryの導入事例(2) トヨタ
もう一つの例はトヨタになります。BigQuery MLを実務で取り入れた面白い例なのでこちらで紹介していきたいと思います。
世界最大の自動車メーカーのトヨタは世界中に何千ものディーラーがあり、トヨタ社は「継続的な改善」をモットーに、ブランドが成長できるための改善策を探していく会社の分析方針があります。
Toyota Canadaではグローバル企業の300以上のディーラーを担当していますが、オンラインでの行動と対面行動を紐付ける事に苦戦していました。ほとんどの消費者は新車を購入する場合、オンラインで調査を行って販売店で購入するためです。
Toyota Canadaでは消費者はデジタル広告を見て公式サイトにアクセスして、最寄りのディーラーで試乗する、というプロセスになっていますが、顧客がオンラインで行っている行動の分析をうまく活用出来ていませんでした。
そこで、Toyota CanadaのチームではBigQuery MLを活用して、効果的に適切な顧客を見つけるモデルの構築を行いました。一ヶ月分のデータを分析して、各訪問者に傾向スコアを割り当て30日以内似サイトに戻る可能性を予測して、優先すべき顧客を特定することで、より効果的なディスプレイ広告を配信し直接的な売上向上につなげていきました。最終的にはBigQueryMLによってウェブサイトの訪問者が6回以上再エンゲージするという大きな改善になり、カナダ全土で大幅な売上向上になったようです。
具体的なBigQueryMLの事例としては分かりやすくダイレクトに売上につながっており、良い分析設計の例といえますね。
BigQueryの料金
一般的なRDBと違い、クエリを実施するごとに料金がかかってしまう、といった点はあるので、オペレーションごとに費用がかかります。東京ゾーンでの現時点(2021/08/25)での料金は以下のようになっています。
オペレーション | 料金 |
アクティブ ストレージ | $0.023 / GB |
長期保存 | $0.016 / GB |
ストリーミング挿入(tabledata.insertAll ) | $0.012 / 200 MB |
クエリ(オンデマンド) | $6.00 / TB |
まとめ
今回はGoogleが提供しているデータ分析のためのデータウェアハウスのマネージドサービス、BigQueryについて紹介していきました。今後データ分析による業務効率化はどの分野でも更に加速して重要になってきています。多くの進んでいる企業ではすでにこのようなマネージドサービスを導入して売上増加に繋げていっています。
BigQueryはまだまだ進化を続けているサービスなので、今後も便利な機能が追加されているので、料金やデータ分析の必要性があるのかを検討した上で一つの選択肢として選べるようにしておくことは重要です。
PA Labでは「AIを用いた自動化×サービス開発」の専門家として活動をしています。高度なデータ分析からシステム開発まで一貫したサービス提供を行っており、特に機械学習やディープラーニングを中心としたビジネス促進を得意としております。
無料で分析設計/データ活用に関するご相談も実施中なので、ご相談があればお問い合わせまで。
この記事へのコメントはありません。