Google Cloudのデータ分析基盤開発 についてはじめに
Google CloudでDWHの実装をしたことがありました。その際に、どのサービスを使用したらよいか(どのサービスを学習したらよいか)にとまどうことがありました。
そこで、DWH実装の際にどのサービスを使用したか、それぞれのサービスの機能は何か、を少しまとめてみたいと思います。
本記事はこのような方向けかと思います
- データ分析基盤関連のGoogle Cloudのサービスについて知りたい
- Google Cloudの導入を検討しており学習していきたい
Google Cloudでデータ分析基盤開発の際に使用したサービス
開発の際には以下のサービスを使用しました。
サービス名 | 機能 |
BigQuery | クラウド型のデータウェアハウス。データの収集・加工・分析ができるので、分析基盤を作る際には必ず使用すると思われる。ノーコードでGA4との連携も可能。処理スピードが早い一方、クエリ容量の従量課金のため乱雑なクエリ実行をしないよう注意が必要。 |
Cloud Functions | サーバーレスにアプリが実行できるサービス。例えば、Cloud Functionsにコードを記述することでCloud StorageのデータをBigQueryに取り込むことやBigQueryのデータを加工することが可能。ファイル配置や時間指定のトリガーが設定できる。MAX9分でタイムアウトするので、大規模な処理には向かない。(私の会社はデータ量多くなかったのでこちらでまかなえてしまいました) |
Cloud Storage | クラウドストレージサービス(とりあえずデータ突っ込める箱)。一旦こちらでデータを受けて、BigQueryにデータを取り込む流れが一般的。 |
Pub/Sub | 調べるとメッセージングサービスと出てくるが、Cloud Functionsの時間指定の起動のために使用。Cloud Schedulerで時間指定→Pub/Subを起動→Cloud Functionsを起動、という流れで使用しました。 |
Cloud Scheduler | cron ジョブ スケジューラでcronで時間指定のジョブ実行が出来る。上述したように、主にPub/Subの起動に使用。 |
IAM | アカウントの権限管理に使用。 |
Monitoring | Cloud Functionsの処理でエラー発生した際に関係者に自動でメールをとばす設定のために使用。 |
Compute Engine | Googleが用意したインフラ上にLinuxかWindownsの仮想マシンが立ち上げられる。 DWHでは、外部ファイルをお迎えに行くときなどに使用する。 |
【参考】Google Cloud学習コンテンツ
- Google Cloud Skills Boost(私がやったときは Quicklabという名前だった記憶)
- https://www.cloudskillsboost.google/?locale=ja
- Google Cloud公式の学習コンテンツ。使用するサービスを選択して学習とハンズオンが出来るので、Google Cloud全般的な基礎がこちらで学習できます。DWH構築にあたり、BigQuery, Cloud Storage, Cloud Functionsあたりを中心に勉強しました。
また、もしプログラム学習でお困りでしたら受講生に1人ずつ現役のプロのパーソナルメンターがつく TechAcademy [テックアカデミー] のご活用をぜひご検討ください!
Google Cloudでデータ分析基盤開発の際に使用したサービスまとめ
実装時に中心となるサービスは、BigQuery, Cloud Storage, Cloud Functions, Pub/Subあたりになるかと思います。こちらを中心に理解を開始できるとスムーズなのではないかと思います。
初めは知識が浅く、情報収集にはとまどいました。調べてもサンプルコードやアーキテクチャがあまり出てこず、思うように進まなかった経験から本ブログの執筆を開始しました。データ分析基盤を構築する際に、どのサービスから学習したらよいか戸惑っている方の一助になれば幸いです。
Google Cloud関連記事
その他Google Cloud関連記事をこちらにまとめております。
よろしければご参考ください。
参考になれば幸いです☕
コメント