書籍
書籍

改訂新版 Google Cloudではじめる実践データエンジニアリング入門

0.0

販売価格

¥
3,960
税込
還元ポイント

販売中

お取り寄せ
発送目安
2日~14日

お取り寄せの商品となります

入荷の見込みがないことが確認された場合や、ご注文後40日前後を経過しても入荷がない場合は、取り寄せ手配を終了し、この商品をキャンセルとさせていただきます。

フォーマット 書籍
発売日 2025年01月09日
国内/輸入 国内
出版社技術評論社
構成数 1
パッケージ仕様 -
SKU 9784297146610
ページ数 528
判型 B5変形

構成数 : 1枚

第1章 データ基盤の概要
1.1 データ基盤に取り組む意義
1.2 データ基盤とは
■1.2.1 データ基盤に対する要求の変遷
■1.2.2 データ基盤の全体像
1.3 Google Cloud上で構築するデータ基盤
■1.3.1 クラウド環境のメリット
■1.3.2 Google Cloud上で提供されるデータ基盤に関連したプロダクト
1.4 まとめ

第2章 データウェアハウスの概念とBigQueryの利用方法
2.1 DWHとは
2.2 BigQueryのコンセプト
2.3 DWHとしてのBigQueryの基本操作
■2.3.1 BigQueryサンドボックスの利用
■2.3.2 BigQueryコンソールを理解する
■2.3.3 クエリを実行する
■2.3.4 クエリの応用
■2.3.5 その他BigQuery Studioの便利な機能
2.4 BigQueryユーザー向けのクエリの最適化
■2.4.1 必要なカラムのみ選択する
■2.4.2 パーティション分割・クラスタ化を利用するクエリ
■2.4.3 LIMIT句の利用
■2.4.4 結合のコストを抑える
■2.4.5 クエリ結果のキャッシュと明示的なテーブル指定による永続化を利用する
■2.4.6 クエリプランの可視化
2.5 BigQueryの内部アーキテクチャを理解する
■2.5.1 BigQueryの内部構造
2.6 まとめ
Column データアナリストを楽にするBigQueryの便利機能
Column BigQueryとGoogleにおける大規模データ処理の歴史

第3章 データウェアハウスの構築
3.1 データウェアハウスに求められるさまざまな要件
3.2 BigQueryの課金モデル
■3.2.1 BigQueryコンピューティングの料金
■3.2.2 BigQueryストレージの課金モデル
3.3 BigQueryエディション
■3.3.1 オートスケーリング
■3.3.2 BigQueryエディションの選び方
3.4 高可用性、Disaster Recovery 計画
■3.4.1 BigQuery可用性担保の仕組み
■3.4.2 メンテナンス、クラスタアップデート
■3.4.3 Disaster Recovery計画
3.5 用途別の影響隔離
■3.5.1 スロットスケジューリングのしくみ
■3.5.2 ワークロードの分離 - オンデマンド料金とBigQueryエディション
3.6 サイジング
■3.6.1 サイジング - オンデマンド料金
■3.6.2 サイジング - BigQueryエディション
■3.6.3 ストレージのサイジング
3.7 目的環境別の影響隔離
3.8 テーブルを設計する
■3.8.1 パーティション分割・クラスタ化
■3.8.2 マテリアライズドビューの利用
■3.8.3 検索インデックスの利用
■3.8.4 主キーと外部キーの利用
3.9 テーブル設計以外のクエリ最適化
3.10 データの投入
■3.10.1 バルクロード
■3.10.2 外部データソース
3.11 バックアップとリストア
■3.11.1 BigQueryにおけるデータリストア - タイムトラベル機能
■3.11.2 BigQueryにおけるデータリストア - テーブルスナップショット
3.12 BigQueryにおけるトランザクションとDMLの最適化
3.13 DMLの最適化
3.14 外部接続の最適化 - Storage APIの利用とBI Engineの利用
■3.14.1 Notebookの場合やHadoop/Sparkコネクタの場合
■3.14.2 BIツールの場合
3.15 データマートジョブの設計最適化
■3.15.1 データマート作成クエリの最適化
■3.15.2 データマート作成ジョブの流れの最適化
3.16 BigQueryのモニタリング
3.17 環境の削除
3.18 まとめ
Column データを効率的、安全に共有する

第4章 レイクハウスの構築
4.1 レイクハウスの概要
■4.1.1 データウェアハウスとデータレイク
■4.1.2 データウェアハウスとデータレイクの課題
■4.1.3 レイクハウスの登場と利点
4.2 Google Cloudでのレイクハウスアーキテクチャ
■4.2.1 ストレージ層
■4.2.2 データ処理エンジン層
■4.2.3 データガバナンス層
4.3 BigLake
■4.3.1 BigLakeの機能概要
■4.3.2 BigLakeテーブルの作成と利用
■4.3.3 オブジェクトテーブル - レイクのオブジェクトをクエリする
4.4 Dataplex
■4.4.1 データカタログ
■4.4.2 ドメインに基づくデータ管理とセキュリティ
■4.4.3 データディスカバリ(データ検知)
■4.4.4 データリネージ
■4.4.5 データプロファイリング
■4.4.6 データ品質チェック
4.5 環境の削除
4.6 まとめ
Column マルチクラウドでのクラウドデータ基盤の利用

第5章 ETL/ELT処理 175
5.1 ETL/ELTとは
5.2 ETL/ELT処理を実施するサンプルシナリオ
5.3 サンプルシナリオ実施用の環境の構築
5.4 BigQueryでのELT
■5.4.1 BigQueryの作業用テーブルの作成<...

  1. 1.[書籍]

2021年2月に刊行した「Google Cloudではじめる実践データエンジニアリング入門」の改訂版です。改訂版の刊行までにデータ基盤に求められる要件は変化し、本書ではその間に進化を続けたGoogle Cloudの各サービスの情報をまとめています。

- Google Cloudの新サービスの反映:Dataform、Dataplex、BigLake、Datastream、Vertex AI、Geminiなど
- 各種Google Cloudの新機能のアーキテクチャへの反映:BigQuery、Dataflow、Pub/Sub、Cloud Coposer、Lookerなど

また非常に広い概念を含む「データ基盤」に求められる要件を明らかにしつつ、以下のような方々を主な対象として体系だったデータ基盤についての理解を整理できるように構成してあります。

- すでにソフトウェアコードはある程度かけるが、実践的にデータエンジニアリングへの入門をしたい方
- SQL を利用した分析を行っているが、データ基盤がどういう形なのか興味がある方
- すでにGoogle Cloud をデータ基盤として利用しているが、自社の設計について体系的に理解したい方、より良くする方法を探している方

データエンジニアリングの業務について一般的な知識を整理しつつ、Google Cloud 上でどのように構築するのかを、実践経験豊富な著者陣の現場のノウハウとともに説明します。

作品の情報

メイン

メンバーズレビュー

レビューを書いてみませんか?

読み込み中にエラーが発生しました。

画面をリロードして、再読み込みしてください。