データレイク

全体構成データの収集から分析までの全体フローを4つの層で設計されたデータレイクです
データソースRDS (リレーショナルDB)
CloudWatch Logs (アプリログ)
External API (外部データ)
取り込み層DMS (DB移行:バッチ)
Kinesis Firehose (ストリーム配信:ストリーム)
Lambda (ETL:API連携)
データレイク (S3) S3: Raw Zone (生データ)
S3: Processed Zone (加工データ)
S3: Curated Zone (最適化データ)
Glue (カタログ・ETL)
分析層Athena (クエリ)
Redshift Spectrum(クエリ)
QuickSight (BI/可視化)
SageMaker (機械学習)
Lake Formation (セキュリティ・ガバナンス)
表1.全体構成(データレイク)

バッチ系RDS (リレーショナルDB)
DMS (DB移行:バッチ)
S3: Raw Zone (生データ)
S3: Processed Zone (加工データ)
S3: Curated Zone (最適化データ)
ストリーム系CloudWatch Logs (アプリログ)
Kinesis Firehose (ストリーム配信:ストリーム)
S3: Raw Zone (生データ)
S3: Processed Zone (加工データ)
Glue(加工処理)
S3: Curated Zone (最適化データ)
API系External API (外部データ)
Lambda (ETL:API連携)
S3: Raw Zone (生データ)
S3: Processed Zone (加工データ)
Glue(変換処理)
S3: Curated Zone (最適化データ)
表2.データフロー(ETL処理)