Glue

Glue は、サーバーレスな ETL(Extract, Transform, Load) サービスであり、分析(Analytics) における データ統合 と データ準備 を自動化できるプラットフォームです。

Glue Crawler によってデータソースをスキャンし、スキーマを自動検出して Glue Data Catalog に登録します。登録されたメタデータをもとに、Glue Job / ETL Job を実行して Python / Scala / PySpark ベースの ETL処理 を行うことができます。

開発者は Glue Studio を使ってGUI上でジョブを設計でき、ノーコードでデータ整形を行いたい場合は Glue DataBrew を利用できます。また、ジョブの実行や連携を自動化するために Glue WorkflowTrigger が用意されており、複雑なETLパイプラインも簡単に運用できます。

Glue Streaming によって Kinesis や Kafka からのリアルタイムデータを処理でき、Glue Schema Registry でストリーミングデータのスキーマ管理も可能です。

これらの機能は Athena、Redshift、EMR などのサービスと統合して動作し、データレイク環境の構築と分析基盤の自動化を強力に支援します。

重要用語

Glue Data Catalog
Glue Studio
Glue DataBrew
Glue Workflow
Trigger
Glue Schema Registry

ユースケース

  • リスト1
  • リスト2
  • リスト3

ベストプラクティス

  • リスト1
  • リスト2
  • リスト3

高可用性・冗長化

  • リスト1
  • リスト2
  • リスト3

セキュリティ

  • リスト1
  • リスト2
  • リスト3

運用・監視

  • リスト1
  • リスト2
  • リスト3

デフォルトのリミット値

リミット事項 上限数
項目1上限1
項目2上限2
項目3上限3
項目4上限4
項目5上限5

AWS CLIのサンプルコード

vpc を作成
vpc を作成
aaaaaaaaaaaaa
bbbbbbbbbbbbb
ccccccccccccc

Terraformのサンプルコード

vpc を作成
bbbbbbbbbbbbbbbbbbbbbbb
ddddddddddddddddddddddd
vpc を作成
xxxxxxxxxxxxxxxxxxxxxxx
yyyyyyyyyyyyyyyyyyyyyy

課金モデル

項目 内容
項目1内容1
項目2内容2
項目3内容3
項目4内容4
項目5内容5

公式ページ

AWSドキュメント