EMR

EMR(Elastic MapReduce) は、マネージドな Apache Spark / Hadoop / Hive / HBase / Flink / Presto / Hue / Zeppelin などのフレームワークをサポートするビッグデータ分析基盤です。

大規模な ETL / データ変換 / バッチ処理 / ストリーム処理 を柔軟に実行でき、データの集計・加工・解析を効率的に行うことができます。

S3 / Glue Data Catalog / Redshift / Athena / DynamoDB / RDS / Kinesis / CloudWatch Logs などのAWSサービスと連携し、統合的なデータ分析環境を構築できます。特に、HDFS / EMRFS / S3連携(データレイク統合) により、S3をHadoopストレージとして利用し、スケーラブルで低コストなデータレイクを運用できます。

セキュリティ面では、Kerberos認証 や IAM / KMS / VPC暗号化 に対応しており、安全なデータ処理を実現します。

クラスタライフサイクル管理 により、クラスターの作成・実行・終了を自動化し、スポットインスタンス や Auto Scaling を活用することでコスト最適化も可能です。

開発環境としては、Jupyter / EMR Studio / EMR Notebooks / AWS CLI / SDK が利用でき、データサイエンスや分析ジョブの開発・デバッグを効率的に行えます。

EMR Serverless により、クラスターを管理せずにジョブ単位でリソースを自動割り当てできるため、運用負荷を大幅に削減できます。

重要用語

クラスタライフサイクル管理
EMR Serverless
関連サービス

ユースケース

  • リスト1
  • リスト2
  • リスト3

ベストプラクティス

  • リスト1
  • リスト2
  • リスト3

高可用性・冗長化

  • リスト1
  • リスト2
  • リスト3

セキュリティ

  • リスト1
  • リスト2
  • リスト3

運用・監視

  • リスト1
  • リスト2
  • リスト3

デフォルトのリミット値

リミット事項 上限数
項目1上限1
項目2上限2
項目3上限3
項目4上限4
項目5上限5

AWS CLIのサンプルコード

vpc を作成
vpc を作成
aaaaaaaaaaaaa
bbbbbbbbbbbbb
ccccccccccccc

Terraformのサンプルコード

vpc を作成
bbbbbbbbbbbbbbbbbbbbbbb
ddddddddddddddddddddddd
vpc を作成
xxxxxxxxxxxxxxxxxxxxxxx
yyyyyyyyyyyyyyyyyyyyyy

課金モデル

項目 内容
項目1内容1
項目2内容2
項目3内容3
項目4内容4
項目5内容5

公式ページ

AWSドキュメント