
EMR(Elastic MapReduce) は、マネージドな Apache Spark / Hadoop / Hive / HBase / Flink / Presto / Hue / Zeppelin などのフレームワークをサポートするビッグデータ分析基盤です。
大規模な ETL / データ変換 / バッチ処理 / ストリーム処理 を柔軟に実行でき、データの集計・加工・解析を効率的に行うことができます。
S3 / Glue Data Catalog / Redshift / Athena / DynamoDB / RDS / Kinesis / CloudWatch Logs などのAWSサービスと連携し、統合的なデータ分析環境を構築できます。特に、HDFS / EMRFS / S3連携(データレイク統合) により、S3をHadoopストレージとして利用し、スケーラブルで低コストなデータレイクを運用できます。
セキュリティ面では、Kerberos認証 や IAM / KMS / VPC暗号化 に対応しており、安全なデータ処理を実現します。
クラスタライフサイクル管理 により、クラスターの作成・実行・終了を自動化し、スポットインスタンス や Auto Scaling を活用することでコスト最適化も可能です。
開発環境としては、Jupyter / EMR Studio / EMR Notebooks / AWS CLI / SDK が利用でき、データサイエンスや分析ジョブの開発・デバッグを効率的に行えます。
EMR Serverless により、クラスターを管理せずにジョブ単位でリソースを自動割り当てできるため、運用負荷を大幅に削減できます。
重要用語
クラスタライフサイクル管理
EMR Serverless
ユースケース
- リスト1
 - リスト2
 - リスト3
 
ベストプラクティス
- リスト1
 - リスト2
 - リスト3
 
高可用性・冗長化
- リスト1
 - リスト2
 - リスト3
 
セキュリティ
- リスト1
 - リスト2
 - リスト3
 
運用・監視
- リスト1
 - リスト2
 - リスト3
 
デフォルトのリミット値
| リミット事項 | 上限数 | 
|---|---|
| 項目1 | 上限1 | 
| 項目2 | 上限2 | 
| 項目3 | 上限3 | 
| 項目4 | 上限4 | 
| 項目5 | 上限5 | 
AWS CLIのサンプルコード
vpc を作成
#include <stdio.h>
void main(void) {
  int i;
  for (i=0; i<10; i++)
    printf("%d\n", i);
vpc を作成
aaaaaaaaaaaaa
bbbbbbbbbbbbb
ccccccccccccc
Terraformのサンプルコード
vpc を作成
bbbbbbbbbbbbbbbbbbbbbbb
ddddddddddddddddddddddd
vpc を作成
xxxxxxxxxxxxxxxxxxxxxxx
yyyyyyyyyyyyyyyyyyyyyy
課金モデル
| 項目 | 内容 | 
|---|---|
| 項目1 | 内容1 | 
| 項目2 | 内容2 | 
| 項目3 | 内容3 | 
| 項目4 | 内容4 | 
| 項目5 | 内容5 |