BeeX Technical Blog

  • 818
  • bxadm

【re:Invent 2018】AWS Glue周りの発表を聞いてきた(Python Shell、CloudWatch Event連携、Lake Formation)

re:Invent 2018が開催されているラスベガスにいる Yusuke 特派員が、AWS Glue 関連の新機能をまとめてBlogにあげてくれたので、本Blogでもご紹介します。

AWS Glueとは、サーバーレスでクラウド向けに最適化された完全マネージド型 ETL サービスの名称です。こちらも昨日取り上げたAmazon AppStream 2.0同様にSAP on AWS のユーザー様にとって今後活用が期待されるサービスの一つです。具体的には従来SAP ERPの情報活用という観点から、3rdベンダー製のETLツールを導入し、SAP ERPサーバや業務システム、EXCELファイルなどの各種データソースからデータを抽出、変換、ロードするのが一般的でしたが、それを最新のサーバレス環境で実装したものです。

こう書くと単なるツールの代替のように感じますが、クラウド向けに最適化されているのがポイントで、シンプルかつ柔軟で費用対効果の高い ETL機能が即座に使えるようになり、さらにデータレイクといった最新の実装コンセプトを具体化するための必須機能の一つ「データ移動」において、相性も抜群であることは言うまでもありません。

AWS Glue とは

抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されたデータは、すぐに検索、クエリ、ETL で使用できます。AWS Glue では、データ変換とデータのロードプロセスを実行するコードが生成されます。