[re:Invent 2023 レポート] Initiatives for data mesh and data fabric

この記事を書いたメンバー:

Shohei Miwa

[re:Invent 2023 レポート]  Initiatives for data mesh and data fabric

目次

Introduction

AWS Re:Ivent に参加してます、セッションをレポート形式で投稿します。

今回は Data Engineer 、IT Professional 向け、タイトル How AWS and BMW Group team up to accelerate data-driven innovation と題した BMW Group の事例セッションに対するレポートとなります。

Description

In this session, BMW Group and AWS present BMW's journey to unlock the power of data. BMW and AWS Professional Services collaborate with a focus on Cloud Data Hub, BMW Group's data platform, a central starting point for implementing analytical and data-driven applications. This supports users to process, interrogate, and enrich development, production, sales, and vehicle performance data on the order of several petabytes and to gain insights from data. Learn how the BMW Al platform uses Al services from AWS such as Amazon SageMaker Model Training and SageMaker Studio to implement use cases at scale.

本セッションでは、BMWグループとAWSが、データの力を引き出すBMWの旅を紹介します。BMWとAWSプロフェッショナル・サービスは、BMWグループのデータ・プラットフォームであるCloud Data Hubを中心に協業しており、分析およびデータ駆動型アプリケーションを実装するための中心的な出発点となっている。これは、数ペタバイト規模の開発、生産、販売、車両性能データを処理、照会、リッチ化し、データから洞察を得るためのユーザーをサポートします。BMW Al プラットフォームが、Amazon SageMaker Modelトレーニングや SageMaker StudioといったAWSのAlサービスを利用して、どのように大規模なユースケースを実装しているかをご覧ください。

Challenges and Solutions

セッションの冒頭では、BMW Group が解決したい課題としてデータサイロを破壊する事、イノベーションの加速、データ利用の民主化を掲げている事を話されていました。

課題に対して、デジタルプラットフォーム、コラボレーション、組織全体のアプリケーションの利用、AI のユースケースといった手段を AWS のテクノロジーにより実装、解決しているというものでした。

Cloud Data Hub は、BMW Group のデータプラットフォームとなるアプリケーションです。

参考: https://aws.amazon.com/jp/solutions/case-studies/bmw-group-case-study/


データの探索、データ準備、データによる価値の創造 3点を end-to-end で実現するプラットフォームであり、BMW Group が持つデータへのイノベーションを実現しているもののようです。



Point to AWS Technology 

その中で2点ほど挙げられていた AWS のテクノロジーについて触れていきます。

Iceberg to s3

lake house architecture について言及されていた中に、Apache Iceberg テーブルを S3 上へ作成する事で、利用コストが削減され、DWHを追加で利用する事により、更にユースケースを作る事を可能にしたと言います。

Iceberg Table は、AWS Glue Data Catalog を使用して、Spark-SQL により構築を行う S3 データレイク上に展開されたデータに対して、トランザクションテーブルを作成します。

コスト削減については、ストレージの最適化を行う事に対しての言及が以下にございました。S3 データレイクから構成されるテーブルである事によって実現可能なコスト削減の方法のようです。

参考: https://aws.amazon.com/jp/blogs/big-data/improve-operational-efficiencies-of-apache-iceberg-tables-built-on-amazon-s3-data-lakes/

データレイクストレージを最適化する

Amazon S3 上に最新のデータレイクを構築する主な利点の 1 つは、パフォーマンスを犠牲にすることなくコストを削減できることです。Amazon S3 ライフサイクル設定と Apache Iceberg テーブルでの Amazon S3 オブジェクトのタグ付けを使用して、データ レイク ストレージ全体のコストを最適化できます。Amazon S3 ライフサイクル設定は、Amazon S3 がオブジェクトのグループに適用するアクションを定義する一連のルールです。アクションには次の 2 種類があります。

移行アクション– これらのアクションは、オブジェクトが別のストレージ クラスに移行するタイミングを定義します。たとえば、Amazon S3 Standard から Amazon S3 Glacier へ。

有効期限アクション– これらのアクションは、オブジェクトの有効期限がいつ切れるかを定義します。Amazon S3 は、ユーザーに代わって期限切れのオブジェクトを削除します。

Amazon S3 は、オブジェクトのタグ付けを使用して、各タグがキーと値のペアであるストレージを分類します。Apache Iceberg の観点から見ると、テーブルへの書き込みおよび削除中に S3 オブジェクトに追加できるカスタム Amazon S3 オブジェクトタグがサポートされています。Iceberg では、バケット レベルでタグベースのオブジェクト ライフサイクル ポリシーを設定して、オブジェクトを別の Amazon S3 層に移行することもできます。Iceberg の config プロパティを使用するとs3.delete.tags、オブジェクトは削除前に、設定されたキーと値のペアでタグ付けされます。カタログプロパティs3.delete-enabledが に設定されている場合false、オブジェクトは Amazon S3 から物理的に削除されません。

これは Amazon S3 のタグ付け削除と組み合わせて使用されることが想定されているため、オブジェクトはAmazon S3 ライフサイクル ポリシーを使用してタグ付けおよび削除されます。このプロパティはtrueデフォルトで に設定されています。

Data Portal 

Data Portal は、フロントエンドアプリケーションにあたり、DATA PORTAL を使用して、data Mesh / data fabric を実現しているようです。 

参考: https://aws.amazon.com/jp/solutions/case-studies/bmw-group-case-study/


Data Portal は、セッションの中で、実際の画面を展開されました。


Cloud Data Hub 全体では、大規模に多くのAWSサービスが利用されているようです。データプロバイダーとデータコンシューマーの概念を導入し、データの取り込み変換処理を実現しているようです。ここでは、データプロバイダーとして Amazon Kinesis Data Firehose / AWS Lambda / AWS Glue / AWS EMR 、データコンシューマーでは、Amazon Athena / Amazon SageMaker / AWS Glue / Amazon EMR などを使用して、チームのユースケースにデータを活用しているようです。

参考:  https://aws.amazon.com/jp/solutions/case-studies/bmw-group-case-study/

BMW Group は、AWS のサービスを使用して、毎日膨大なデータを取り込んでいます。

現在では、BMW と MINI の何百万台もの車両が、BMW Group の高度に安全が保たれたバックエンドを経由して CDH に接続されており、毎日匿名のテレメトリデータがテラバイト単位で処理されています。

同社はこのデータを使用して、チェック制御エラーなど車両のヘルスインジケーターをモニタリングし、車両ライン全体の潜在的な問題を識別しています。

これにより、BMW Group は、CDH から取得、収集、および改良されたフリートデータを活用して、問題が顧客に影響を与える前であっても、問題をより適切に解決できるようになります。

このデータをより適切に管理するために、BMW Group は「データプロバイダー」と「データコンシューマー」の概念を導入して、ソフトウェアエンジニアリングチームの自律性と俊敏性の両方を向上させました。

データプロバイダーは、Amazon Kinesis Data Firehose、AWS Lambda、AWS Glue、Amazon EMR などの AWS のサービスを利用してデータを取り込み変換します。

データコンシューマーはその後、Amazon Athena、Amazon SageMaker、AWS Glue、Amazon EMR などのサービスを使用して、各チームのユースケースにデータを活用します。

プロバイダーとコンシューマーのどちらも、サービスの使用は独自のアカウントで行い、共有しているのは、中央 API で制御できる、明確に定義されたインターフェイスのみです。

これにより、ボトルネックを回避できます。個々のデータレイヤーは Amazon S3 バケットに保存され、それらのスキーマは AWS Glue データカタログに登録されます。

BMW Group は、AWS Glue データカタログに技術メタデータを収集するだけでなく、組織全体でデータを民主化するために、人間が読める形式のデータカタログを構築することが不可欠であることを発見しました。

こうすることで、CDH にどんなデータアセットがどのように集められているかについて、透明性が非常に高くなります。フロントエンドアプリケーションのデータポータルは、データリソースを明確に表示し、組織全体の 500 人を超えるユーザーのデータ使用パターンに基づく「人気指数」を提供することで、データアナリスト、データサイエンティスト、エンジニアの生産性を高めるデータエクスプローラーとして機能します。

また、CDH は、AWS AppSync を介して GraphQL を活用して、データプロバイダーとコンシューマーの両方にスケーラブルでユニバーサルな API を構築し、開発の柔軟性を高めています。GraphQL 上に構築されたインターフェイスは、従来の REST API とは異なり、データカタログのメタデータの表示や、接続された車両から収集された異種データの提供など、革新的な要望に対応するのに適しています。デベロッパーは、ペイロード構造を定義し、パラメータをクエリして特定のユースケースに必要なデータを取得する柔軟性を得られます。これにより、異なるデータ要件のセットを使用してプロジェクトごとに新しい API のセットを作成する必要がなくなるため、以前よりも大幅に高速にアプリケーションを構築できます。


1時間のセッションでしたが、AWS サービスを利用した Cloud Data Hub の存在により、組織が持つデータに対する多くの問題を解決する施策を取られている事がセッションから伺えました。

現地のレポートは以上となります、引き続き、現地レポート、振り返りレポートを投稿します。

閲覧頂きありがとうございました。

カテゴリー
タグ

この記事を書いたメンバー

Shohei Miwa
シニアテクニカルコンサルタント
Shohei Miwa

【Qiitaブログ】

https://qiita.com/Shohei_Miwa/

【LinkedIn】

https://www.linkedin.com/in/shohei-miwa-8b77bb190/

Pick upピックアップ

Search記事を探す

キーワード

SAPシステムや基幹システムのクラウド移行・構築・保守、
DXに関して
お気軽にご相談ください

03-6260-6240 (受付時間 平日9:30〜18:00)