ラボの概要
同僚が休暇で不在のため、組織のデータエンジニアリング業務を 1 日担当することになったとします。業務を引き継ぎ、Amazon Web Services (AWS) 上でデータを移動するためのさまざまなマネージドオプションを詳しく見ていきましょう。アーキテクチャのパターン、パフォーマンスとコストの最適化、セキュリティのベストプラクティスを検討します。オフィスに戻ってきた同僚はきっと感心することでしょう。
サンドボックス環境が提供されているため、同僚が不在の時でも概念実証 (POC) を実験してテストすることができます。本日の仕事として、小規模企業である自社が新しい都市に進出する際に役立ちそうなデータを調査することにしました。調査では、毎日の気象データの履歴を提供するアメリカ海洋大気庁 (NOAA) データセットを使用します。このデータを使用すれば、これから進出する都市で、夏物と冬物のアイテムを仕入れるタイミングを判断できると考えています。POC では、温度と降水量のメトリクスに焦点を当てます。
このラボでは、2022 年 8 月 5 日に https://registry.opendata.aws/noaa-gsod からアクセスした NOAA Global Surface Summary of Day (GSOD) データセットを使用します。このデータセットは、世界中の 9000 以上の気象観測所で収集された毎日の気象計測値 (気温、風速、湿度、気圧など) のコレクションです。データはもともと国立気候データセンターによって収集されたものです。ラボの時間制限により、使用するデータセットを縮小し、完全なデータセットで使用可能な数年分のデータのうち一部を含めるようにしました。
目標
このラボを修了すると、以下ができるようになります。
- AWS Glue クローラを作成する。
- AWS Glue Studio でジョブを作成して実行する。
- AWS Glue クローラと AWS Glue Studio ジョブを実行するために必要なアクセス許可を確認する。
- Amazon Athena を使用して AWS Glue データカタログをクエリする。
所要時間
このラボの所要時間は約 60 分です。
アイコンキー
- 注意: ヒントや重要なガイダンス。
- 詳細: 詳細情報が記載されている場所を示す。
- タスク完了: ラボのまとめや要点を示す。
- 更新: ウェブブラウザのページやリストを更新して、新しい情報を表示する必要があることを示す。