数据不断从多个来源流入企业。要从这些数据中获得见解和价值,就需要对数据的摄取、存储、处理和提供阶段编排一条管道。本课程将教您如何在 AWS 上构建可扩展、安全且经济高效的批量数据管道。
您将了解从数据库和数据湖等来源摄取批量数据的最佳实践。课程介绍了 AWS Glue 和 Amazon EMR 等服务,这些服务用于处理原始数据并将其转换为可用于分析的数据集。课程包括使用 AWS Glue Data Catalog 对数据进行编目。您还将了解如何使用 Amazon Athena 和 Amazon QuickSight 等服务将处理后的数据用于分析、机器学习和报告。
课堂活动
本课程包括互动内容、视频、知识考核、评估和动手实验。
课程目标
在本课程中,您将了解如何:
- 描述 AWS 上的批量数据管道解决方案的用途、架构和流程。
- 确定构建批量数据管道解决方案所需的适当 AWS 服务和配置。
- 说明批量数据管道中的数据摄取、处理、编目和提供要使用的数据的流程。
- 为批量数据管道解决方案实施自动化、编排、安全和监管选项。
- 监控、优化 AWS 上的批量数据管道解决方案并进行排除故障。
- 使用 Amazon EMR、AWS Glue、Amazon S3 和 Amazon Athena 等 AWS 服务构建和部署批量数据管道解决方案。(实验 1 和 2)
培训对象
本课程面向以下工作角色:
- 数据工程师
- 数据科学家
- 数据分析师
- 商业智能工程师
前提条件
参加本课程的学员最好具备以下条件:
- 具备 2-3 年的数据工程经验
- 具备 1-2 年的 AWS 服务实践经验
- 已完成 AWS Cloud Practitioner Essentials 课程
- 已完成 Fundamentals of Analytics on AWS Part 1 和 Part 2 课程
- 已完成 Data Engineering on AWS – Foundations 课程
课程大纲
模块 1:构建批量数据管道(35 分钟)
本部分为在 AWS 上构建批量数据管道奠定了基础。它涵盖了关键的设计考虑因素、数据摄取方法,并提供了一项评估来考察您对构建稳健的批量数据管道解决方案的理解情况。
- 第 1 课:课程导航
- 第 2 课:简介
- 第 3 课:设计批量数据管道
- 第 4 课:摄取数据
- 第 5 课:评估
- 第 6 课:总结
- 第 7 课:联系我们
模块 2:实施批量数据管道(30 分钟)
在设计了批处理管道之后,本部分将深入探讨实施细节。您将了解如何处理和转换数据、如何对其进行编目以进行监管,以及如何将其提供给分析工具使用。评估将强化这些概念。
- 第 1 课:课程导航
- 第 2 课:简介
- 第 3 课:处理和转换数据
- 第 4 课:对数据进行编目
- 第 5 课:提供要使用的数据
- 第 6 课:评估
- 第 7 课:总结
模块 3:数据科学家的一天(45 分钟)
在本实验中,您将使用温度和降水指标来确定公司应为不同城市储备夏季还是冬季物品。您将创建一个 AWS Glue 爬网程序、查看 IAM 策略、查看 Data Catalog、运行 Glue 任务来转换数据,并在 Athena 中查询处理过的数据。
- 任务 1:创建并运行 AWS Glue 爬网程序
- 任务 2:查看 IAM 策略
- 任务 3:查看 Data Catalog 中的表
- 任务 4:在 AWS Glue Studio 中运行任务以转换数据
- 任务 5:在 Amazon Athena 中查询 data parquet 表
模块 4:优化、编排和保护批量数据管道(40 分钟)
本部分涵盖了一些高级主题,涉及优化批量管道的成本和性能、跨多种 AWS 服务协调工作流,以及实施安全最佳实践和数据监管。
- 第 1 课:课程导航
- 第 2 课:简介
- 第 3 课:优化批量数据管道
- 第 4 课:编排批量数据管道
- 第 5 课:批量数据管道的安全和监管
- 第 6 课:评估
- 第 7 课:总结
模块 5:使用 AWS Step Functions 在 Spark 中编排数据处理(实验)(30 分钟)
运用您学到的编排知识,使用 Apache Spark 和 Step Functions 在 Amazon EMR 上编排股票分析工作流。
- 任务 1:了解实验环境
- 任务 2:运行 Step Functions 状态机任务
- 任务 3:验证 Step Functions 的运行状况