许多公司和企业都拥有无法以原始形式使用的数据。要使数据变得有用,必须完成以下几个阶段:
- 需要验证数据的完整性和准确性。
- 需要存储和整理数据。
- 需要对数据进行处理,以便进行分析、可视化或机器学习。
- 需要对数据进行监管和保护。
一家公司开始创建一个集中的存储库来存储大量不同类型的数据,从而整理数据。这个集中的存储库就是数据湖。
在本课程中,您将了解在 AWS 上构建数据湖的组件、功能和最佳实践。
本课程包含四个模块,其中包括两个自主进度数字化课程和两个动手实验。
课程内容
本课程包括互动内容、视频、知识考核、评估和动手实验。
课程目标
在本课程中,您将学习以下内容:
- 了解在 AWS 上构建基本数据湖解决方案的最佳实践、技术和注意事项。
- 了解在 AWS 上构建可扩展、安全且具有成本效益的数据湖解决方案的典型流程。
- 了解要考虑的相关 AWS 服务和配置选项。
- 查看相关的 AWS 资源、文档和教程。
- 练习构建基本数据湖解决方案。(实验 1)
培训对象
本课程面向以下岗位的人员:
- 数据工程师
- 数据科学家
- 数据分析师
- 商业智能工程师
先决条件
参加本课程的学员最好具备以下条件:
- 具备 2-3 年的数据工程经验
- 具备 1-2 年的 AWS 服务实践经验
- 已完成 AWS Cloud Practitioner Essentials 或同等课程
- 已完成 Fundamentals of Analytics on AWS Part 1 和 Part 2 课程
- 已完成 Data Engineering on AWS – Foundations 课程
课程大纲
模块 1:构建数据湖解决方案(75 分钟)
在本课程中,您将了解在 Amazon Web Services (AWS) 上构建基本数据湖解决方案的流程、技术和指南。
- 简介
- 设置存储
- 摄取数据
- 构建数据目录
- 转换数据
- 提供要使用的数据
- 评估
- 总结
模块 2:Data Engineering on AWS: A Data Lake Solution – 实验 1(60 分钟)
在本实验中,您将了解数据湖的组件,将数据整理到不同的层(或区)中,并使用 Amazon S3 作为数据湖的存储层。
- 任务 1:查看 S3 存储桶中的原始区和使用区
- 任务 2:创建 S3 事件通知并将事件发送到 Amazon EventBridge
- 任务 3:查看数据湖解决方案的摄取层
- 任务 4:查看数据湖解决方案的处理层
- 任务 5:查看数据湖解决方案的使用层
模块 3:优化和保护数据湖解决方案(60 分钟)
在本课程中,您将了解在 AWS 上优化数据湖性能的方法。您还将了解安全注意事项和基本故障排除。
- 简介
- 开放表格式
- 使用 AWS Lake Formation 确保安全性
- 故障排除
- 评估
- 总结
模块 4:Data Engineering on AWS: A Data Lake Solution – 实验 2(45 分钟)
在本实验中,您将使用一个以 AWS Lake Formation 蓝图形式提供的工作流来简化数据湖的创建和数据的摄取。Lake Formation 蓝图是一种可以应用于现有 Lake Formation 数据湖的工作流。您还可以将它们作为一项任务应用到新数据湖的设置和创建中。
- 任务 1:了解实验环境
- 任务 2:设置 Lake Formation
- 任务 3:使用 Lake Formation 蓝图创建 AWS Glue 工作流
- 任务 4:运行并监控工作流
- 任务 5:验证数据湖设置结果
结束