데이터는 다양한 소스에서 조직으로 지속적으로 유입됩니다. 이 데이터에서 인사이트와 가치를 도출하려면 수집, 저장, 처리 및 제공 스테이지로 오케스트레이션된 파이프라인을 거쳐야 합니다. 이 과정에서는 AWS에서 확장 가능하고 안전하며 비용 효율적인 배치 데이터 파이프라인을 구축하는 방법을 알아봅니다.
데이터베이스, 데이터 레이크와 같은 소스에서 배치 데이터를 수집하는 모범 사례를 알아봅니다. 이 과정에서는 원시 데이터를 처리하고 분석에 바로 사용할 수 있는 데이터세트로 변환하는 AWS Glue, Amazon EMR과 같은 서비스를 살펴봅니다. 이 과정에서는 AWS Glue 데이터 카탈로그를 사용하는 데이터 카탈로그화를 설명합니다. 또한 Amazon Athena, Amazon QuickSight와 같은 서비스를 사용하여 분석, 기계 학습 및 보고를 위해 처리된 데이터를 제공하는 방법도 알아봅니다.
참고: 이 과정의 동영상에는 한국어 트랜스크립트 또는 자막이 지원되며 음성은 영어로 출력됩니다. 자막을 표시하려면 동영상 화면 우측 하단의 CC 버튼을 클릭하세요.
참고: 이 과정은 Google Chrome(최신 주요 버전 2개), Microsoft Edge(최신 주요 버전 2개), Safari(최신 주요 버전 2개)에 최적화되어 있습니다.
활동
이 과정에는 대화형 콘텐츠, 비디오, 지식 확인, 평가 및 핸즈온랩이 포함됩니다.
과정 목표
이 과정에서 학습할 내용은 다음과 같습니다.
- AWS 기반 배치 데이터 파이프라인 솔루션의 목적, 아키텍처 및 프로세스를 설명합니다.
- 배치 데이터 파이프라인 솔루션을 구축하는 데 적합한 AWS 서비스 및 구성을 식별합니다.
- 배치 데이터 파이프라인에서 데이터 수집, 처리, 카탈로그화 및 사용을 위한 제공으로 구성된 프로세스를 설명합니다
- 배치 데이터 파이프라인 솔루션에 대한 자동화, 오케스트레이션, 보안 및 거버넌스 옵션을 구현합니다.
- AWS에서 배치 데이터 파이프라인 솔루션을 모니터링하고, 최적화하고, 문제를 해결합니다.
- Amazon EMR, AWS Glue, Amazon S3, Amazon Athena와 같은 AWS 서비스를 사용하여 배치 데이터 파이프라인 솔루션을 구축하고 배포합니다. (실습 1 및 2)
수강 대상
이 과정은 다음과 같은 직무를 대상으로 합니다.
- Data Engineers
- Data Scientists
- Data Analysts
- Business Intelligence Engineers
수강 전 권장 사항
이 과정을 수강하기 전에 다음 조건을 갖추는 것이 좋습니다.
- 2~3년의 데이터 엔지니어링 경험
- 1~2년의 AWS 서비스 실습 경험
- AWS Cloud Practitioner Essentials 과정 수료
- Fundamentals of Analytics on AWS – Parts 1 및 2 과정 수료
- Data Engineering on AWS – Foundations 과정 수료
과정 개요
모듈 1 - 배치 데이터 파이프라인 구축(35분)
이 섹션에서는 AWS에서 배치 데이터 파이프라인을 구축하기 위한 기초를 제공합니다. 주요 설계 고려 사항, 데이터 수집 방법을 다루고, 강력한 배치 데이터 파이프라인 솔루션 구축에 대한 이해도의 평가를 제공합니다.
- 강의 1: 과정 탐색
- 강의 2: 소개
- 강의 3: 배치 데이터 파이프라인 설계
- 강의 4: 데이터 수집
- 강의 5: 평가
- 강의 6: 결론
- 강의 7: AWS에 문의
모듈 2 - 배치 데이터 파이프라인 구현(30분)
이 섹션에서는 배치 파이프라인을 설계한 후 구현 세부 정보를 자세히 살펴봅니다. 데이터를 처리하고 변환하는 방법, 거버넌스를 위해 데이터를 카탈로그화하는 방법, 분석 도구에서 사용할 수 있도록 데이터를 제공하는 방법을 알아봅니다. 평가를 통해 개념을 강화할 수 있습니다.
- 강의 1: 과정 탐색
- 강의 2: 소개
- 강의 3: 데이터 처리 및 변환
- 강의 4: 데이터 카탈로그화
- 강의 5: 사용을 위한 데이터 제공
- 강의 6: 평가
- 강의 7: 결론
모듈 3 - A Day in the life of a Data Engineer(실습)(45분)
이 실습에서는 온도 및 강수량 지표를 사용하여 회사가 다양한 도시에 여름용 품목을 비축해야 하는지, 겨울용 품목을 비축해야 하는지 판단합니다. AWS Glue 크롤러를 생성하고, IAM 정책을 검토하고, 데이터 카탈로그를 확인하고, Glue 작업을 실행하여 데이터를 변환하고, Athena에서 처리된 데이터를 쿼리합니다.
- 태스크 1: AWS Glue 크롤러 생성 및 실행
- 태스크 2: IAM 정책 검토
- 태스크 3: 데이터 카탈로그에서 테이블 보기
- 태스크 4: AWS Glue Studio에서 작업을 실행하여 데이터 변환
- 태스크 5: Amazon Athena에서 data_parquet 테이블 쿼리
모듈 4 - 배치 데이터 파이프라인 최적화, 오케스트레이션 및 보안(40분)
이 섹션에서는 비용 및 성능에 맞게 배치 파이프라인을 최적화하고, 여러 AWS 서비스에서 워크플로를 오케스트레이션하고, 보안 모범 사례와 데이터 거버넌스를 구현하기 위한 고급 주제를 다룹니다.
- 강의 1: 과정 탐색
- 강의 2: 소개
- 강의 3: 배치 데이터 파이프라인 최적화
- 강의 4: 배치 데이터 파이프라인 오케스트레이션
- 강의 5: 배치 데이터 파이프라인의 보안 및 거버넌스
- 강의 6: 평가
- 강의 7: 결론
모듈 5 - Orchestrate data processing in Spark using AWS Step Functions(실습)(30분)
Apache Spark와 Step Functions를 사용하여 오케스트레이션에 대해 배운 내용을 적용하여 Amazon EMR에서 주식 분석 워크플로를 오케스트레이션합니다.
- 태스크 1: 실습 환경 탐색
- 태스크 2: Step Functions 상태 머신 태스크 실행
- 태스크 3: Step Functions 실행 검증