많은 회사와 조직에서는 원시 형식으로 사용할 수 없는 데이터를 보유하고 있습니다. 유용한 데이터가 되려면 다음 단계를 거쳐야 합니다.
- 데이터의 완전성과 정확성을 검증해야 합니다.
- 데이터를 저장하고 정리해야 합니다.
- 분석, 시각화 또는 기계 학습에 액세스할 수 있도록 데이터를 처리해야 합니다.
- 데이터를 관리하고 보호해야 합니다.
회사에서는 방대한 양과 다양한 형식의 데이터를 저장할 수 있는 중앙 집중식 리포지토리를 생성하여 이 데이터를 정리하기 시작합니다. 이것이 데이터 레이크입니다.
이 과정에서는 AWS 기반 데이터 레이크를 구축하는 데 필요한 구성 요소, 기능, 모범 사례에 대해 알아봅니다.
2개의 자습형 디지털 교육 과정과 2개의 실습 랩을 포함하여 4개의 모듈이 있습니다.
활동
이 과정에는 대화형 콘텐츠, 비디오, 지식 확인, 평가 및 핸즈온랩이 포함됩니다.
과정 목표
이 과정에서 학습할 내용은 다음과 같습니다.
- AWS에서 기본 데이터 레이크 솔루션을 구축하기 위한 모범 사례, 기술 및 고려 사항을 살펴봅니다.
- AWS에서 확장 가능하고 안전하며 비용 효율적인 데이터 레이크 솔루션을 구축하는 일반적인 프로세스를 알아봅니다.
- 고려해야 할 관련 AWS 서비스와 구성 옵션을 파악합니다.
- 관련 AWS 리소스, 설명서 및 자습서를 검토합니다.
- 기본 데이터 레이크 솔루션 구축을 연습합니다. (실습 1)
수강 대상
이 과정의 수강 대상은 다음과 같습니다.
- 데이터 엔지니어
- 데이터 과학자
- 데이터 분석가
- 비즈니스 인텔리전스 엔지니어
수강 전 권장 사항
이 과정을 수강하기 전에 다음 조건을 갖추는 것이 좋습니다.
- 2~3년의 데이터 엔지니어링 경험
- 1~2년의 AWS 서비스 실습 경험
- AWS Cloud Practitioner Essentials 또는 이와 동등한 과정 수료
- Fundamentals of Analytics on AWS Part 1 및 2 과정 수료
- Data Engineering on AWS - Foundations 과정 수료
과정 개요
모듈 1: 데이터 레이크 솔루션 구축(75분)
이 과정에서는 Amazon Web Services(AWS)에서 기본 데이터 레이크 솔루션을 구축하기 위한 프로세스, 기술, 지침을 살펴봅니다.
- 소개
- 스토리지 설정
- 데이터 수집
- 데이터 카탈로그 구축
- 데이터 변환
- 사용을 위한 데이터 제공
- 평가
- 결론
모듈 2: AWS 기반 데이터 엔지니어링: 데이터 레이크 솔루션 - 실습 1(60분)
이 실습에서는 데이터 레이크의 구성 요소를 살펴보고, 데이터를 계층(또는 영역)으로 구성하고, Amazon S3를 데이터 레이크의 스토리지 계층으로 사용합니다.
- 태스크 1: 원시 영역 및 소비 영역에 대한 S3 버킷 검토
- 태스크 2: S3 이벤트 알림을 생성하고 Amazon EventBridge로 이벤트 전송
- 태스크 3: 데이터 레이크 솔루션에 대한 수집 계층 검토
- 태스크 4: 데이터 레이크 솔루션에 대한 처리 계층 검토
- 태스크 5: 데이터 레이크 솔루션에 대한 소비 계층 검토
모듈 3: Optimizing and Securing a Data Lake Solution(60분)
이 과정에서는 AWS 기반 데이터 레이크의 성능을 최적화하는 방법을 알아봅니다. 또한 보안 고려 사항 및 기본 문제 해결에 대해서도 알아봅니다.
- 소개
- 오픈 테이블 형식
- AWS Lake Formation을 사용하는 보안
- 문제 해결
- 평가
- 결론
모듈 4: AWS 기반 데이터 엔지니어링: 데이터 레이크 솔루션 - 실습 2(45분)
이 실습에서는 AWS Lake Formation 청사진으로 제공되는 워크플로를 사용하여 데이터 레이크 생성 및 데이터 수집을 간소화합니다. Lake Formation 청사진은 기존 Lake Formation 데이터 레이크에 적용할 수 있는 워크플로입니다. 새로운 데이터 레이크를 설정하고 생성하는 태스크로 적용할 수도 있습니다.
- 태스크 1: 실습 환경 탐색
- 태스크 2: Lake Formation 설정
- 태스크 3: Lake Formation 청사진을 사용하여 AWS Glue 워크플로 생성
- 태스크 4: 워크플로 실행 및 모니터링
- 태스크 5: 데이터 레이크 설정 결과 검증
끝