실습 개요
지역의 비영리 시민 변호 단체는 리전의 자격 있는 시민들에게 정부 지원 서비스를 홍보합니다. 변호 단체는 새로 설정된 지원 서비스를 홍보할 준비를 하고 있습니다. 핵심 자격 기준 중 하나는 개인의 연간 소득이 50,000 USD를 넘을 수 없다는 것입니다. 이 시민 변호 단체는 시민의 교육과 채용을 포함하는 인구 통계 데이터가 있지만 데이터 일부에만 소득 데이터가 포함됩니다. 시민 변호 단체는 AnyCompany Consulting에 다른 인구통계 데이터를 기준으로 개인의 소득이 50,000 USD보다 낮을 수 있는지 여부를 예측할 수 있는 기계 학습(ML) 솔루션을 전달하도록 요청했습니다. 이 솔루션은 서비스를 받을 자격이 있을 가능성이 가장 높은 시민을 홍보 대상으로 지정하여 제한된 예산을 최대한 활용하는 데 도움을 줄 것입니다. AnyCompany Consulting은 사용자가 데이터를 시각화하고 준비할 것을 원합니다. 데이터가 정리된 후에 해당 Amazon Simple Storage Service(S3) 버킷으로 데이터를 내보내야 합니다.
그 외에도 AnyCompany Consulting의 요청에 따라 나중에 Amazon SageMaker로 가져와야 하는 일부 데이터세트에서는 대규모로 데이터를 준비해야 합니다. 따라서 Amazon EMR의 Apache Spark를 Amazon SageMaker Studio와 통합하여 데이터를 처리하고 준비하는 방법을 테스트하려고 합니다.
이 실습에서는 데이터를 시각화하고 준비하는 방법을 배우고, SageMaker Data Wrangler에서 데이터세트에 대한 몇 가지 변환을 완료합니다. 데이터가 변환된 후에는 데이터를 다시 Amazon S3로 내보내는 방법을 배웁니다. 또한 SageMaker Studio에서 직접 EMR 클러스터를 검색하고 해당 클러스터에 안전하게 연결하는 방법을 알아봅니다. 구체적으로는 SageMaker Studio 노트북을 사용하여 EMR 클러스터를 시각적으로 찾아보고 해당 클러스터에 인증 및 연결합니다. 그런 다음, Apache Spark를 사용하여 Amazon EMR의 Apache Hive 테이블을 쿼리합니다.
목표
이 실습을 마치면 다음 작업을 수행할 수 있습니다.
- 효과적인 데이터 시각화 방법을 선택합니다.
- 데이터 정리 및 변환의 가치를 설명합니다.
- 누락된 값, 이상치, 중복된 데이터 등을 처리하는 방법을 설명합니다.
- 키 인코딩 기법을 정의합니다.
- 데이터를 수집하고 Amazon Sagemaker Data Wrangler로 변환하는 방법을 설명합니다.
- Amazon EMR에서 Spark를 사용하여 데이터를 변환하는 방법을 설명합니다.
필수 기술 지식
이 실습을 완료하려면 다음 지식을 보유하고 있어야 합니다.
- AWS Management Console에 대한 기본 탐색
- 데이터베이스 개념, MySQL 및 데이터베이스 가용성에 대한 이해
아이콘 키
이 실습에서는 다양한 유형의 지침 및 참고 사항에 대한 주의를 환기하기 위해 다양한 아이콘이 사용됩니다. 각 아이콘의 목적은 다음과 같습니다.
- 주의: 특별한 관심이 필요한 중요한 정보입니다(놓쳤다고 해도 장비 또는 데이터에 문제가 발생할 정도로 중요하지는 않지만 특정 단계를 반복해야 할 수 있음).
- 자세히 알아보기: 자세한 정보를 찾을 수 있는 위치를 나타냅니다.
- 참고: 힌트, 팁 또는 중요한 가이드입니다.
- 태스크 완료: 실습의 완료 또는 요점입니다.