Visão geral do laboratório
Um grupo de advocacia cidadã sem fins lucrativos promove serviços de assistência do governo a cidadãos qualificados na sua região. O grupo de advocacia está se preparando para promover um serviço de assistência recém-estabelecido. Um dos principais critérios de elegibilidade é que a pessoa não pode ter uma renda anual superior a USD 50 mil. O grupo de advocacia cidadã tem dados demográficos que incluem o grau de escolaridade e o emprego dos cidadãos, mas apenas um subconjunto dos dados inclui renda. O grupo de advocacia cidadã pediu para a AnyCompany Consulting entregar uma solução de machine learning (ML) que possa prever se uma pessoa provavelmente ganha menos de USD 50 mil com base nos outros dados demográficos. Essa solução o ajudará a usar da melhor forma possível o orçamento limitado direcionando promoções a cidadãos com maior probabilidade de serem elegíveis para o serviço. A AnyCompany Consulting quer que você visualize e prepare os dados. Depois da limpeza dos dados, ela quer que você os exporte para o bucket do Amazon Simple Storage Service (Amazon S3).
Além disso, há outros conjuntos de dados que a AnyCompany Consulting deseja que você leve posteriormente para o Amazon SageMaker e isso exige preparação de dados em grande escala. Você quer testar como o Apache Spark no Amazon EMR pode ser integrado ao Amazon SageMaker Studio para processar e preparar os dados.
Neste laboratório, você aprenderá a visualizar e preparar os dados, além de realizar várias transformações no conjunto de dados no SageMaker Data Wrangler. Depois da transformação dos dados, você aprenderá a exportá-los de volta ao Amazon S3. Você também aprenderá a descobrir e se conectar com segurança a um cluster do EMR diretamente do SageMaker Studio. Você usará um notebook do SageMaker Studio para descobrir visualmente, autenticar e conectar-se a um cluster do EMR. Em seguida, você consultará uma tabela do Apache Hive no Amazon EMR usando o Apache Spark.
Objetivos
Depois de concluir o laboratório, você será capaz de:
- Escolher métodos eficazes para visualizar dados
- Explicar a importância da limpeza e da transformação de dados
- Descrever como processar valores ausentes, valores discrepantes, dados duplicados etc.
- Definir técnicas de codificação de chaves
- Descrever como ingerir e transformar dados no Sagemaker Data Wrangler
- Descrever como transformar dados usando o Spark no Amazon EMR
Pré-requisitos de conhecimentos técnicos
Para concluir com êxito este laboratório, você deve ter conhecimento de:
- Navegação básica do Console de Gerenciamento da AWS.
- Compreensão dos conceitos de banco de dados, MySQL e disponibilidade do banco de dados.
Chave de ícone
Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:
- Atenção: informações de interesse ou importância especial (não tão importantes a ponto de causar problemas com o equipamento ou dados caso você não as veja, mas que podem resultar na necessidade de repetir determinadas etapas).
- Saiba mais: onde encontrar mais informações.
- Observação: uma sugestão, dica ou orientação importante.
- Tarefa concluída: uma conclusão ou resumo no laboratório.