Información general
Amazon Redshift es un servicio de almacén de datos rápido, completamente administrado y a escala de petabytes que le permite analizar todos sus datos de forma sencilla, rentable y eficiente mediante el uso de sus herramientas de inteligencia empresarial (BI) existentes. Está optimizado para los conjuntos de datos que abarcan desde cientos de gigabytes hasta un petabyte o más. Uno de los avances que permite a los clústeres de Amazon Redshift analizar tantos datos es Amazon Redshift Spectrum. Esta característica permite a Amazon Redshift analizar los volúmenes masivos de los datos almacenados en un lago de datos de Amazon Simple Storage Service (Amazon S3).
Este laboratorio utiliza el conjunto de datos de IMDb. IMDb es la plataforma idónea para los cinéfilos de todo el mundo. Es una base de datos en línea con información acerca de películas, programas de televisión, videojuegos y contenido de streaming, incluida información acerca de elencos, equipos de producción, argumentos, resúmenes, datos curiosos, reseñas de fanáticos y críticos, y calificaciones.
Objetivos
Después de completar este laboratorio, podrá realizar lo siguiente:
- utilizar SQL Workbench para Amazon Redshift
- comprender el comando COPY para cargar los datos y trabajar con compresión
- utilizar un archivo de manifiesto para la importación de datos
- archivar los datos con el comando UNLOAD
- utilizar las operaciones ANALYZE y VACUUM
- utilizar la consola de Amazon Redshift para explorar estadísticas de consultas
Requisitos previos
Los requisitos de este laboratorio son los siguientes:
- tener acceso a una computadora portátil con wifi y Microsoft Windows, macOS X o Linux (Ubuntu, SuSE o Red Hat)
- Nota: Puede utilizar un iPad o una tableta para acceder a estas indicaciones en la consola del laboratorio.
- utilizar un navegador de Internet, como Chrome, Firefox o IE9+
- Nota: No se admiten las versiones anteriores de Internet Explorer.
- tener un cliente de SSH, como PuTTY
Conocimientos técnicos requeridos
Para completar correctamente este laboratorio, debe estar familiarizado con lo siguiente:
-
familiaridad con enunciados de SQL y operaciones básicas
-
familiaridad con la consola de administración de AWS
-
un cliente de conexión remota (como Conexión a Escritorio remoto, incluido con la mayoría de las versiones de Windows) para conectarse al servidor
Nota: Si trabaja en macOS X, puede descargar la aplicación Escritorio remoto de Microsoft de la App Store. Consulte el cliente de protocolo de escritorio remoto (RDP) para Mac.
En este laboratorio, utilizará la consola de administración de AWS y SQL Workbench para experimentar con diferentes disposiciones de tablas y diseños de esquemas. Utilizará el comando COPY para realizar operaciones de carga de datos.
Duración
Se requieren 60 minutos para completar este laboratorio.
Servicios de AWS que no se utilizan en este laboratorio
En el entorno de laboratorio, los servicios de AWS que no se utilizan en este laboratorio están desactivados. Además, las capacidades de los servicios que se utilizan en este laboratorio se limitan a lo que este requiere. Es probable que reciba mensajes de error cuando acceda a otros servicios o cuando lleve a cabo acciones que no consten en la guía de este laboratorio.