Un proyecto Big Data Hadoop y Spark para principiantes absolutos

Añadir mensaje

Debe iniciar sesión para añadir notas .

Añadir pregunta

Debe iniciar sesión para hacer una pregunta.

Un proyecto Big Data Hadoop y Spark para principiantes absolutos

Compra ahora

Precio: $29.99

Este curso lo preparará para un puesto de ingeniero de datos en el mundo real !

Comience con Big Data aprovechando rápidamente el clúster de nube gratuito y resolviendo un caso de uso del mundo real! Aprende Hadoop, Colmena , Chispa - chispear (tanto Python como Scala) desde cero!

Aprenda a codificar Spark Scala & PySpark como un desarrollador del mundo real. Comprender las mejores prácticas de codificación del mundo real, Inicio sesión, manejo de errores , gestión de la configuración utilizando Scala y Python.

Proyecto

Un banco está lanzando una nueva tarjeta de crédito y desea identificar prospectos a los que puede dirigirse en su campaña de marketing..

Ha recibido datos de clientes potenciales de varias fuentes internas y de terceros.. Los datos tienen varios problemas, como valores perdidos o desconocidos en ciertos campos.. Los datos deben limpiarse antes de que se pueda realizar cualquier tipo de análisis..

Dado que los datos están en un gran volumen con miles de millones de registros, el banco le ha pedido que utilice la tecnología Big Data Hadoop y Spark para limpiar, transformar y analizar estos datos.

Lo que vas a aprender :

Big Data, Conceptos de Hadoop
Cómo crear un clúster gratuito de Hadoop y Spark con Google Dataproc
Práctica de Hadoop – HDFS, Colmena
Conceptos básicos de Python
PySpark RDD – las manos en
PySpark SQL, Marco de datos – las manos en
Trabajo de proyecto usando PySpark y Hive
Conceptos básicos de Scala
Spark Scala DataFrame
Trabajo de proyecto con Spark Scala
Spark Scala Marco de codificación y desarrollo del mundo real con Winutil, Maven e IntelliJ.
Desarrollo y marco de codificación de Python Spark Hadoop Hive con PyCharm
Construyendo una canalización de datos usando Hive , PostgreSQL, Chispa - chispear
Inicio sesión , manejo de errores y pruebas unitarias de las aplicaciones PySpark y Spark Scala
Transmisión estructurada de Spark Scala
Aplicación de la transformación de chispa en los datos almacenados en AWS S3 con Glue y visualización de datos con Athena

Prerrequisitos :

Algunas habilidades básicas de programación
Algún conocimiento de consultas SQL