![一个适合初学者的大数据 Hadoop 和 Spark 项目](https://scholarsark.com/wp-content/uploads/2021/04/8722-a-big-data-hadoop-and-spark-project-for-absolute-beginners-806x440.jpg)
一个适合初学者的大数据 Hadoop 和 Spark 项目
![项目图片](https://img-a.udemycdn.com/course/480x270/2583632_3b66_3.jpg?kj9aXGfiAD-wgSBiIMJbBEUF1DqSXI_ZcJrs2TUJPJ5L-Ml6ZW2vCPkExq6VoBgS4PIecU-vv7oZSvLboXOVK38iZ8vy-VbPF5RWTlMyQqeHJT9OkTpw6hCb-gHUoxTy)
价格: $29.99
本课程将为您担任现实世界的数据工程师角色做好准备 !
利用免费的云集群快速开始使用大数据并解决现实世界的用例! 学习 Hadoop, 蜂巢 , 火花 (Python 和 Scala) 从头开始!
学习编写 Spark Scala 代码 & PySpark 就像一个现实世界的开发者. 了解现实世界的编码最佳实践, 日志记录, 错误处理 , 使用 Scala 和 Python 进行配置管理.
项目
一家银行正在推出一种新的信用卡,并希望确定可以在其营销活动中定位的潜在客户.
它已收到来自各种内部和第 3 方来源的潜在客户数据. 数据存在各种问题,例如某些字段中的缺失值或未知值. 在进行任何类型的分析之前需要清理数据.
由于数据量巨大,有数十亿条记录, 银行要求你使用大数据 Hadoop 和 Spark 技术来清理, 转换和分析这些数据.
你会学到什么 :
-
大数据, Hadoop 概念
-
如何使用 Google Dataproc 创建免费的 Hadoop 和 Spark 集群
-
Hadoop 实践 – 高密度文件系统, 蜂巢
-
Python基础
-
PySpark RDD – 亲自动手
-
PySpark SQL, 数据框 – 亲自动手
-
使用 PySpark 和 Hive 的项目工作
-
Scala 基础
-
Spark Scala 数据帧
-
使用 Spark Scala 进行项目工作
-
Spark Scala 真实世界编码框架和使用 Winutil 的开发, Maven 和 IntelliJ.
-
Python Spark Hadoop Hive 编码框架和使用 PyCharm 开发
-
使用 Hive 构建数据管道 , PostgreSQL, 火花
-
日志记录 , PySpark 和 Spark Scala 应用程序的错误处理和单元测试
-
Spark Scala 结构化流
-
使用 Glue 对存储在 AWS S3 中的数据应用火花转换并使用 Athena 查看数据
先决条件 :
-
一些基本的编程技巧
-
SQL查询的一些知识
发表评论
你必须 登录 要么 寄存器 添加新评论 .