现在注册

登录

忘记密码

忘记密码? 请输入您的电子邮件地址. 您将收到一个链接,将创建通过电子邮件新密码.

添加后

你必须登录后添加 .

添加问题

您必须登录才能提问.

登录

现在注册

欢迎Scholarsark.com! 您的注册将授予您访问使用该平台的更多功能. 你可以问问题, 做出贡献或提供答案, 查看其他用户以及更多的个人资料. 现在注册!

一个适合初学者的大数据 Hadoop 和 Spark 项目

一个适合初学者的大数据 Hadoop 和 Spark 项目

价格: $29.99

本课程将为您担任现实世界的数据工程师角色做好准备 !

利用免费的云集群快速开始使用大数据并解决现实世界的用例! 学习 Hadoop, 蜂巢 , 火花 (Python 和 Scala) 从头开始!

学习编写 Spark Scala 代码 & PySpark 就像一个现实世界的开发者. 了解现实世界的编码最佳实践, 日志记录, 错误处理 , 使用 Scala 和 Python 进行配置管理.

项目

一家银行正在推出一种新的信用卡,并希望确定可以在其营销活动中定位的潜在客户.

它已收到来自各种内部和第 3 方来源的潜在客户数据. 数据存在各种问题,例如某些字段中的缺失值或未知值. 在进行任何类型的分析之前需要清理数据.

由于数据量巨大,有数十亿条记录, 银行要求你使用大数据 Hadoop 和 Spark 技术来清理, 转换和分析这些数据.

你会学到什么 :

  • 大数据, Hadoop 概念

  • 如何使用 Google Dataproc 创建免费的 Hadoop 和 Spark 集群

  • Hadoop 实践 – 高密度文件系统, 蜂巢

  • Python基础

  • PySpark RDD – 亲自动手

  • PySpark SQL, 数据框 – 亲自动手

  • 使用 PySpark 和 Hive 的项目工作

  • Scala 基础

  • Spark Scala 数据帧

  • 使用 Spark Scala 进行项目工作

  • Spark Scala 真实世界编码框架和使用 Winutil 的开发, Maven 和 IntelliJ.

  • Python Spark Hadoop Hive 编码框架和使用 PyCharm 开发

  • 使用 Hive 构建数据管道 , PostgreSQL, 火花

  • 日志记录 , PySpark 和 Spark Scala 应用程序的错误处理和单元测试

  • Spark Scala 结构化流

  • 使用 Glue 对存储在 AWS S3 中的数据应用火花转换并使用 Athena 查看数据

先决条件 :

  • 一些基本的编程技巧

  • SQL查询的一些知识

关于 arkadmin

发表评论