职场技能
基于Python的Spark大数据处理技术(杨老师)
参加对象:1,有志于成为一名数据科学家的从业人员。 2,对大数据的前沿技术非常感兴趣的人员,有一定算法和编程基础的技术爱好者。 3,政府机关,金融保险、移动等以互联网信息为数据来源单位的负责人。 4,高校、科研院所牵涉到网络数据采集与数据处理及展现的项目负责人。 5,牵涉到网络采集、处理和规划的负责人、设计人员。公开课编号
GKK6077
主讲老师
杨老师
参加费用
5800元
课时安排
2天
近期开课时间
2018-08-08
举办地址
加载中...
- 开课地址: 开课时间:
电话:010-68630945/18610481046 联系人:尹老师
公开课大纲
学员基础
1,对IT系统设计有一定的理论与实践经验。
2,有一定的python和大数据基础知识和开发经验。
师资
由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
培训内容
第一讲 Spark基础知识
1)什么是Apache Spark
2)Spark作业和API
3)DataFrame和Dataset
4)Spark 2.0的架构
5)SparkSession介绍
6)Tungsten Phase 2
7)结构化流
第二讲 弹性分布式数据集
1)RDD的内部运行方式
2)创建RDD
3)全局作用域和局部作用域
4)RDD转换
5)RDD操作
第三讲 利用DataFrame加速PySpark
1)Python到RDD之间的通信
2)Catalyst优化器刷新
3)创建DataFrame
4)RDD的交互操作
5)利用DataFrame API查询
6)利用SQL查询
7)DataFrame应用实例
第四讲 准备数据建模
1)检查重复数据及异常数据
2)描述性统计
3)数据相关性
4)数据可视化
5)直方图
第五讲 MLlib数据挖掘工具
1)MLlib包概述
2)加载和转换数据
3)数据相关性和描述性统计
4)创建最终数据集
5)MLlib应用实例-预测婴儿生存机会
第六讲 ML机器学习包
1)ML包的概述
2)分类、回归和聚类
3)使用ML预测婴儿生存率
4)ML超参调优
5)ML的特征提取
6)ML的其他功能
第七讲 使用Blaze实现持久化
1)安装Blaze
2)混合持久化
3)使用NumPy和pandas数据
4)与关系型数据库进行交互
5)数据操作和访问
6)数据连接
第八讲 Tensorflow基础
1)神经网络和深度学习
2)TensorFlow介绍和安装
3)配置和设置TensorFlow
4)使用TensorFlow进行矩阵分析
5)TensorFlow操作示例
第九讲 结构化流Streaming
1)Streaming介绍
2)Streaming的基本组件
3)Streaming应用程序数据流
4)用DStream简化Streaming应用程序
5)全局聚合
6)结构化流介绍
第十讲 打包Spark应用程序
1)spark-submit命令
2)以编程方式部署应用程序
3)配置你的SparkSession
4)创建SparkSession
5)模块化代码
6)提交作业和监控执行
培训目标
1, 学习Python和Spark的相关知识。
2,学习Python和Spark的核心技术方法及应用。
3,了解Python和Spark在数据分析中的使用。
1,对IT系统设计有一定的理论与实践经验。
2,有一定的python和大数据基础知识和开发经验。
师资
由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
培训内容
第一讲 Spark基础知识
1)什么是Apache Spark
2)Spark作业和API
3)DataFrame和Dataset
4)Spark 2.0的架构
5)SparkSession介绍
6)Tungsten Phase 2
7)结构化流
第二讲 弹性分布式数据集
1)RDD的内部运行方式
2)创建RDD
3)全局作用域和局部作用域
4)RDD转换
5)RDD操作
第三讲 利用DataFrame加速PySpark
1)Python到RDD之间的通信
2)Catalyst优化器刷新
3)创建DataFrame
4)RDD的交互操作
5)利用DataFrame API查询
6)利用SQL查询
7)DataFrame应用实例
第四讲 准备数据建模
1)检查重复数据及异常数据
2)描述性统计
3)数据相关性
4)数据可视化
5)直方图
第五讲 MLlib数据挖掘工具
1)MLlib包概述
2)加载和转换数据
3)数据相关性和描述性统计
4)创建最终数据集
5)MLlib应用实例-预测婴儿生存机会
第六讲 ML机器学习包
1)ML包的概述
2)分类、回归和聚类
3)使用ML预测婴儿生存率
4)ML超参调优
5)ML的特征提取
6)ML的其他功能
第七讲 使用Blaze实现持久化
1)安装Blaze
2)混合持久化
3)使用NumPy和pandas数据
4)与关系型数据库进行交互
5)数据操作和访问
6)数据连接
第八讲 Tensorflow基础
1)神经网络和深度学习
2)TensorFlow介绍和安装
3)配置和设置TensorFlow
4)使用TensorFlow进行矩阵分析
5)TensorFlow操作示例
第九讲 结构化流Streaming
1)Streaming介绍
2)Streaming的基本组件
3)Streaming应用程序数据流
4)用DStream简化Streaming应用程序
5)全局聚合
6)结构化流介绍
第十讲 打包Spark应用程序
1)spark-submit命令
2)以编程方式部署应用程序
3)配置你的SparkSession
4)创建SparkSession
5)模块化代码
6)提交作业和监控执行
培训目标
1, 学习Python和Spark的相关知识。
2,学习Python和Spark的核心技术方法及应用。
3,了解Python和Spark在数据分析中的使用。
上一篇:区块链-从数字货币到信用体系(刘老师)
下一篇:ISO9000/14000/OHSAS18000三标一体化内审员(李老师)
培训现场
讲师培训公告
讲师管理文库
- 企业到公司化阶段后,老板要从关注事向关注人转变
- 某电信企业员工职业化项目纪实
- 某商业银行EVA考核模式设计项目纪实
- 管理企业不难---管理思想摘录
- 成功者离不开第4个医生
- OD落伍了,OD2.0来了
- 中层的责任与担当
- 如何做好员工管理
- 赢在协同:如何高效联动与无缝对接
- 问题解决力 ——问题的分析与解决