培训搜索引擎

职场技能

云环境下大数据挖掘和分析技术实战（杨老师）

参加对象：1，系统架构师、系统分析师、高级程序员、资深开发人员。 2，牵涉到大数据处理的数据中心运行、规划、设计负责人。 3，政府机关，金融保险、移动和互联网等大数据来源单位的负责人。 4，高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。 5，对大数据的前沿技术非常感兴趣的人。

公开课编号 GKK3978

主讲老师杨老师

参加费用 5800元

课时安排 3天

近期开课时间 2018-07-11

举办地址加载中...

其他开课时间

开课地址：　开课时间：

电话：010-68630945/18610481046 联系人：尹老师

公开课大纲

学员基础
1，对IT系统设计有一定的理论与实践经验。
2，数据仓库与数据挖掘处理有一定的基础知识。
3，对Hadoop/Yarn/Spark大数据技术有一定的了解。

师资
由业界知名大数据专家亲自授课：
杨老师 主要研究网络信息分析以及云计算相关技术，长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作，主持和参与了多个国家和省部级基金项目，具有丰富的工程实践及软件研发经验。

培训内容
第一讲 大数据挖掘及其背景
1)大数据环境下的数据分析
2)数据挖掘定义
3)Hadoop相关技术
4)大数据挖掘知识点

第二讲 MapReduce/Spark DAG计算模式
1）分布式文件系统DFS
2）MapReduce计算模型介绍
3）使用MR进行算法设计
4）DAG及其算法设计

第三讲 大数据挖掘分析工具
1）Yarn中的Mahoutb介绍
2）Spark中的Mahout/MLib介绍
3）推荐系统及其Mahout实现方法
4）信息聚类及其MLlib实现方法
5）分类技术在Mahout/MLib中的实现方法

第四讲 大数据推荐及其应用开发
1）一个推荐系统的模型
2）基于内容的推荐
3）协同过滤
4）基于Mahout的电影推荐案例

第五讲 大数据分类技术及其应用
1）分类的定义
2）分类主要算法
3）Mahout分类过程
4）评估指标以及评测
5）贝叶斯算法新闻分类实例

第六讲 大数据聚类技术及其应用
1）聚类的定义
2）聚类的主要算法
3）K-Means、Canopy及其应用示例
4）Fuzzy K-Means、Dirichlet及其应用示例
5）基于MLlib的新闻聚类实例

第七讲 大数据关联规则和相似项发现
1）购物篮模型
2）Apriori算法
3）抄袭文档发现
4）近邻搜索的应用

第八讲 流数据挖掘相关技术
1）流数据挖掘及分析
2）Storm和流数据处理模型
3）流处理中的数据抽样
4）流过滤和Bloom filter

第九讲 云环境下大数据挖掘应用
1）与Yarn/Spark集群应用的协作
2）与Docker等其它云工具配合
3）大数据挖掘行业应用展望

培训目标
1, 学习云环境下大数据分析挖掘的相关基础知识。
2，学习Mahout和MLlib的核心技术方法及应用。
3，了解云环境下大数据分析的使用流程和方法。
4, 掌握Storm流处理技术和Docker等技术与大数据挖掘结合的方法。

上一篇：云计算与大数据处理技术（杨老师）
下一篇：ISO9001、ISO14001内审员资格培训（何老师）