5G&新技术

培训搜索引擎

数据平台培训班

内训讲师：刘晖需要此内训课程请联系中华企管培训网

5G&新技术

打印

数据平台培训班内训基本信息:

刘晖

(擅长：其他课程 )

内训时长：40天

邀请刘晖给刘晖留言

内训咨询热线：010-68630945; 88682348

内训课程大纲

数据平台培训班（9门课程，共40天）

（1）培训背景

大数据应用技术经过最近几年的爆发性发展，已经在各行各业产生了广泛而深刻的影响，但是我们仍然面对三大挑战：
1. 人才缺口巨大。需要大量的工程师从其他方向转型投入到大数据方向上来，他们有基础、有经验，但是缺乏人工领域的专业知识，需要为他们在数据，算法，算力等多个层面上给予系统的指导，以便这些工程师尽快投入到大数据开发的工作中来。
2. 从技能本身的角度来看，大数据是综合交叉学科，以数据为基础，算法为核心，业务理解和编程实现为手段，如何利用这些技术给我们和客户带来最大的价值，业界大多数人仍然对此没有深入的认识，而这些问题是关系到竞争力和价值创造的核心问题。
3. 大数据业务落地应用效果产出的核心是大数据平台开发技术，如何掌握大数据平台开发语言更好的解决我们的业务问题，关系到我们业务价值的快速实现。

（2）培训目标

从解决客户实际问题出发，该人才培养方案的从三个角度做出了创新：
1. 内容深度上的创新，在过去的十年，整个IT技术栈，从底层存储和计算到上层机器学习应用实现，大数据分布式存储和分布式并行计算框架及应用都做了很多的改变。因此，我们相比传统的大数据课程，增加了计算机组成、操作系统和集群技术的内容，同时在上层增加了大数据应用架构、业务应用场景和最佳实践案例的内容。
2. 内容广度上的创新，IT技术发展至今，“生态”二字越来越重要，尤其是当我们探讨大数据落地应用的时候，更不能离开生态孤立地讨论大数据技术。本课程将基于授课讲师强大的专业背景和丰富的实战经验，结合大数据技术、数据、业务场景等来讲授大数据的应用模式，课程结合业务项目一起跟进如何落地实现。
3. 从形式上，除了常规理论讲授与实际操作以外，我们还引入结合客户实际需求进行小组研讨、专家评审和相关项目案例引入的方式，将人才培养进一步落到实处，最大能力帮助客户提升能力，助力战略转型。

（3）教学计划

本系列课程总共由9门课程组成：

教学设计	NO.	课程名称	课程天数
基础与概述	1	大数据技术基础与应用	1天
	2	Java语言入门	2天
	3	Linux基础	1天
	4	大数据基础理论与算法入门	7天
核心技术讲解及实际案例实操	5	Hadoop生态系统	7天
	6	Spark生态系统	8天
	7	大数据流式处理技术入门	5天
	8	大数据可视化	2天
大数据平台搭建	9	大数据平台搭建案例分享与实践	7天

         第1-4门课属于基础与概述，分别从技术基础，Java,Linux及基础理论算法进行针对性基础知识加固。
         第5-9门课程就Hadoop系统、Spark系统、流式计算三大核心技术详细讲解，期间穿插实际案例讲解如何基于这些技术搭建企业级应用及开发实践。
    整个课程体系及授课有全栈大数据专家讲师全程落地，确保每个模块的深入落地及模块之间的衔接连贯，行成体系的综合开发技能

（4）具体课程方案（含课程大纲）

课程1：大数据技术基础与应用-1天

【匹配关键知识点】
大数据概述，大数据行业应用解析（PI）等内容。
【课程时间】
1天（6小时/天）

【课程简介】
本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景，为学员学习大数据技术明确学习方向和目标。
【课程收益】
1、了解大数据技术的时代背景
2、了解大数据技术的商业价值
3、掌握大数据涉及的基本技术及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
无前置课程要求
【课程大纲】（1天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇大数据概述	一、大数据时代背景二、大数据业务应用场景三、大数据在各行业最佳实践案例	案例讨论：大数据行业应用价值
Day1 下午第二篇大数据行业应用解析	一、大数据处理技术发展趋势二、大数据主要存储技术介绍三、大数据主要计算技术介绍	案例分析：大数据与传统存储计算技术的关系

课程2：Java语言入门-2天

【匹配关键知识点】
Java概述与环境搭建，Java数据类型与运算符及语法等内容。
【课程时间】
2天（6小时/天）
【课程简介】
本课程通过Java基本开发语言的介绍，帮助学员掌握Java的核心原理和开发方法，并利用Java进行应用开发。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Java核心原理和提升学员在工作中的实践技能。。
【课程收益】
1、了解Java的核心编程
2、了解大数据技术的商业价值
3、掌握大数据涉及的基本技术及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】（2天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇 java 语言概述	一、java 语言概述二、java 应用场景三、java 发展历史	案例讨论：大数据行业应用价值
Day1 下午第二篇 java 语言基础	一、java编译原因二、基本的数据结构三、	案例练习：java基础开发
Day2 上午第三篇 java 面向对象开发	一、类及对象二、识别类及类之间关系三、Java类库中的GregorianCalendar类	案例练习：面向对象开发
Day2 下午第四篇 java 开发应用	一、图形程序设计基础二、创建框架及框架定位三、部署应用程序和applet	案例练习：java 开发应用

课程3：Linux基础-1天

【匹配关键知识点】
Linux概念及简单操作等内容。
【课程时间】
1天（6小时/天）
【课程简介】
本课程通过Linux系统体系及命令的介绍，帮助学员掌握Linux的核心原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Linux核心原理和提升学员在工作中的实践技能。。
【课程收益】
1、了解Linux核心原理
2、了解Linux的系统体系功能
3、掌握Linux的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】（1天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇 Linux系统基础	一、开源历史、Linux系统的种类及优势特性二、常用的Linux系统命令及内核原理三、Linux系统RPM、Yum及守护进程机制理论	案例练习：Linux系统命令
Day1 下午第二篇 Linux系统命令	一、Linux系统命令Shell脚本原理及作用，环境变量的作用二、Linux系统内核与BASH解释器的关系三、Linux用户管理文件管理进程管理	案例练习：用户管理文件管理进程管理实战演练

课程4：大数据基础理论与算法入门-7天

【匹配关键知识点】
数理统计基础理论，SQL语法与应用实战，数据建模基础理论，数据预处理、探索性数据分析，数据采集、抽样和预测，SVM算法、决策树算法、聚类算法、贝叶斯算法、回归算法等内容。
【课程时间】
7天（6小时/天）
【课程简介】
本课程通过大数据基础理论与算法的介绍，帮助学员掌握大数据大数据基础理论与算法基础。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据基础理论与算法应用和提升学员在工作中的实践技能。
【课程收益】
1、了解大数据基础理论及应用场景
2、了解大数据核心算法原理
3、掌握大数据平台基础理论与算法应用开发
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】（7天*6小时）

时间	内容
第一天	第1个主题：概率论与数理统计入门（目的：掌握必备的概率论与数理统计相关入门知识，为下个主题的深入讲解打好基础） 1、聊聊概率这件事 2、什么是随机变量 3、什么是概率分布 4、什么是古典概型 5、联合概率与边缘概率 6、乘法与全概率公式 7、贝叶斯公式介绍 8、独立性与独立事件 9、课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计在各种业务/项目上的应用。
第二天	第2个主题：离散值的概率分布（目的：掌握离散值的概率分布相关知识点，包括伯努利、二项、方差等关键核心内容） 1、定义与分布律介绍 2、离散型随机变量介绍 3、伯努利、二项及泊松分布 4、期望值及其计算方法 5、方差与标准差介绍 6、大数定理介绍课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计第3个主题：SQL语法与应用实战（目的：掌握SQL语法及数据库实战应用） 1、SQL概述 2、数据库基本操作 3、数据类型和约束条件 4、数据填充与数据导入 5、查询操作符与子查询 6、SQL查询函数介绍 7、课堂实操：动手实际实现客户订单查询案例
第三天	第4个主题：数据预处理（目的：掌握数据预处理的流程及方法） 1. 数据审核 2. 数据筛选 3. 数据排序 4. 数据清洗 5. 数据集成 6. 数据变换 7. 数据归约 8. 课堂实操：合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图第5个主题：数据分析入门（目的：数据分析简介） 1. 数据分析概述 2. 数据分析开发环境搭建 3. 数据分析学习技巧 4. 课堂实操：量化炒股实例、python常用科学计算
第四天	第6个主题：Numpy与Pandas（目的：掌握数据处理常用库的使用） 1. [Numpy]基本概述 2. [Numpy]多维数据对象 3. [Numpy]元素级别处理函数 4. [Numpy]使用数组进行数据处理 5. [Numpy]文件输入输出 6. [Numpy]线性代数相关知识 7. [Pandas]基本数据结构 8. [Pandas]索引、选取、过滤、排序等 9. [Pandas]汇总和计算描述统计 10. [Pandas]缺失数据处理 11. [Pandas]层次化索引 12. 课堂实操：数据处理及统计案例练习
第五天	第7个主题：大数据算法基础（目的：深入机器学习核心，掌握相关理论知识） 1. K最邻近算法 2. 朴素贝叶斯 3. 线性回归 4. 梯度下降 5. 最大似然估计 6. 多重回归模型 7. Logistic回归 8. Logistic函数介绍 9. 支持向量机 10. 课堂实操：算法练习
第六天	第8个主题：大数据算法基础（目的：掌握核心算法以及了解机器学习相关的热门实现） 1. 什么是决策树 2. 什么是熵 3. 神经网络的感知机 4. 前向传播神经网络 5. 什么是聚类 6. K均值算法 7. 自然语言处理 8. 推荐系统介绍 9. 课堂实操：实现机器学习相关完整案例
第七天	第9个主题：大数据算法实战训练（目的：带领学员完成大量的实战案例，巩固所学知识） 1. 课堂实操：深度学习热门框架实战 2. 课堂实操：花朵分类 3. 课堂实操：目标检测 4. 课堂实操：垃圾邮件处理 5. 课堂实操：金融数据分析 6. 课堂实操: kaggle竞赛实例

课程5：Hadoop生态系统-7天

【匹配关键知识点】
HDFS使用操作，MapReduce开发，yarn原理和应用，Hbase数据库开发，Hive数据仓库开发，Scala入门等内容。
【课程时间】
7天（6小时/天）
【课程简介】
本课程通过Hadoop系统体系及命令的介绍，帮助学员掌握Hadoop的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Hadoop生态系统及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解Hadoop生态系统及应用场景
2、了解Hadoop生态系统的核心功能和架构
3、掌握Hadoop生态系统组件的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程
【课程大纲】（7天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇大数据Hadoop技术架构	一、Hadoop在云计算技术的作用和地位，二、Hadoop的基础概念、数据管理、特性三、Hadoop集群及架构原理	案例练习：Hadoop集群管理命令
Day1 下午第二篇 Hadoop组件详解：HDFS	一、HDFS特征及读写文件二、NameNode的考虑三、HDFS安全概览	案例练习：HDFS基础命令
Day2 上午第三篇 Hadoop组件详解：HDFS	一、运用Hadoop文件Shell 二、利用Flume 从外部源摄取数据三、利用Sqoop从关系数据库摄取数据	案例练习：HDFS脚本及接口命令
Day2 下午第四篇 Hadoop的计算框架	一、MapReduce原理及特征二、YARN2.0架构与原理三、Zookeeper和YARN2.0关系	案例练习：MapReduce运行及调度
Day3 上午第五篇 SQOOP核心原理架构	一、SQOOP原理及特征二、SQOOP开发应用三、SQOOP和Hadoop关系	案例练习：SQOOP开发
Day3 下午第六篇 zookeeper应用实战	一、zookeeper原理及特征二、zookeeper架构与应用三、Zookeeper和Hadoop关系	案例练习：Zookeeper集群管理命令
Day4 上午第七篇 Hbase核心原理架构	一、HBase原理及特征二、HBase and RDBMS 三、HBase Shell	案例练习：HBase Shell命令
Day4 下午第八篇Hbase应用实战	一、创建表二、HBase 的ROWKEY设计三、Hbase的优化设计	案例练习：HBase 优化设计
Day5 上午第九篇 Hive简介	一、Hive模式和数据存储二、Hive与传统数据库的比较三、Hive应用案例	案例练习：Hive模式及管理命令
Day5 下午第十篇 Hive 基础开发	一、HQL基础DDL编程二、HQL基础DML编程三、HQL实现关联操作	案例练习：Hive 基础开发
Day6 上午第十一篇 Hive模型开发	一、Hive管理的各中表与模型应用二、装载数据进入Hive 三、Hive维度模型开发应用	案例练习：Hive模型开发
Day6 下午第十二篇 Hive与Flume,SQOOP组合应用	一、Flume装载数据进入Hive 二、SQOOP装载数据进入Hive 三、Hive开发与Hadoop关系	案例练习：Hive接口开发
Day7 上午第十三篇 Scala基础	一、Scala基础知识二、Scala常用集合三、Scala应用场景	案例练习：Scala基础开发
Day7 下午第十四篇 Scala开发应用	一、函数对象二、编程实例三、Scala高级开发应用	案例练习：Scala开发应用

课程6：Spark生态系统-8天

【匹配关键知识点】
Spark生态系统概述及培训关键点概述，Spark SQL开发，Spark Streaming/Spark Mllib/ Spark Graphx开发等内容。
【课程时间】
8天（6小时/天）
【课程简介】
本课程通过Spark系统体系及命令的介绍，帮助学员掌握Spark的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Spark生态系统及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解Spark生态系统及应用场景
2、了解Spark生态系统的核心功能和架构
3、掌握Spark生态系统组件的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程
【Spark生态系统系统课程大纲】（8天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇 Spark生态系统	一、Spark发展历史及简介二、Spark业务应用场景三、Spark与Hadoop系统关系	案例讨论：Spark与Hadoop系统关系
Day1 下午第二篇 Spark原理架构	一、Spark原理及特征二、Spark架构及组件应用场景三、Spark接口及应用场景	案例讨论：Spark接口及应用场景
Day2 上午第三篇 Spark数据结构	一、RDD基础二、转换操作与执行操作三、共享变量	案例练习：RDD基础开发操作
Day2 下午第四篇 Spark计算模型	一、Spark计算框架原理及特征二、Spark架构与应用三、Spark之宽窄依赖和DAG调度	案例练习：Spark计算模型及运行日志查看
Day3 上午第五篇 Spark调度模型	一、Spark资源调度原理及特征二、Spark资源调度架构及应用三、Spark资源调度基于Hadoop	案例练习：Spark调度命令
Day3 下午第六篇 Spark接口开发	一、Spark生态系统接口介绍二、Spark生态系统接口与Hadoop 三、Spark生态系统接口与大数据分析	案例练习：Spark接口开发
Day4 上午第七篇 Spark SQL基础开发	一、Spark SQL原理与架构二、Hive SQL与Spark SQL 三、Spark SQL开发应用	案例练习：Spark SQL基础开发
Day4 下午第八篇Spark SQL模型开发	一、Spark SQL与Hive 二、Spark SQL与模型构建三、Spark SQL与数据挖掘分析	案例练习：Spark SQL模型开发
Day5 上午第九篇 Spark Streaming开发	一、Spark Streaming基本原理二、Spark Streaming开发基础三、Spark Streaming开发应用	案例练习：Spark Streaming开发
Day5 下午第十篇Spark Mllib开发	一、Spark ML读取数据二、Spark ML对数据进行探索三、Spark ML训练模型	案例练习：Spark Mllib开发
Day6 上午第十一篇 Spark Mllib开发	一、Spark ML组装任务二、Spark ML评估、优化模型三、Spark Mllib开发	案例练习：Spark Mllib开发
Day6 下午第十二篇 Spark Graphx应用	一、Spark GraphX 的核心代码剖析二、Spark GraphX 命令方式操作三、Spark GraphX 的客户端API 介绍	案例练习：Spark Graphx开发
Day7 上午第十三篇 SparkR接口开发	一、R语言基础知识二、R语言开发基础三、SparkR开发及应用场景	案例练习：SparkR开发
Day7 下午第十四篇 PySpark开发应用	一、PySpark之Python基础二、Python数据结构三、Python循环结构	案例练习：PySpark基础开发
Day8 上午第十五篇 PySpark开发应用	一、Python机器学习二、基于PySpark开发Python机器学习三、PySpark机器学习开发应用	案例练习：PySpark机器学习开发应用
Day8 下午第十六篇 PySpark开发应用	一、Python深度学习二、基于PySpark开发Python深度学习三、PySpark深度学习开发应用	案例练习：PySpark深度学习开发应用

课程7：大数据流式处理技术入门-5天

【匹配关键知识点】
Flume基础，Kafka基础，Spark Streaming编程模型，Flume+Kafka+Spark Streaming实时流处理项目实战等内容。
【课程时间】
5天（6小时/天）
【课程简介】
课程介绍：本课程通过流计算原理及工具的介绍，帮助学员掌握实时流式系统的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据流处理技术架构选型及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解大数据流处理技术应用场景
2、了解大数据流处理技术的核心功能和架构
3、掌握大数据流处理技术组件的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程
【课程大纲】（5天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇大数据流式处理技术简介	一、大数据流式处理技术原理与架构二、大数据实时计算应用场景三、大数据实时计算与Hadoop系统	案例讨论：大数据实时计算与Hadoop系统
Day1 下午第二篇大数据流式处理技术选型	一、大数据流式处理组件介绍二、SparkStreaming与各流计算组件特点三、大数据流式处理技术选型实践	案例讨论：大数据流式处理技术选型
Day2 上午第三篇 FLUME开发基础	一、FLUME基本原理二、FLUME架构部署三、FLUME管理运维开发命令	案例练习：FLUME开发基础
Day2 下午第四篇 FLUME开发应用	一、FLUME读取数据二、FLUME处理数据三、FLUME写入数据	案例练习：FLUME开发应用
Day3 上午第五篇 Kafka开发	一、Kafka基本原理二、Kafka架构部署三、Kafka管理运维开发命令	案例练习：Kafka开发基础
Day3 下午第六篇 Kafka开发应用	一、Kafka读取数据二、Kafka处理数据三、Kafka写入数据	案例练习：Kafka开发应用
Day4 上午第七篇 ELK开发基础	一、ELK各组件特点二、ELK架构优势三、ELK开发应用场景	案例练习：ELK开发基础
Day4 下午第八篇ELK开发应用	一、ELK部署配置二、ELK管理运维三、ELK开发应用	案例练习：ELK开发应用
Day5 上午第九篇 Flink开发基础	一、Flink原理二、Flink架构优势三、Flink开发应用场景	案例练习：Flink开发基础
Day5 下午第十篇Flink开发应用	一、Flink部署配置二、Flink管理运维三、Flink开发应用	案例练习：Flink开发应用

课程8：大数据可视化-2天

【匹配关键知识点】
数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化数据绘图的含义与应用，可视化案例分享等内容。
【课程时间】
2天（6小时/天）
【课程简介】
本课程通过大数据可视化业务应用及工具的介绍，帮助学员掌握大数据可视化架构选型和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据可视化架构选型及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解大数据可视化应用场景
2、了解大数据可视化的架构选型
3、掌握大数据可视化组件的开发应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
 学习完Java,Linux和大数据基础理论和应用，Hadoop生态系统，Spark生态系统，大数据流处理技术前置课程
【大数据可视化课程大纲】（2天*6小时）

时间	内容	案例实践与练习
Day1 上午第一篇可视化业务场景	一、可视化业务场景及实践案例分享二、可视化工具选型对比分析三、开源可视化工具python	案例讨论：可视化工具选型对比分析
Day1 下午第二篇可视化工具	一、开源可视化工具R 二、开源可视化工具Echart 三、商用可视化工具tableu	案例讨论：可视化工具开发
Day2 上午第三篇 FLUME可视化工具	一、商用可视化工具SAS 二、商用可视化工具SPSS 三、商用可视化工具Project及Excel	案例练习：可视化工具开发
Day2 下午第四篇可视化开发实战	一、可视化开发基础二、可视化开发数据表示三、可视化开发案例实战	案例练习：可视化开发实战

课程9：大数据平台搭建案例分享与实践-7天

【匹配关键知识点】
大数据平台案例分享，大数据平台实战等内容。
【课程时间】
7天（6小时/天）
【课程简介】
本课程通过大数据平台搭建案例与实践的介绍，帮助学员掌握大数据平台的搭建流程及重点。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据平台架构选型及管理应用和提升学员在工作中的实践技能。
【课程收益】
1、了解大数据平台各组件应用场景
2、了解大数据平台的架构选型
3、掌握大数据平台的搭建实战
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。
通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程

【课程大纲】（7天*6小时）

时间	内容	案例实践与练习
Day1 第一篇大数据集群实践部署-hadoop部署	一、hadoop部署配置二、hadoop管理监控三、搭建案例分享及实践	练习实操： hadoop部署配置
Day2 第二篇大数据集群实践部署-hive部署	一、hive部署配置二、hive管理监控三、搭建案例分享及实践	练习实操： hive部署配置
Day3 第三篇大数据集群实践部署-sqoop部署	一、sqoop部署配置二、sqoop管理监控三、搭建案例分享及实践	练习实操： sqoop部署配置
Day4 第四篇大数据集群实践部署-zookeeper部署	一、zookeeper部署配置二、zookeeper管理监控三、搭建案例分享及实践	练习实操： zookeeper部署配置
Day5 第五篇大数据集群实践部署-hbase部署	一、hbase部署配置二、hbase管理监控三、搭建案例分享及实践	练习实操： hbase部署配置
Day6 第六篇大数据集群实践部署-flume部署	一、flume部署配置二、flume管理监控三、搭建案例分享及实践	练习实操： flume部署配置
Day7 第七篇大数据集群实践部署- PySpark部署	一、PySpark部署配置二、PySpark管理监控三、搭建案例分享及实践	练习实操： PySpark部署配置

（5）教学实验

大数据技术基础与应用：
1、大数据洞察价值案例：马云预测经济危机案例剖析
2、大数据战略决策案例：京东仓储选址案例剖析
3、电商平台精准推荐案例：提升电商平台交易额案例剖析
4、对大数据的错误观点：大数据是数据量大价值密度低

Java语言入门：
1、教学实验：Java语言运行环境搭建
2、教学实验：Eclipse运行环境安装
3、教学实验：Java语言编程实践
4、教学实验：Java语言语法编程实践
5、教学实验：Java类与面向对象编程实践
6、教学实验：数据库与JDBC编程实践

Linux基础：
1、实操案例：Linux安装
2、实操案例：常用命令操作
3、实操案例：文件系统管理
4、实操案例：Linux权限管理

大数据基础理论与算法入门：
1、教学实验：MySQL数据库安装
2、综合实例：查询工资不小于WARD的员工信息
3、实验实例：更新表中数据
4、综合实例：创建用户表并添加唯一性约束
5、实验实例：关联表之间的级联删除
6、案例：如何从数据中挖掘出有价值的信息
7、课堂实操：数据整理的编程和应用
8、课堂实操：Python语言描述性统计分析实现
9、课堂实操：Python语言方差分析实现
10、课堂实操：Python语言实现Bayes统计分析建模
11、课堂实操：Python语言实现基于聚类的图像分割方法
12、案例：银行用户借记卡聚类分析案例分享
13、案例演示：Python语言实现逻辑回归
14、实操：Python语言一元线性回归模型检验
15、实操：Python语言实现多元线性回归
16、实操：Python语言非线性回归
17、案例：用户离网预测
18、课堂实操：Python语言实现决策树模型
19、课堂实操：Python语言实现基于SVM的字符识别方法

Hadoop生态系统：
1、实例分享：双十一亿背后的开源技术
2、课堂实验：Hadoop集群部署
3、实验设计：HDFS命令
4、课堂实操：Java语言读写HDFS文件系统
5、实验：MapReduce命令操作
6、企业级案例：Java语言编写MapReduce程序、运行MapReduce程序、查看运行结果
7、实验：部署ZooKeeper
8、实验：Shell操作Zookeeper
9、实验：Java程序操作Zookeeper
10、实验：HBase Shell
11、课堂实操：基于HBase开发微博实时大数据系统
12、实验：Hive安装部署
13、课堂实操：Hive金融交易数据统计分析
14、实验：Pig的实用案例
15、实验：Sqoop安装
16、实验：Sqoop Shell

Spark生态系统：
1、编程实战：第一个Scala 程序
2、编程实战：编程Scala程序实例
3、编程实战：Scala函数编程实例
4、编程实战：Scala语言复杂数据类型编程实战
5、编程实战：用SBT对Scala项目打包与发布
6、实验：Spark集群部署
7、实验：Java编写Spark程序
8、实验：Scala编写Spark程序
9、实验：Python编写Spark程序
10、实验：R编写Spark程序
11、实验：Spark Shell
12、编程实战：Spark基础操作编程实战
13、企业级案例：Spark Streaming与Kafka整合实现数据实时数据分析处理设计与分析
14、Spark SQL实战案例：数据分析案例剖析
15、Spark MLlib实战案例：数据聚类分析案例剖析
16、实战案例：Spark GraphX实现社交网络关系分析

大数据流式处理技术入门：
1、Kafka实战案例：Kafka集群部署实践
2、实验：Kafka Shell
3、Kafka实战案例：Kafka整合实现数据实时数据分析处理设计与分析
4、Kafka实战案例：Kafka整合实现数据实时数据分析处理
5、实验：Storm集群安装
6、实验：Storm打包运行测试
7、实验：Storm事务案例实战
8、实验：Strom Trident编程实战
9、实战案例：Apache Flink企业应用案例
10、实践案例：企业最佳部署实践案例剖析
11、实战案例：Apache Flink流计算实践案例
12、实验：Apache Flink编程案例实战
13、实验：Redis安装部署
14、实验：Redis常用命令操作
15、实验：Redis集群搭建

大数据可视化：
1、可视化案例实战：数据占比柏拉图绘制
2、可视化案例实战：仪表盘制作
3、实验：柏拉图制作
4、实验：仪表盘制作
5、实验：玫瑰图制作
6、实验：热力图制作
7、实验：地图制作
8、实验：文字云制作
9、淘宝24小时生活数据可视化案例
10、无线淘宝数据可视化案例
11、Google公司数据可视化案例
12、Facebook用户画像可视化案例
13、个人用户画像案例
14、如何撰写一份优秀的数据分析报告

大数据平台搭建案例分享与实践：
1、案例实战：正则表达式在爬虫中应用实例
2、案例：Python语言实现运营商数据分析处理
3、实验：Python语言自定义函数
4、案例：Python语言实现蒙特卡罗求圆周率
5、课堂实操：数据整理的编程和应用
6、实验：安装和配置Firebug
7、实验：导入导出数据
8、实验：编写网络爬虫
9、动态爬虫实例：爬取航班和酒店信息
10、文本分类实战：特征工程
11、案例：如何从数据中挖掘出有价值的信息
12、案例：Python语言实现购物蓝关联规则分析
13、课堂实操：Python语言实现随机森林模型
14、课堂实操：Python语言实现金融数据时间序列建模
15、课堂实操：基于余弦相似度的精准营销
16、案例分享：文章分类
17、编程实战：Spark基础操作编程实战
18、案例：Python编写Spark大数据程序
19、PySpark MLlib实战案例：数据聚类分析案例剖析

讲师刘晖介绍

大庆油田技术研究院高级内训讲师
（原）中兴通讯学院高级讲师；
北大计算机、北邮通信双学位
15年嵌入式硬件、软件开发和系统架构设计总监
有8年多的“云大智物”开发及实施经验。曾供职于巨龙通信、大唐电信，PHILIPS三星联合研发中心等

【工作经历】
长期从事智慧家居、智慧养老、物联网应用、移动互联网应用研发工作，曾负责北京市科委，大庆油田数据化等多个重点项目，发表相关论文多篇，授权及申请物联网方面的专利10多个。目前主要从事智慧家居、智慧养老、车联网、交通物流、物联网应用平台以及相关应用方面的研究，实战派资深讲师。
兰州交大成教学院等高校特聘技术类讲师；，参与了我国自主通信标准TD-SCDMA的标准编写工作，是最早一批参与TD-SCDMA研究的技术人员；历任高级软件开发工程师，系统架构师，物联网架构师，嵌入式开发主管等职位，目前是教授级高工，已进入北京市、深圳市专家库名录，深圳市物联网协会资深专家。

【培训特点】
理论基础深厚，逻辑思维能力强，拥有丰富的企业授课经验，对企业员工培养具有深刻认识。授课过程中，紧密结合成人教育特点，灵活运用丰富案例，善于以点带面，启发思维。授课风格互动性和实操性很强，注重讲师与学员之间的互动性，使得课堂氛围轻松愉快，倡导分享和共同进步，深受到学员的欢迎。

上一篇：物流大数据分析
下一篇：运营维护-中间件方向培训班

培训现场

讲师培训公告

讲师管理文库

时间	内容	案例实践与练习
Day1 上午第一篇 java 语言概述	一、java 语言概述二、java 应用场景三、java 发展历史	案例讨论：大数据行业应用价值
Day1 下午第二篇 java 语言基础	一、java编译原因二、基本的数据结构三、	案例练习：java基础开发
Day2 上午第三篇 java 面向对象开发	一、类及对象二、识别类及类之间关系三、Java类库中的GregorianCalendar类	案例练习：面向对象开发
Day2 下午第四篇 java 开发应用	一、图形程序设计基础二、创建框架及框架定位三、部署应用程序和applet	案例练习：java 开发应用

时间	内容	案例实践与练习
Day1 上午第一篇大数据Hadoop技术架构	一、Hadoop在云计算技术的作用和地位，二、Hadoop的基础概念、数据管理、特性三、Hadoop集群及架构原理	案例练习：Hadoop集群管理命令
Day1 下午第二篇 Hadoop组件详解：HDFS	一、HDFS特征及读写文件二、NameNode的考虑三、HDFS安全概览	案例练习：HDFS基础命令
Day2 上午第三篇 Hadoop组件详解：HDFS	一、运用Hadoop文件Shell 二、利用Flume 从外部源摄取数据三、利用Sqoop从关系数据库摄取数据	案例练习：HDFS脚本及接口命令
Day2 下午第四篇 Hadoop的计算框架	一、MapReduce原理及特征二、YARN2.0架构与原理三、Zookeeper和YARN2.0关系	案例练习：MapReduce运行及调度
Day3 上午第五篇 SQOOP核心原理架构	一、SQOOP原理及特征二、SQOOP开发应用三、SQOOP和Hadoop关系	案例练习：SQOOP开发
Day3 下午第六篇 zookeeper应用实战	一、zookeeper原理及特征二、zookeeper架构与应用三、Zookeeper和Hadoop关系	案例练习：Zookeeper集群管理命令
Day4 上午第七篇 Hbase核心原理架构	一、HBase原理及特征二、HBase and RDBMS 三、HBase Shell	案例练习：HBase Shell命令
Day4 下午第八篇Hbase应用实战	一、创建表二、HBase 的ROWKEY设计三、Hbase的优化设计	案例练习：HBase 优化设计
Day5 上午第九篇 Hive简介	一、Hive模式和数据存储二、Hive与传统数据库的比较三、Hive应用案例	案例练习：Hive模式及管理命令
Day5 下午第十篇 Hive 基础开发	一、HQL基础DDL编程二、HQL基础DML编程三、HQL实现关联操作	案例练习：Hive 基础开发
Day6 上午第十一篇 Hive模型开发	一、Hive管理的各中表与模型应用二、装载数据进入Hive 三、Hive维度模型开发应用	案例练习：Hive模型开发
Day6 下午第十二篇 Hive与Flume,SQOOP组合应用	一、Flume装载数据进入Hive 二、SQOOP装载数据进入Hive 三、Hive开发与Hadoop关系	案例练习：Hive接口开发
Day7 上午第十三篇 Scala基础	一、Scala基础知识二、Scala常用集合三、Scala应用场景	案例练习：Scala基础开发
Day7 下午第十四篇 Scala开发应用	一、函数对象二、编程实例三、Scala高级开发应用	案例练习：Scala开发应用

时间	内容	案例实践与练习
Day1 上午第一篇 Spark生态系统	一、Spark发展历史及简介二、Spark业务应用场景三、Spark与Hadoop系统关系	案例讨论：Spark与Hadoop系统关系
Day1 下午第二篇 Spark原理架构	一、Spark原理及特征二、Spark架构及组件应用场景三、Spark接口及应用场景	案例讨论：Spark接口及应用场景
Day2 上午第三篇 Spark数据结构	一、RDD基础二、转换操作与执行操作三、共享变量	案例练习：RDD基础开发操作
Day2 下午第四篇 Spark计算模型	一、Spark计算框架原理及特征二、Spark架构与应用三、Spark之宽窄依赖和DAG调度	案例练习：Spark计算模型及运行日志查看
Day3 上午第五篇 Spark调度模型	一、Spark资源调度原理及特征二、Spark资源调度架构及应用三、Spark资源调度基于Hadoop	案例练习：Spark调度命令
Day3 下午第六篇 Spark接口开发	一、Spark生态系统接口介绍二、Spark生态系统接口与Hadoop 三、Spark生态系统接口与大数据分析	案例练习：Spark接口开发
Day4 上午第七篇 Spark SQL基础开发	一、Spark SQL原理与架构二、Hive SQL与Spark SQL 三、Spark SQL开发应用	案例练习：Spark SQL基础开发
Day4 下午第八篇Spark SQL模型开发	一、Spark SQL与Hive 二、Spark SQL与模型构建三、Spark SQL与数据挖掘分析	案例练习：Spark SQL模型开发
Day5 上午第九篇 Spark Streaming开发	一、Spark Streaming基本原理二、Spark Streaming开发基础三、Spark Streaming开发应用	案例练习：Spark Streaming开发
Day5 下午第十篇Spark Mllib开发	一、Spark ML读取数据二、Spark ML对数据进行探索三、Spark ML训练模型	案例练习：Spark Mllib开发
Day6 上午第十一篇 Spark Mllib开发	一、Spark ML组装任务二、Spark ML评估、优化模型三、Spark Mllib开发	案例练习：Spark Mllib开发
Day6 下午第十二篇 Spark Graphx应用	一、Spark GraphX 的核心代码剖析二、Spark GraphX 命令方式操作三、Spark GraphX 的客户端API 介绍	案例练习：Spark Graphx开发
Day7 上午第十三篇 SparkR接口开发	一、R语言基础知识二、R语言开发基础三、SparkR开发及应用场景	案例练习：SparkR开发
Day7 下午第十四篇 PySpark开发应用	一、PySpark之Python基础二、Python数据结构三、Python循环结构	案例练习：PySpark基础开发
Day8 上午第十五篇 PySpark开发应用	一、Python机器学习二、基于PySpark开发Python机器学习三、PySpark机器学习开发应用	案例练习：PySpark机器学习开发应用
Day8 下午第十六篇 PySpark开发应用	一、Python深度学习二、基于PySpark开发Python深度学习三、PySpark深度学习开发应用	案例练习：PySpark深度学习开发应用

时间	内容	案例实践与练习
Day1 上午第一篇大数据流式处理技术简介	一、大数据流式处理技术原理与架构二、大数据实时计算应用场景三、大数据实时计算与Hadoop系统	案例讨论：大数据实时计算与Hadoop系统
Day1 下午第二篇大数据流式处理技术选型	一、大数据流式处理组件介绍二、SparkStreaming与各流计算组件特点三、大数据流式处理技术选型实践	案例讨论：大数据流式处理技术选型
Day2 上午第三篇 FLUME开发基础	一、FLUME基本原理二、FLUME架构部署三、FLUME管理运维开发命令	案例练习：FLUME开发基础
Day2 下午第四篇 FLUME开发应用	一、FLUME读取数据二、FLUME处理数据三、FLUME写入数据	案例练习：FLUME开发应用
Day3 上午第五篇 Kafka开发	一、Kafka基本原理二、Kafka架构部署三、Kafka管理运维开发命令	案例练习：Kafka开发基础
Day3 下午第六篇 Kafka开发应用	一、Kafka读取数据二、Kafka处理数据三、Kafka写入数据	案例练习：Kafka开发应用
Day4 上午第七篇 ELK开发基础	一、ELK各组件特点二、ELK架构优势三、ELK开发应用场景	案例练习：ELK开发基础
Day4 下午第八篇ELK开发应用	一、ELK部署配置二、ELK管理运维三、ELK开发应用	案例练习：ELK开发应用
Day5 上午第九篇 Flink开发基础	一、Flink原理二、Flink架构优势三、Flink开发应用场景	案例练习：Flink开发基础
Day5 下午第十篇Flink开发应用	一、Flink部署配置二、Flink管理运维三、Flink开发应用	案例练习：Flink开发应用

5G&新技术

培训搜索引擎

数据平台培训班

数据平台培训班内训基本信息:

刘晖

数据平台培训班（9门课程，共40天）

（1）培训背景

（2）培训目标

（3）教学计划

（4）具体课程方案（含课程大纲）

课程1：大数据技术基础与应用-1天

课程2：Java语言入门-2天

课程3：Linux基础-1天

课程4：大数据基础理论与算法入门-7天

课程5：Hadoop生态系统-7天

课程6：Spark生态系统-8天

课程7：大数据流式处理技术入门-5天

课程8：大数据可视化-2天

课程9：大数据平台搭建案例分享与实践-7天

（5）教学实验

高竞

李建伟

张书豪

黄启富

何挺

谢良鸿

吕小明

林存明

魏涛

郭敬峰

朱亚威

段小鹏