课程简介

从Hadoop基础讲解,贯穿数据采集、传输、存储、计算、展示等各个环节,着重讲解企业中如何使用spark、MapReduce、hive、flume、sqoop、kylin等各个组件,并附有经典企业案例讲解,案例均来自一线互联网线上项目。

培养目标: 从零开始,由Hadoop入门,打造大数据开发工程师之路。

PS:企业/高校团购集训通道请点击课程咨询,另,2人及2人以上组团报名,可各减500元,想组团者请加微信客服:julyedukefu05。

课程特色

  • BAT专家级讲师+助教全方位辅导

    我们拥有来自BAT的专家级讲师和数位助教,给你全程全天候1v1般的定制辅导。平时晚上在线学习,周末线下项目实战,从而通过在线直播从头到尾掌握深度学习典型应用场景,通过线下项目实战练就大数据工业项目的全栈能力。且有问题,课上课后随时答疑,手把手教会为止。

  • 全是大数据典型应用场景

    本期集训营实战项目,涵盖集群搭建、hive优化、数据仓库搭建、数据采集平台、离线计算平台、实时计算平台、多维分析平台等一线互联网实用案例。

  • 提供云实验平台

    还原BAT真实生产环境,提供工业数据和国内首创的价值数十万的云实验平台(提前装hadoop集群、hive、spark等环境)。提供完善的实验平台供您动手、真枪实战,拒绝纸上谈兵。

  • 高起步 + 简历优化

    从Hadoop起步,一上来就实战BAT工业项目。且根据集训营实战项目,将涉及到的关键知识点和项目经历优化到您的简历中。

  • 面试求职辅导 + 就业推荐

    精讲大数据开发工程师面试时常见考点/组件/算法,且BAT大厂架构师1v1模拟真实面试,从技术、表达等方面全方位提升您的面试能力。根据您的技术特长提供定制化的能力评估、就业指导以及包括BAT等一线互联网公司的工作机会推荐。2个半月挑战年薪30~50万。

课程安排

  • 第一阶段:深入学习hadoop系统

    在线直播:Hadoop生态圈介绍

    • 1-为什么要学大数据
    • 2-大数据技术发展史
    • 3-大数据的应用以及未来
    • 4-Hadoop生态圈介绍
    • 5-Hadoop框架演变与核心组件

    在线实训:Hadoop集群安装与配置

    在线直播:分布式服务框架Zookeeper

    • 1- Zookeeper介绍
    • 2-Zookeeper主要特性与应用场景
    • 3-Zookeeper算法与数据模型

    在线实训:Zookeeper集群搭建与使用

    在线直播:大数据存储系统HDFS

    • 1-HDFS的设计目的与系统结构
    • 2-namenode管理元数据的机制
    • 3-hdfs的写入过程分析
    • 4-hdfs的读取过程分析
    • 5-大集群hdfs的使用经验

    在线实训:hdfs常用操作

    线下实战:搭建集群、hdfs常用操作

    • 1-zookeeper搭建实战
    • 2-Hadoop搭建实战
    • 3-HDFS操作实战
  • 第二阶段:Hadoop深入理解与使用

    在线直播:分布式计算框架MapReduce

    • 1-MapReduce发展与简介
    • 2-Mapper、Reduce执行过程详解
    • 3-MapReduce原理解析
    • 4-Job、Driver原理及使用原理

    在线实训:MapReduce作业实战

    在线直播:分布式资源管理框架Yarn

    • 1-为什么使用yarn
    • 2-yarn的设计与系统结构
    • 3-yarn任务提交流程
    • 4-yarn的常用操作
    • 5-大集群yarn的使用经验

    在线实训:yarn上运行MR作业实战

    在线直播:分布式数据库Hbase

    • 1-mysql与nosql
    • 2-Hbase的介绍及其发展
    • 3-Hbase中的物理模型与存储模型
    • 4-Hbase读写流程分析
    • 5-Hbase的shell命令以及java API
    • 6-Hbase表的设计,Phoenix以及大集群性能优化经验

    在线实训:Hbase安装以及常用命令

    线下实战:MapReduce与yarn的实践

    • 1-MapReduce线下实战
    • 2-yarn线下实战
    • 3-基于微博应用的HBASE线下实战
  • 第三阶段:掌握数据采集原理与应用

    在线直播:flume介绍与原理

    • 1-Flume的介绍及其架构
    • 2-Flume不同模式对比分析
    • 3-Flume安装部署

    在线实训:在线实训:Flume收集日志数据到HDFS

    在线直播:sqoop介绍与原理

    • 1-Sqoop简介
    • 2-Sqoop1和Sqoop2比较与异同
    • 3-sqoop架构原理讲解

    在线实训:通过sqoop将MySql数据导入到HDFS中

    线下实战:flume与sqoop实战

    • 1-flume收集日志到hdfs和kafka
    • 2-sqoop导出mysql数据到hdfs
  • 第四阶段:数据仓库的设计与搭建

    在线直播:hive原理及介绍

    在线直播:hive常规操作、优化与技巧

    在线直播:数据仓库设计规则、模型设计

    线下实战:数据仓库的实际搭建

  • 第五阶段:掌握scala基础

    在线直播:scala基础入门

    • 1-scala背景简介
    • 2-scala基础语法讲解
    • 3-分支、循环、嵌套结构讲解

    在线实训:在线实训:第一个scala程序

    在线直播:scala函数式编程与集合类

    • 1-scala中的常用函数讲解
    • 2-scala lazy讲解
    • 3-scala中的集合类讲解
    • 4-scala函数式编程

    在线实训:scala函数式编程实战

    在线直播:scala面向对象编程

    • 1-scala中的对象和类
    • 2-scala中的隐式转换
    • 3-scala中的模式匹配
    • 4-scala Actor编程简介

    线下实战:scala线下实战项目

    • 1-项目模型设计
    • 2-项目开发与scala知识在项目的应用
    • 3-项目运行观察
  • 第六阶段:Spark大数据计算讲解与应用

    在线直播:Spark技术栈发展概述

    • 1-spark的前世今生
    • 2-spark1.X 技术栈概述
    • 3-spark2.4 技术栈概述
    • 4-spark3.0以及未来的展望
    • 5-spark在大公司的应用

    在线实训:运行一个spark程序

    在线直播:Spark应用开发与API介绍

    • 1-spark 核心概念讲解
    • 2-rdd的分区与依赖
    • 3-rdd api中的transformation讲解
    • 4-rdd api中的action讲解

    在线实训:使用spark rdd进行日志数据分析

    在线直播:Spark运行模式及原理

    • 1-spark运行模式
    • 2-spark执行过程讲解
    • 3-spark rdd内部原理详解
    • 4-spark广播变量与累加器讲解

    在线实训:利用广播变量实现推荐系统中的用户信息编码

    在线直播:Spark监控介绍

    • 1-spark web ui讲解
    • 2-spark应用监控与分析
    • 3-spark history server原理剖析
    • 4-spark metrics 监控

    在线实训:spark history server搭建部署和日志查错与优化

    线下实战:PV、UV统计实战

    • 1-MapReduce完成一次pv、uv统计
    • 2-spark完成一次pv、uv统计
  • 第七阶段:Spark高阶使用介绍

    在线直播:Spark core核心讲解

    • 1-spark shuffle三种模式详解
    • 2-spark内存管理剖析
    • 3-spark应用资源管理
    • 4-spark rdd存储管理

    在线实训:重构并优化现有的spark应用

    在线直播:Spark性能调优

    • 1-spark开发调优
    • 2-spark资源调优
    • 3-spark数据倾斜调优
    • 4-spark内存管理调优

    在线实训:spark shuffle调优代码案例

    在线直播:Spark sql讲解

    • 1-spark sql 发展史
    • 2-spark sql 1.X 与 2.X
    • 3-spark sql 运行原理分析
    • 4-spark sql 逻辑计划原理讲解
    • 5-spark sql 物理计划原理讲解
    • 6-dataset与dataframe讲解
    • 7-spark sql 自定义注册函数UDF开发
    • 8-spark thrift server讲解

    在线实训:基于spark sql 2.4.0 的王者荣耀英雄分析

    在线直播:Spark图计算讲解

    • 1-属性图的介绍
    • 2-edge、vertex、triplet介绍与创建
    • 3-属性图的操作
    • 4-图算法介绍
    • 5-spark mlib介绍

    在线实训:图的调优

  • 第八阶段:实时计算介绍

    在线直播:kafka原理介绍

    • 1-Kafka使用场景介绍
    • 2-Kafka基本介绍及概念讲解
    • 3-Kafka架构及原理介绍

    在线实训:Kafka收发消息实战

    在线直播:sparkstreaming原理介绍

    • 1-spark streaming、structured streaming 全面对比
    • 2-spark streaming运行原理
    • 3-spark streaming高层抽象dstream
    • 4-structured streaming运行原理简介

    在线实训:代码实现实时日志数据读取与统计

    在线直播:flink介绍

    • 1-flink基本概念简介
    • 2-flink窗口概念及Time模型
    • 3-Flink CEP简介
    • 4-Flink 与Spark Streaming对比

    线下实战:Spark Streaming和Flink实战,及实时计算平台架构设计

    • 1-spark streaming从kafka读取数据到业务处理,sink到mysql
    • 2-flink从kafka读取数据到业务处理,sink到mysql
    • 3-实时计算平台架构设计
  • 第九阶段:商业分析以及机器学习

    在线直播:kylin原理介绍

    • 1-离线报表计算发展史
    • 2-Kylin的优势及设计思想
    • 3-Kylin架构简介

    在线直播:kylin建立cube、特性介绍

    • 1-CUBE简介及Cube建立操作
    • 2-Cube高阶优化及Hybrid Cube介绍
    • 3-Kylin Streaming简介

    在线实训:Kylin在线构建指标计算Cube

    在线直播:推荐系统实战

    • 1-推荐系统的场景,为什么需要推荐系统
    • 2-推荐系统的流程简介
    • 3-协同过滤推荐算法
    • 4-youtube推荐系统简介

    在线实训:基于spark mllib的协同过滤推荐

实战项目

  • 实战项目1

    spring boot框架搭建Java项目

  • 实战项目2

    搭建集群、hdfs常用操作

  • 实战项目3

    sqoop导出mysql数据到hdfs

  • 实战项目4

    数据仓库的实际搭建

  • 实战项目5

    spark实用案例

  • 实战项目6

    离线计算调度平台架构设计与实战

  • 实战项目7

    实时计算平台架构设计

  • 实战项目8

    搭建superset,完成报表展示

  • 实战项目9

    多维分析kylin+hive,完成多维分析系统

讲师介绍

  • 王老师

    BAT某广告推荐中心架构师,8年大数据从业经验,专注于离线、实时计算,毕业后加入新浪微博,做大数据相关开发工作,后百度凤巢,做实时计算相关工作,对spark、MapReduce、hive等大数据组件有大量开发应用项目经验。

  • 丁老师

    目前在BAT某业务中负责金融风控场景的算法应用,毕业于复旦大学,毕业后在中国电信数据中心大数据团队负责大数据系统的建设与产品开发,主要负责Spark各模块的运维、调优、开发与算法应用,曾任数据挖掘组leader。

  • 赵老师

    某大厂担任数据架构组负责人,多年从事数据采集、计算、olap等方向工作,曾工作于百度、网易、阿里等公司,目前专注于spark、kylin等计算工作。

  • 王老师

    某大厂担任数据架构专家,多年大数据从业经验,曾工作于EMC,百度等公司,目前做大数据基础架构以及开发相关工作,团队spark技术负责人,有hadoop,spark,hbase,kafka,flume,es,redis等大数据组件的应用经验,Apache Spark Contributer。

  • 唐老师

    某大厂数据架构师,多年大数据从业经验,从离线数据处理到实时数据计算,深入了解数据计算解决方案,有hadoop,hive,spark,hbase,couchbase,kudu,impala,druid等众多大数据组件应用经验。

时间安排

2019年2月18日起正式上课,为期2个半月

  • 在线直播周一20:00PM--22:00PM
  • 在线实训周二20:00PM--22:00PM
  • 在线直播周三20:00PM--22:00PM
  • 在线实训周四20:00PM--22:00PM
  • 在线直播周五20:00PM--22:00PM
  • 线下实战周六09:30AM--13:00PM
  • 在线考试周日20:00PM--22:00PM

线下实训地址:北京、上海

价格详情

当前报名{{list.currentuser}}人,还剩{{list.remuser}}个特惠名额。

线下实训

大牛讲师面授,学习氛围浓厚

  • 上海线下班
  • 上海线下班
  • 上海线下班

课程咨询

电话:010-82712840

手机:185-1585-0933

email:zhangning@julyedu.cn

常见问题

  • Q : 集训营的上课方式是怎样的?

    A : 集训营采用线上线下相结合的方式,线上内容分为在线直播和在线实训,线下内容为线下集训,面对面实战项目辅导。

  • Q : 怎样的基础才能报名该集训营?

    A : 学过Java,对spark有过了解。

  • Q : 不在北京、上海怎么参加线下集训部分的课程?

    A : 七月在线不提供住宿,但是可以帮助大家协调住宿。如果实在无法参加线下的集训部分,仍然可以获得线下集训的课程讲义、代码和相关项目资料,您在自己实现具体项目时遇到任何问题可以随时咨询讲师。

{{priceWord}} 详情 原价:12000元

报名即送《spark大数据实战班