课程简介

本大数据集训营从Hadoop基础讲解,贯穿数据采集、传输、存储、计算、展示等各个环节,着重讲解企业中如何使用spark、MapReduce、hive、flume、sqoop等各个组件,并附有经典企业案例讲解,案例均来自一线互联网工业项目。

2019年11月下旬时,我们讲师团队再次加强,堪称大厂豪华级大数据专家讲师团队,且根据最近的大数据人才需求,加入elasticsearch和数据仓库模型等内容。

2020年3月下旬时,全面优化大纲,比如新增以下三大实战项目,且标准化项目流程:

  • a、设计与搭建基于Hive、Presto的数据仓库与OLAP分析引擎
  • b、Flink企业实战——直播、短视频APP用户行为分析
  • c、ELK+Spark实现一个错误日志监控(搜索、分析、报警)平台

并新增第八阶段 大数据求职面试辅导,包括大数据面试求职准备工作讲解、常见大数据面试题目解析等内容。

一切为了大家更好的就业、转型、提升。

培养目标: 从零开始,由Hadoop入门,打造大数据开发工程师之路。

PS:企业/高校团购集训通道请点击 课程咨询

课程特色

  • BAT专家级讲师+助教全方位辅导

    我们拥有来自BAT的专家级讲师和数位助教,给你全程1v1般的定制辅导。通过一个个项目实战从头到尾掌握大数据的典型应用场景,从而练就大数据工业项目的全栈能力。且有问题,课上课后随时答疑,手把手教会为止。

  • 全是大数据典型应用场景

    本期集训营实战项目,涵盖集群搭建、hive优化、数据仓库搭建、数据采集平台、离线计算平台、实时计算平台、多维分析平台、直播、短视频APP用户行为分析、日志监控(搜索、分析、报警)平台等一线互联网实用案例。

  • 提供云实验平台

    还原BAT真实生产环境,提供工业数据和国内首创的价值数十万的云实验平台(提前装hadoop集群、hive、spark等环境)。提供完善的实验平台供您动手、真枪实战,拒绝纸上谈兵。

  • 高起步 + 简历优化

    从Hadoop起步,一上来就实战BAT工业项目。且根据集训营实战项目,将涉及到的关键知识点和项目经历优化到您的简历中。

  • 面试求职辅导 + 就业推荐

    精讲大数据开发工程师面试时常见考点/组件/算法,且BAT大厂架构师1v1模拟真实面试,从技术、表达等方面全方位提升您的面试能力。根据您的技术特长提供定制化的能力评估、就业指导以及包括BAT等一线互联网公司的工作机会推荐。2个半月挑战年薪30~50万。

课程安排

  • 第一阶段:大数据与Hadoop 基础(HDFS与YARN)

    在线视频:大数据与Hadoop生态介绍

    • 1-为什么要学大数据
    • 2-大数据技术发展史
    • 3-大数据的应用以及未来
    • 4-Hadoop生态圈介绍
    • 5-Hadoop框架演变与核心组件

    在线实训:搭建HDFS伪分布式集群

    在线视频:大数据存储系统HDFS

    • 1-HDFS的设计目的与系统结构
    • 2-namenode管理元数据的机制
    • 3-hdfs的写入过程分析
    • 4-hdfs的读取过程分析
    • 5-大集群hdfs的使用经验

    在线实训:搭建Zookeeper、HDFS、YARN的分布式集群

    在线直播:分布式资源管理框架Yarn

    • 1-为什么使用yarn
    • 2-yarn的设计与系统结构
    • 3-yarn任务提交流程
    • 4-yarn的常用操作
    • 5-大集群yarn的使用经验

    在线直播:分布式计算框架MapReduce与Hive SQL

    • 1-MapReduce发展与简介
    • 2-Mapper、Reduce执行过程详解
    • 3-MapReduce原理解析
    • 4-Job、Driver原理及使用原理
    • 5-Hive原理及介绍
    • 6-Hive SQL常规操作、优化与技巧
  • 第二阶段:数据采集工具与消息队列Kafka

    在线视频:数据收集工具Flume、Beats介绍与原理

    • 1-Flume的介绍及其架构
    • 2-Flume不同模式对比分析
    • 3-Flume安装部署
    • 4-Beats 的介绍及安装部署

    在线实训:Flume收集日志数据到HDFS或者Kafka

    在线视频:数据库同步工具Alibaba Canal介绍与原理

    • 1-Canal简介
    • 2-Canal架构原理讲解
    • 3-Canal的的搭建和使用

    在线实训:通过Canal将MySql数据导入到HDFS中

    在线直播:高吞吐消息队列Kafka介绍(一)

    • 1-Kafka使用场景介绍
    • 2-Kafka基本介绍及概念讲解
    • 3-Kafka架构及原理介绍
    • 4-Topic的管理与Producer与Consumer的使用
    • 5-Kafka集群管理

    在线直播:分布式数据库Hbase

    • 1-mysql与nosql
    • 2-Hbase的介绍及其发展
    • 3-Hbase中的物理模型与存储模型
    • 4-Hbase读写流程分析
    • 5-Hbase的shell命令以及java API
    • 6-分布式HBase集群的搭建与使用
  • 第三阶段:Spark流式计算实践

    在线视频:spark技术栈发展概述与spark应用开发API介绍

    • 1-Spark2.x 技术栈概述
    • 2-Spark在大公司的应用
    • 3-Spark 核心概念讲解
    • 4-RDD的分区与依赖
    • 5-RDD API中的Transformation讲解
    • 6-RDD API中的Action讲解

    在线实训:Spark RDD API分布式构建搜索引擎的分布式倒排索引

    在线视频:流式计算简介及spark streaming

    • 1-Spark streaming | Storm | Flink | Structured streaming 全面对比
    • 2-Spark Streaming运行原理
    • 3-Spark Streaming高层抽象DStream
    • 4-Structured Streaming运行原理简介

    在线实训:Kafka + Spark Streaming构建实时监控大屏

    在线直播:流式计算实战

    • 1-实时大数据架构简介
    • 2-实时计算平台架构设计及选型方法
    • 3-实时计算实践难点剖析,高qps及性能瓶颈分析

    在线直播:spark运行模式及原理

    • 1-spark运行模式
    • 2-spark执行过程讲解
    • 3-spark rdd内部原理详解
    • 4-spark广播变量与累加器讲解
  • 第四阶段:深入Spark SQL与核心原理

    在线视频:Spark sql讲解

    • 1-spark sql 发展史
    • 2-spark sql 1.X 与 2.X
    • 3-spark sql 运行原理分析
    • 4-spark sql 逻辑计划原理讲解
    • 5-spark sql 物理计划原理讲解
    • 6-dataset与dataframe讲解
    • 7-spark sql 自定义注册函数udf开发
    • 8-spark thrift server讲解

    在线实训:基于spark sql 2.4.0 的王者荣耀英雄分析

    在线视频:Spark集群监控与问题排查

    • 1-spark web ui讲解
    • 2-spark应用监控与分析
    • 3-spark history server原理剖析
    • 4-spark metrics 监控

    在线实训:spark history server搭建部署; 从监控入手进行日志查错与优化

    在线直播:Spark core核心讲解与Spark性能调优

    • 1-Spark Shuffle三种模式详解
    • 2-Spark内存管理剖析
    • 3-Spark应用资源管理
    • 4-Spark RDD存储管理
    • 5-Spark开发、资源、数据倾斜与内存的调优

    在线直播:使用Spark开发一套通用的流和批计算引擎

    • 1-通用计算引擎的处理流程分析
    • 2-实现插件化系统的常用设计模式与Java库
    • 3-基于Spark的计算引擎的设计与实现
  • 第五阶段 项目实战:设计与搭建基于Hive、Presto的数据仓库与OLAP分析引擎

    在线直播:数据仓库基础

    • 1-OLTP与OLAP的介绍与区分
    • 2-关系模型与纬度模型深入介绍
    • 3-海量数据上的维度表、事实表设计
    • 4-离线数据仓库的搭建与维护

    在线直播:数据仓库的数据治理与任务调度

    • 5-列示存储及Hive常用文件格式ORC,Parquet介绍
    • 6-任务调度工具Azkaban在数据仓库中的应用
    • 7-数据仓库的数据质量管理(元数据管理、质量保障原则与方法、解决数据丢失延迟)

    在线直播:OLAP分析场景下的技术架构

    • 8-OLAP场景下的大数据技术栈
    • 9-Presto的架构与原理分析
    • 10-Presto SQL的使用方式与性能优化
    • 11-Presto Connector开发指南
  • 第六阶段 项目实战:Flink企业实战——直播、短视频APP用户行为分析

    在线直播:Flink基础介绍

    • 1-流批计算的趋势与两大计算框架(Flink, Spark)的比较
    • 2-Flink编程模型与API的使用
    • 3-Flink SQL与Table API

    在线直播:Flink核心特性讲解

    • 4-Flink核心特性的原理与应用(Window计算,状态与容错)
    • 5-Flink应用的部署与监控
    • 6-直播、短视频业务的数据模型及核心业务指标

    在线直播:开发用户行为分析的Flink程序

    • 7-使用Flink搭建实时数据流来分析直播、短视频业务指标
    • 8-使用Flink SQL搭建离线数据仓库来分析直播、短视频业务指标
    • 9-开发业务核心指标监控大屏
  • 第七阶段 项目实战:ELK+Spark实现一个错误日志监控(搜索、分析、报警)平台

    在线直播:日志平台介绍及Elasticsearch基础

    • 1-错误日志监控平台的架构及技术选型
    • 2-Elasticsearch 功能、应用场景、分布式架构介绍
    • 3-Elasticsearch的Index API,Search API, Query DSL使用

    在线直播:错误日志平台搭建

    • 4-日志收集Filebeats, Logstash 的使用介绍
    • 5-数据可视化工具Kibana介绍
    • 6-使用Elasticsearch、Logstash、Kibana搭建错误日志监控平台

    在线直播:日志平台架构优化与Spark集成

    • 7-在Elasticsearch中集成Spark流式日志处理
    • 8-用Spark SQL实现基于Elasticsearch的日志离线SQL分析
    • 9-Elasticsearch的集群管理API使用
    • 10-Elasticsearch 分布式读写和聚合原理讲解
  • 第八阶段: 大数据求职面试辅导

    在线直播:大数据面试求职准备工作讲解

    • 1-大数据职业规划介绍
    • 2-大数据面试知识点大纲整理
    • 3-如何准备简历

    在线直播:常见大数据面试题目解析

    • 1-大数据算法题目解析
    • 2-HDFS、Yarn、MapReduce、Hive面试题目解析
    • 3-Spark、Flink面试题目解析
    • 4-HBase、Elasticsearch面试题目解析

实战项目

  • 实战项目1

    搭建集群、hdfs常用操作

  • 实战项目2

    spark实用案例

  • 实战项目3

    离线计算调度平台架构设计与实战

  • 实战项目4

    实时计算平台架构设计

  • 实战项目5

    搭建superset,完成报表展示

  • 实战项目6

    设计与搭建基于Hive、Presto的数据仓库与OLAP分析引擎

  • 实战项目7

    Flink企业实战——直播、短视频APP用户行为分析

  • 实战项目8

    ELK+Spark实现一个错误日志监控(搜索、分析、报警)平台

讲师介绍

  • 樊老师

    7年Hadoop,Spark大数据行业经验,曾在微博、乐视、新浪负责过多个业务线的PB级数据仓库和流式计算,负责的大数据项目在Github上开源,目前在国内某一线互联网公司任职。

  • 丁老师

    目前在BAT某业务中负责金融风控场景的算法应用,毕业于复旦大学,毕业后在中国电信数据中心大数据团队负责大数据系统的建设与产品开发,主要负责Spark各模块的运维、调优、开发与算法应用,曾任数据挖掘组leader。

  • 王老师

    某大厂担任数据架构专家,多年大数据从业经验,曾工作于EMC,百度等公司,目前做大数据基础架构以及开发相关工作,团队spark技术负责人,有hadoop,spark,hbase,kafka,flume,es,redis等大数据组件的应用经验,Apache Spark Contributer。

  • 唐老师

    某大厂数据架构师,多年大数据从业经验,从离线数据处理到实时数据计算,深入了解数据计算解决方案,有hadoop,hive,spark,hbase,couchbase,kudu,impala,druid等众多大数据组件应用经验。

时间安排

2020年4月27日起正式上课,为期2个多月

  • 在线视频周一20:00PM--22:00PM
  • 在线实训周二20:00PM--22:00PM
  • 在线视频周三20:00PM--22:00PM
  • 在线实训周四20:00PM--22:00PM
  • 在线直播周六20:00PM--22:00PM
  • 在线直播周日20:00PM--22:00PM

价格详情

当前报名{{list.currentuser}}人,还剩{{list.remuser}}个特惠名额。

课程咨询

{{priceWord}} 详情 原价:12000元

报名加送:18VIP[包2018全年在线课程和全年GPU]

尚未开课,开课后立即上传课程~
您有1个待支付尾款的课程
再不支付就要过期了!
点击查看