1

数据挖掘班 [干货满满、口碑极佳]

本次数据挖掘班,专注海量数据处理,由博士 + BAT一线工程师主讲。从数据挖掘基础、数据分析、到海量数据的分布式处理、关联规则、聚类、分类、推荐系统等等。整个课程偏向工程应用,由浅入深,侧重数据、算法,且给数据集、给实践/kaggle案例、给代码。在线直播、实时答疑、视频反复看。目前正在报火热名中。[ 课程咨询QQ群:123531805。课程咨询电话:18910848502 ]

  • 开班时间:10次直播课已上完,现在购买看视频
  • 课程时长: 10次课 [每次课至少2小时,课上课后答疑]
  • 价       格:原价1200,目前717周年庆之间秒杀价299
  • 课程咨询
我要报名 加入购物车

扫描下载七月在线app

IOS
Android

立即参团

请务必填写真实信息,成团之后会第一时间通知您

参团费:5元

支付方式:

随着整个讲师团队的不断扩充、强大(目前讲师团队14人:8位博士 + 6位Google/BAT一线工程师),课程内容质量急剧提升、加强,我们开班的节奏也加快了。
6月25日将开新班:数据挖掘班,且用实际数据说话,帮助学员在实际数据上更快成长。

上课方式:在线QQ群视频直播上课,天南地北,只要想听,谁都有机会报名参加。
课后视频:一周两课,每周六/日上午上课。提供上课视频供课后随时反复观看、复习(PC端用Google浏览器登陆官网在线观看、手机端APP下载看)。
所需基础:大学里学过编程、概率统计、数据结构&算法即可。最重要的是对数据挖掘感兴趣、想深入。主要Python授课。
课程福利:提供真实数据。1个月全程辅导,课上2小时直播答疑、课后一周 7 天集中答疑,及与牛人师兄的互助讨论,帮你省下独自一人苦苦探索而浪费的巨大时间成本。3个月的课程结束后,有问题依然可以随时在群内或社区提问讨论。

主讲老师

寒老

多年实际ml/dl/dm项目经验,负责多个电商机器学习项目,专注海量数据上机器学习算法的应用与优化。做过推荐系统、NLP、点击率预估、图像识别。讲课清晰易懂,擅长用实际数据、案例、代码说话。
龙老师 
多年IT领域ml/dm/nlp经验,负责多个海量数据上网络安全机器学习项目,专注于算法应用与优化。做过NLP、web攻击智能识别、入侵检测自学习等相关项目。善于深入浅出的剖析数学理论在机器学习/深度学习中的应用
王博士
计算机博士毕业,从事数据挖掘、大规模社交网络分析、社会计算等领域研究近5年,常年在互联网一线打拼,致力于将学术产业化。现从事金融反欺诈工作,利用特征工程与机器学习技术搭建自动化线上信贷反欺诈模型。

所有讲师分工协作、每位讲师讲自己最熟悉、最擅长的部分,更多嘉宾讲师具体上课时揭晓。


学员笔记

学员远洋针对上课内容做了一份课程精要txt,摘录如下

第一讲python基础代码:
  python数据切片
  python矩阵操作
  python广播
  python基本numpy应用
第二讲python高级与可视化代码:
  python读取cvs文件
  panadas查看一列数据
  matplotlib画图(.plot)
  数据初探(pandas .value_counts())
  panadas条件筛选列:
     is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
     in_brooklyn = complaints['Borough'] == "BROOKLYN"
     complaints[is_noise & in_brooklyn][:5]
  pandas中日期中day、weelday:
     berri_bikes.index.day
     berri_bikes.index.weekday
  pandas中对数据分组求和:
     berri_bikes.groupby('weekday').aggregate(sum)
  pandas中对数据的基础统计分析函数:resample
     is_snowing.astype(float).resample('M', how=np.mean).plot(kind='bar')
  pandas中数据清洗:
     na_values = ['NO CLUE', 'N/A', '0']
     requests = pd.read_csv('311-service-requests.csv', 
                        na_values=na_values, 
                        dtype={'Incident Zip': str})
zips = zips.str.slice(0, 5)
    # Set 00000 zip codes to nan
    zero_zips = zips == '00000'
    zips[zero_zips] = np.nan
  Seaborn可视化画图:
     sns.factorplot("cylinders",data=df, col="origin",kind='count')
g = sns.FacetGrid(df, col="origin")
     g.map(sns.distplot, "mpg")
     g = sns.pairplot(df[["mpg", "horsepower", "weight", "origin"]], hue="origin", diag_kind="hist")
     for ax in g.axes.flat:
         plt.setp(ax.get_xticklabels(), rotation=45)
 
sns.jointplot("mpg", "horsepower", data=df, kind='kde')
第三讲分布式运算代码:
    分布式框架mapreduce
第四讲关联规则代码:
    apirior算法:
1)先遍历一遍篮子,把所有商品和出现在多少篮子次数统计
2)利用最小频繁集去除大部分非频繁集
3)得到的合理频繁集自交产生备选二项集
4)遍历购物篮子 ,统计以上产生合理二项集出现次数
5)利用最小频繁集去除大部分非频繁集
6)重复3-5步骤知道达到最长购物篮
FP-Growth:
1)遍历一遍篮子,统计商品种类和出现次数,并按商品次数对商品排序,商品从高到底做表头
2)对每个购物篮按表头顺序对商品排序
3)遍历购物篮建立频繁子集树
第五讲聚类与社区发现代码:
    基于划分:
kmean
kemean++
基于密度:
DBSCAN
基于层次:

基于网格:

    社区聚类方法:
GN
LPA
图算法
第六海量高位最近邻表示讲:
    ANN
KNN
LHS
KMEANS-TREE
KD-TREE
常用库:ANNOY  FLANN  KGRAPTH  NEARPY
Github:https://github.com/HanXiaoyang/image_retrieval https://github.com/AKSHAYUBHAT/VisualSearchServer
    
第七讲分类算法代码:
逻辑回归
svm
神经网络
github:https://github.com/HanXiaoyang/ML-examples/tree/master/logistic_regression   https://github.com/HanXiaoyang/SVM-ipython-tutorial
       https://github.com/HanXiaoyang/Neural-Network-Example
lr与svm的差别与优劣、

第八讲推荐系统代码:
    基于内容
协同过滤
矩阵分解与隐语义分析
netflix:global effects+factorization+协同过滤
评价指标:准确度 召回率 覆盖率 多样性
距离:欧式距离 jaccard相似度  余弦相似度  pearson相似度

第九讲数据降维代码:
    svd  稠稀稠
cur  稀稠稀
信息损失最小评判准则:min||A-svd(or cur)||、

第十讲PangeRank与图计算代码:
    PageRank


学员评价

部分学员评价第二课 数据处理/分析与可视化



部分学员评价第6课 海量数据索引与近似最近邻、和第7课 数据分类与排序


数据挖掘班大纲讨论稿(由浅入深、从基础入门到海量数据挖掘/处理,稳步推进)
1、数据挖掘基础入门:数据科学与数学基础知识
内容:数据挖掘基础,微积分、概率论、线性代数基础
实践:用numpy进行矩阵运算

2、数据处理/分析与可视化
内容:数据获取、数据格式、数据内容处理与分析、数据的可视化
实践:用python解析和清洗数据,pandas统计与分析数据,matplotlib和seaborn等做可视化

3、海量数据的分布式处理
内容:hadoop,Spark介绍,Map Reduce数据处理,hive与常见数据统计分析
实践:map reduce计数,文件关联与特征mapping,hiveql统计示例

4、数据上的关联规则
内容:数据关联分析,海量数据的关联分析方案,A-Priori与PCY算法
实践:小型商业服务中的在线认证企业资料挖掘,人群背景与身份关联挖掘

5、数据与聚类
内容:聚类与社区发现算法,深度剖析Kmeans等算法 
实践:Spark MLlib下的K-Means算法与GraphX下的Label-Propagation算法实践

6、海量数据索引与近似最近邻
内容:海量数据检索问题,近似最近邻(ANN)常用算法:LSH、KD-Tree、Kmeans-Tree
实践:海量图像数据与最近图片检索

7、数据分类与排序
内容:有监督学习与分类,LR、SVM、深度神经网络与分类排序问题,样本高效训练
实践:kaggle分类问题、海量数据下电商的CTR预估问题


8、海量数据与推荐系统
内容:基于内容的推荐算法,协同过滤,隐因子模型
实践:基于用户/商品的协同过滤推荐,隐因子模型电影推荐


9、海量高维数据与维度约减
内容:数据降维与SVD,CUR分解
实践:SVD与PCA在推荐系统与数据压缩应用

10、海量网页搜索与PageRank
内容:海量数据构成的图关联分析,PageRank与网页搜索
实践:PageRank在图关联数据上的应用与排序


课程大纲讨论帖:http://ask.julyedu.com/question/7020

新生优惠

2016/7/24更新:前10次课看视频,目前报名无条件599,优惠理由写:前10次课看视频,目前报名无条件599



老生优惠

  • 机器学习班、或深度学习班、或算法班、或求职班重不同类班级的老学员(比如报过4月机器学习班或5月深度学习班) 7折840  499
  • 算法班兼机器学习班、或机器学习班兼深度学习班、或求职班兼机器学习班、或求职班兼算法班重不同类班级的老学员 6折720 399
  • 求职班兼算法班兼机器学习班 三/四重不同类班级的老学员(比如报过11月算法基础班和12月机器学习班和3月面试求职班总共三个班) 5折600 299



报名方式
   直接进入此报名页面:https://www.julyedu.com/baoming/index/40,迅速完成填写报名信息-支付转账两个过程。
有优惠根据具体折扣转相应款项,并务必注明优惠理由,比如:

  • “新学员 和某某3人一起团购报名 8折”
  • “微博已发链接,我的微博昵称是XX”
  • “已分享题库APP,微博链接为....”
  • “社区积分/威望第XX名某某 8折(在积分前200名)“
  • “已发视频学习心得,微博链接为:....”
  • “已看完XX某1个视频且发评论,我的 julyedu.com 账号昵称为XX”
  • “X月机器学习老学员报名数据挖掘 7折”等等。
    周一到周五上午9点-晚上11点半报名交费,1小时以内审核通过后,点击网站右上角“我的课程”查看上课QQ群号,加群即代表报名成功。如果上班时间内已经交费但1小时以内未收到审核通知,敬请加课程咨询QQ群:123531805,咨询(凌晨0点-上午9点之间报名交费,当天上午10点前审核通过)。周六周日虽稍有延迟,但基本半天内审核通过。



常见Q&A

  1. 关于组团。3人组团的可以分别报名转账,但这3人每人各自报名转账时,但要注明一起团购的另外两个人的真实姓名,且3人尽量同一天内转。
  2. 关于视频。课后提供上课视频供课后反复在线观看,PPT 在上课前1-3天公布。
  3. 关于应用。本次数据挖掘课程聚焦海量数据背景下的挖掘,课程强劲、干货十足,详见课程大纲。
  4. 关于发票。报名转账后加上课QQ群,如需要发票(发票内容:技术服务、技术咨询、计算机技术培训 三者挑一),联系上课Q群管理员@na仔。
  5. 关于分期。如果学生一月生活费确实紧张(注意两个前提:学生、确实),可加课程咨询Q群:151888952 单独找管理员@na仔申请分两期付款。

预习资料能看完多少算多少,最重要的是:课前预习PPT、课上认真跟课、课后复习视频。

 机器学习中的数学部分
 机器学习公开课
 上课PPT,上课前1~3天上传上课群内