1. 首页
  2. 直播课程
  3. 数据挖掘班 [干货满满、口碑极佳]

数据挖掘班 [干货满满、口碑极佳]

  • 讲师:寒小阳 龙老师 王博士
  • 课时:10次课 [每次课至少2小时]
  • 开课时间:随到随学,提供代码、资料和讲师答疑
299.00 1200.00
我要报名 加入购物车
服务承诺:

课程答疑

课后习题

开课前随时退

课后回放

课程咨询
  • 介绍
  • 大纲
  • 随着整个讲师团队的不断扩充、强大(目前讲师团队14人:8位博士 + 6位Google/BAT一线工程师),课程内容质量急剧提升、加强,我们开班的节奏也加快了。
    6月25日将开新班:数据挖掘班,且用实际数据说话,帮助学员在实际数据上更快成长。

    上课方式:在线QQ群视频直播上课,天南地北,只要想听,谁都有机会报名参加。
    课后视频:一周两课,每周六/日上午上课。提供上课视频供课后随时反复观看、复习(PC端用Google浏览器登陆官网在线观看、手机端APP下载看)。
    所需基础:大学里学过编程、概率统计、数据结构&算法即可。最重要的是对数据挖掘感兴趣、想深入。主要Python授课。
    课程福利:提供真实数据。1个月全程辅导,课上2小时直播答疑、课后一周 7 天集中答疑,及与牛人师兄的互助讨论,帮你省下独自一人苦苦探索而浪费的巨大时间成本。3个月的课程结束后,有问题依然可以随时在群内或社区提问讨论。

    主讲老师

    寒老

    多年实际ml/dl/dm项目经验,负责多个电商机器学习项目,专注海量数据上机器学习算法的应用与优化。做过推荐系统、NLP、点击率预估、图像识别。讲课清晰易懂,擅长用实际数据、案例、代码说话。
    龙老师 
    多年IT领域ml/dm/nlp经验,负责多个海量数据上网络安全机器学习项目,专注于算法应用与优化。做过NLP、web攻击智能识别、入侵检测自学习等相关项目。善于深入浅出的剖析数学理论在机器学习/深度学习中的应用
    王博士
    计算机博士毕业,从事数据挖掘、大规模社交网络分析、社会计算等领域研究近5年,常年在互联网一线打拼,致力于将学术产业化。现从事金融反欺诈工作,利用特征工程与机器学习技术搭建自动化线上信贷反欺诈模型。

    所有讲师分工协作、每位讲师讲自己最熟悉、最擅长的部分,更多嘉宾讲师具体上课时揭晓。


    学员笔记

    学员远洋针对上课内容做了一份课程精要txt,摘录如下

    第一讲python基础代码:
      python数据切片
      python矩阵操作
      python广播
      python基本numpy应用
    第二讲python高级与可视化代码:
      python读取cvs文件
      panadas查看一列数据
      matplotlib画图(.plot)
      数据初探(pandas .value_counts())
      panadas条件筛选列:
         is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
         in_brooklyn = complaints['Borough'] == "BROOKLYN"
         complaints[is_noise & in_brooklyn][:5]
      pandas中日期中day、weelday:
         berri_bikes.index.day
         berri_bikes.index.weekday
      pandas中对数据分组求和:
         berri_bikes.groupby('weekday').aggregate(sum)
      pandas中对数据的基础统计分析函数:resample
         is_snowing.astype(float).resample('M', how=np.mean).plot(kind='bar')
      pandas中数据清洗:
         na_values = ['NO CLUE', 'N/A', '0']
         requests = pd.read_csv('311-service-requests.csv', 
                            na_values=na_values, 
                            dtype={'Incident Zip': str})
    zips = zips.str.slice(0, 5)
        # Set 00000 zip codes to nan
        zero_zips = zips == '00000'
        zips[zero_zips] = np.nan
      Seaborn可视化画图:
         sns.factorplot("cylinders",data=df, col="origin",kind='count')
    g = sns.FacetGrid(df, col="origin")
         g.map(sns.distplot, "mpg")
         g = sns.pairplot(df[["mpg", "horsepower", "weight", "origin"]], hue="origin", diag_kind="hist")
         for ax in g.axes.flat:
             plt.setp(ax.get_xticklabels(), rotation=45)
     
    sns.jointplot("mpg", "horsepower", data=df, kind='kde')
    第三讲分布式运算代码:
        分布式框架mapreduce
    第四讲关联规则代码:
        apirior算法:
    1)先遍历一遍篮子,把所有商品和出现在多少篮子次数统计
    2)利用最小频繁集去除大部分非频繁集
    3)得到的合理频繁集自交产生备选二项集
    4)遍历购物篮子 ,统计以上产生合理二项集出现次数
    5)利用最小频繁集去除大部分非频繁集
    6)重复3-5步骤知道达到最长购物篮
    FP-Growth:
    1)遍历一遍篮子,统计商品种类和出现次数,并按商品次数对商品排序,商品从高到底做表头
    2)对每个购物篮按表头顺序对商品排序
    3)遍历购物篮建立频繁子集树
    第五讲聚类与社区发现代码:
        基于划分:
    kmean
    kemean++
    基于密度:
    DBSCAN
    基于层次:

    基于网格:

        社区聚类方法:
    GN
    LPA
    图算法
    第六海量高位最近邻表示讲:
        ANN
    KNN
    LHS
    KMEANS-TREE
    KD-TREE
    常用库:ANNOY  FLANN  KGRAPTH  NEARPY
    Github:https://github.com/HanXiaoyang/image_retrieval https://github.com/AKSHAYUBHAT/VisualSearchServer
        
    第七讲分类算法代码:
    逻辑回归
    svm
    神经网络
    github:https://github.com/HanXiaoyang/ML-examples/tree/master/logistic_regression   https://github.com/HanXiaoyang/SVM-ipython-tutorial
           https://github.com/HanXiaoyang/Neural-Network-Example
    lr与svm的差别与优劣、

    第八讲推荐系统代码:
        基于内容
    协同过滤
    矩阵分解与隐语义分析
    netflix:global effects+factorization+协同过滤
    评价指标:准确度 召回率 覆盖率 多样性
    距离:欧式距离 jaccard相似度  余弦相似度  pearson相似度

    第九讲数据降维代码:
        svd  稠稀稠
    cur  稀稠稀
    信息损失最小评判准则:min||A-svd(or cur)||、

    第十讲PangeRank与图计算代码:
        PageRank


    学员评价

    部分学员评价第二课 数据处理/分析与可视化



    部分学员评价第6课 海量数据索引与近似最近邻、和第7课 数据分类与排序


    • 第2课 数据处理/分析/可视化

    • 知识点1:数据获取、数据格式、数据内容处理与分析、数据的可视化
    • 实战项目:用python解析和清洗数据,pandas统计与分析数据,matplotlib和seaborn等做可视化

      第3课 海量数据的分布式处理

    • 知识点1:hadoop,Spark介绍,Map Reduce数据处理,hive与常见数据统计分析
    • 实战项目:map reduce计数,文件关联与特征mapping,hiveql统计示例

      第4课 关联规则挖掘

    • 知识点1:数据关联分析,海量数据的关联分析方案,A-Priori与PCY算法
    • 实战项目:小型商业服务中的在线认证企业资料挖掘,人群背景与身份关联挖掘

      第5课 数据与聚类

    • 知识点1:聚类与社区发现算法,深度剖析Kmeans等算法
    • 实战项目:Spark MLlib下的K-Means算法与GraphX下的Label-Propagation算法实践

      第7课 分类与排序

    • 知识点1:有监督学习与分类,LR、SVM、深度神经网络与分类排序问题,样本高效训练
    • 实战项目:kaggle分类问题、海量数据下电商的CTR预估问题

      第8课 推荐系统

    • 知识点1:基于内容的推荐算法,协同过滤,隐因子模型
    • 实战项目:基于用户/商品的协同过滤推荐,隐因子模型电影推荐

      第10课 PageRank与图挖掘

    • 知识点1:海量数据构成的图关联分析,PageRank与网页搜索
    • 实战项目:PageRank在图关联数据上的应用与排序
课程咨询
课程咨询

微信客服:julyedukefu

电话:010-82712840

微信公众号:

微信公众号

分享到微信朋友圈

打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。

微信扫码支付

打开微信,点击底部的“发现”,使用 “扫一扫” 即去支付!

立即参团

请务必填写真实信息,成团之后会第一时间通知您

参团定金:

支付方式:
请填写用户名

参团成功,邀请更多好友参团砍价

提示

尚未开课,开课后会第一时间上传课程视频。

确定