会议主题
R语言机器学习核心技术与应用案例
时间地点
2017年4月21日----4月23日 北京理工大学(具体教室会另行通知报名学员)
(时间安排:外地参会人员20日报到,21日~23日正式会议,21日~22日晚上安排答疑)
主办机构
主办方:雪晴数据网
雪晴数据网是以数据科学为主题的在线社区,运营实体为绘辰科技(北京)有限公司。网站包含视频课程、问答、资讯等模块。雪晴数据网专注于大数据、数据分析、数据挖掘、数据科学技术的普及和推广,致力于向数据科学从业者提供沟通平台。
雪晴数据网已成为Microsoft高级分析培训团队的在中国大陆地区唯一的合作伙伴,也是RStudio公司在中国大陆唯一的合作伙伴。
协办方:北京理工大学大数据创新学习中心,北京友万信息科技有限公司
培训目标
本次研讨会采取深入浅出的方法,先以简单的案例引入R数据分析的基本原理,随后重点讲解多种常用单元的功能和特性,以及有R数据分析与数据的实用技术和处理方法,紧密结合应用实例,针对工作中存在的疑难问题进行分析讲解和专题讨论,有效提升与会者解决复杂问题的能力。学完课程之后,学员可以用R作为工具独立完成数据挖掘的整个流程。
培训特点
有别于其他培训机构将机器学习、数据挖掘技术拆解开讲解的方法,我们以全流程的完整案例讲解利用R完成数据整理、探索性数据分析、建模分析、模型评估、报告展示等环节。
有别于有些培训机构将R语言的培训做成编程语言和函数介绍的做法,我们将R语言的应用与业务实际相结合。
我们还有动手实践环节,有老师和助教解答学员在操作中遇到的问题。
还将针对工作中存在的疑难问题进行分析讲解和专题讨论,有效提升学员解决复杂问题的能力。
学习结束后,学员可得到本次课程的全程视频,以便进一步学习。
培训对象
各省市、自治区从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金行业与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大R爱好者。
讲师介绍
陈堰平,雪晴数据网创始人,北京理工大学大数据创新学习中心导师团成员,2017年1月获“微软最有价值专家”荣誉称号。毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通、国家检察官学院等机构做过数据科学方面的培训和咨询。曾开发贝叶斯动态预测模型的R包ssDLM,译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》,主讲的在线公开课《R语言数据分析入门》、《R语言大规模数据分析实战》已在多个平台上发布,累积学习人数过万人。
李悦,纽约大学金融传媒硕士,特许金融分析师认证(CFA),曾就职于纽约的卖方投资研究机构做数据分析师,现就职于中关村某金融科技创业公司,任资深数据分析师。
培训费用
在职人员3200元/人,学生2500元/人。含会议注册费、资料费、场地费。食宿费用自理。
参与雪晴数据网奖学金计划,更可以减免大笔学费,只要你足够勤奋,可以免费学!!
奖学金计划
为雪晴数据网(www.xueqing.tv)投稿的用户(原创或翻译文章),可以获得代金券(按文章质量,奖励50到200元不等),以抵扣线上线下课程学费,投稿请联系管理员 contact@xueqing.tv
注册并登录雪晴数据网,进入用户中心,然后进入邀请页面(http://www.xueqing.tv/me/invite),获得邀请链接后,转发给好友,如果对方成功注册,双方都可获得奖励,可抵扣学费。
累计五天(可不连续)转发本课程通知到自己朋友圈,并附上推荐理由,截图发给我们的工作人员,报名可优惠200元。
优惠政策
现场班老学员8折优惠
三人以上同时报名9折优惠
六人以上同时报名8折优惠
注: 报名者可同时享受优惠政策与奖学金计划,具体办法请咨询工作人员。
报名方式
请前往http://www.xueqing.tv/r-training/填写报名表,我们随后会联系您。确认报名后,请通过以下三种支付方式中的一种来缴费(请保留支付凭证,拍照或截图发给我们的工作人员 ):
方式一: 对公转账
开户名 绘辰科技(北京)有限公司
开户银行 中国工商银行股份公司北京大钟寺东路支行
账号 0200151609100034763
方式二: 支付宝
账号 pay@xueqingtv.com
户名 绘辰科技(北京)有限公司
方式三: 现场缴费
外地学员请于20号提前报到,北京学员可于21号早上8点~8点半报到,缴费并领取发票和纸质邀请函,以及上课教材。
由于21号早上现场人比较多,鼓励北京学员也于20号报到
课程安排
本次讨论会采取“线上+线下”的方式,雪晴数据网已经上线了数门在线课程,免费向公众开放,我们会在课程里介绍R语言的基础知识。参加线下课程的学员,除了可以学习线上免费课程,还可以在线下学习更加深入的行业案例,并在课后得到线下课程的视频。
线上课程
R语言的介绍及基础语法:如何学习R,R的数据结构,控制语句等
读写数据:从文件、网络、数据库等数据源读取数据,保存数据到文件、数据库
数据整理入门:数据的变换、重塑、拆分合并以及汇总
数据可视化:基础绘图系统、lattice、ggplot2等介绍
请于线下课程开始之前自己学习以下课程
http://www.xueqing.tv/course/1
http://www.xueqing.tv/course/64
http://www.xueqing.tv/course/31
http://www.xueqing.tv/course/66
http://www.xueqing.tv/course/67
http://www.xueqing.tv/course/69
线下课程
时间: 2017年4月21日~23日 地点:北京理工大学
课程大纲
第一天 | ||
第一讲 R语言介绍及R语言基础语法 |
1. 什么是R 及如何学习R 2. Rstudio,扩展包,工作空间 3. 数据对象 4. 向量化操作 5. 函数和控制语句 6. R命令提示符及R 脚本文件 |
涉及知识点: dplyr包:数据整理、筛选、汇总 ggplot2:数据可视化 探索性数据分析:交叉表 预测性分析:利用指数平滑等方法预测销售量 knitr包:自动化报表 flexdashboard包:仪表盘 网络爬虫 案例一: 针对一份电子商务网站的订单数据,从产品、客户、地区等维度来分析销售额和利润,也可以时间的维度纵向分析销售趋势。 案例二: 使用R抓取链家网站数据并分析 |
第二讲 数据整理与数据可视化 |
1. 数据变换、重塑及拆分合并 2. 汇总数据、字符串操作、日期操作 3. R 语言中的可视化函数 4. 单变量的特征 、比例的构成 5. 多变量的关系、展现时间的变化 |
|
第三讲 用R做可重复研究和自动化仪表盘 |
1. 如何用R在重复研究中自动生成分析报告 2. 可视化展示:并用shiny包创建基于Web的动态仪表盘,实现各地区销售额动态比较图 3. 用knitr编写自动化报告 |
|
第二天 | ||
第四讲 初等统计方法及线性回归模型 |
1. 简单线性回归 2. 回归诊断 3. 多元回归 4. 非参数回归 5. 参数估计、假设检验;回归分析;主成分分析、因子分析、聚类分析等等 |
涉及知识点: glm、glmnet等函数的使用 因子变量的处理 共线性的识别和处理 Logistic、多分类Logistic、定序Logistic模型的参数估计,以及模型系数的商业理解 案例三: 二手车定价模型 案例四: 网站可疑流量识别 案例五: 学校教学效果评价 |
第五讲 Logistic回归及多分类Logistic模型 |
1. logistic回归原理 2. 实现原理及输出解释 3. 无序多分类的logistic回归模型 4. 多分类有序反应变量logistic回归应用 |
|
第六讲 混合效应模型及分层线性模型介绍 |
1. 方差分析 2. 重复测量的方差分析 3. 混合效应模型 4. 分层线性模型 |
|
第三天 | ||
第七讲 树结构模型 |
1. C4.5算法构造决策树的过程 2. CART的算法实现 3. C5.0算法生成决策树及规则集 4. 随机森林 |
涉及知识点: rpart、C50、randomForest、xgboost等包的使用 利用caret包做数据清洗、模型训练、模型效果评估 ROC曲线与最佳阈值的选取 根据数据挖掘的商业目的来优化模型 机器学习模型特征选择和参数调优 案例: 利用美国的招聘网站indeed的数据源,借助EDA探索分析方法,寻找可用feature来预测薪资薪酬,建模,评估模型,并选择最优结果 |
第八讲 Boosting方法 |
1. Bagging的概念和应用 2. GBM 3. XGboost |
|
第九讲 神经网络与深度学习 |
1. 神经网络的概念和应用 2. Back Propogate的概念和理解 3. 神经网络在美国的发展和应用场景 4. 深度学习算法及R语言实现 |
联系方式
联系人:陈老师
手机/微信:136-6072-3699
QQ :529698127验证信息请填写友万科技R培训
Email:contact@xueqingtv.com