Python作为一门面向对象的编程语言,简洁的语法使得编写数十行代码即可实现爬虫功能,获取海量互联网数据。使用Python来编写爬虫实现简单且效率高,同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析,最重要的是学习成本低,如此之好的东西怎能不学习呢?
2017年6月和7月,北京理工大学联合雪晴数据网举办了两期Python爬虫与机器学习应用案例研讨会。本次研讨会取得了非常好的效果,不断有人询问我们何时再次举办类似的研讨会,经过我们的反复调研,对原有的培训内容做全新升级,定于今年12月9日至10日再次举办一期研讨会。
会议主题Python网络爬虫案例实战研讨会
主办机构
主办方:雪晴数据网
协办方:
-
北京数据科学联合教育中心
-
北京友万信息科技有限公司
参会对象
从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金等与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大Python爱好者。
讲师介绍
陈堰平,雪晴数据网创始人,北京理工大学大数据创新学习中心业界导师团成员,2017年1月获“微软最有价值专家”荣誉称号。硕士毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。
曾有杰,人人车计算平台架构师及策略小组负责人,前搜狐大数据平台研发工程师,多年数据分析与开发的工作经验,擅长网络爬虫技术和自然语言处理,对大数据平台、数据挖掘有丰富的实战经验。
主题安排
第一天 | |
案例一: 爬取电影票房数据,然后对数据进行整理汇总,可视化展示 案例二: 抓取各级行政区域的天气数据 案例三: 从东方财富网抓取基金数据 案例四: 抓取土地流转数据 案例五: 抓取历届政府工作报告,并绘制词云图 案例六: 抓取全国土地交易数据 案例七: 抓取北京交通委公布的交通指数 案例八: 批量下载上交所上市公司公告 |
|
第一讲 Python环境的搭建与基础语法 |
1. 安装anaconda套件 2. Jupyter Notebook的使用 3. 基本数据结构(列表、字典、元组) 4. 基本语法(条件、循环、函数、类) |
第二讲 数据导入导出、数据整理与变换 |
1. 使用Pandas库导入/导出数据 2. 使用Pandas筛选、整理数据,分组汇总 3. 数据变换,重编码 |
第三讲 可视化与描述性统计 |
1. 饼图、柱形图、折线图、箱线图 2. 列联表与马赛克图 3. 文本的词云图 |
第四讲 Python爬虫技术初步 |
1. 网页结构分析 2. 网络协议 3. requests库介绍 4. Beautiful Soup库的介绍 5. 使用requests和Beautiful Soup写爬虫 6. 定时自动执行爬虫程序 |
第二天 | |
案例九 获取电商网站的商品评论文本 案例十 获取微博上用户对指定关键词的评论文本 |
|
第五讲 Python爬虫技术进阶 |
1. Ajax异步加载页面的数据提取 2. XPath介绍 3. 正则表达式介绍 4. 利用scrapy框架获取静态页面数据 5. 使用scrapy结合selenium、phantomjs获取动态数据 6. 模拟浏览器登录网站、绕开验证码 |
为什么要学爬虫技术,学了以后有什么好处?
不论您是想要做市场调查、趋势分析、还是想要做科研,都需要从自己机构外部找数据,但是网站有千百种,从单纯的下载文件,到整理成干净的数据表,数据藏在哪里,要拿甚么钥匙去敲门,都是透过每个精心设计的范例去学习的。拿到数据之后,不同的数据类型有不同的处理方式,最后怎么有能力说出一个故事,都是这堂课的学习主轴。
-
案例教学的方法:我们从2013年开始举办公开的技术培训,也曾多次给企业做内部培训,从多年的教学实践中,我们发现,用传统以知识点讲解为主线,案例为辅的方式,效果并不好。学员反映,听了后面忘前面,学了一堆东西却不知道怎么用。经过多次尝试,我们摒弃了这种教学方式,采用以案例为主线,在案例中讲解知识点的方法,在一个案例中串联多个知识点,利用遗忘曲线的原理,我们用多个案例重现数据分析的流程,学员自然会举一反三了。
-
选取有实用价值的案例:iris数据集、titanic数据、NBA比赛数据跟我们的工作和科研有什么关系?基本没关系,那我们在讲课的时候就不会用这种数据。而且我们教的是如何使用数据分析技术,并不是教你怎么写代码,我们不培养码农的。所以我们选择的案例,都是有现实的商业意义,或者科研价值。在讲解过程中,不但告诉你代码怎么写,还会教你怎么解决问题,为什么要这么做。
-
贴心的助教制度:我们每次开课都会有助教,因为是手把手的课程,助教的存在,就是为了能解答您的问题,确保您有学会,满载回家。而且我们的助教都有实战经验,有的来自业界,有的来自前几批的优秀学员,我们也欢迎您以后加入我们的助教或讲师团队。
-
对课程品质的坚持:我们在不同场合讲解过课程的内容,不断调整打磨课程,即使是相近的主题,我们也会对课程内容和案例进行升级,挑选出最适合市场趋势的案例和技术来讲解。比如这次Python爬虫课程,较6月份的那次课程,我们升级了大量案例
没有学过Python,也可以来上课吗?
当然可以。我们的课程专门面向非计算机专业的学员,其实每次都有对编程一无所知的小白来参加我们的课程,他们甚至对电脑的很多知识都不甚了解,经过两三天的课程,不但跟下来了,还很有收获。对python有一点认识的朋友相信一定可以得心应手,针对完全没有碰过python的新手,报名之后我们会推荐您Python的基础在线课程进行课前的练习,也可以提前一天报到,参加我们的课前辅导。
时间地点
2017年12月9日-- 10日 北京理工大学(具体地点报名后通知)
(时间安排:外地参会人员12月8日报到,9日~10日正式会议)
参会费用
在职人员2300元,学生1800元(可开具正规发票),此价格含会议注册费、资料费、午餐费、场地费。食宿费用自理。
针对雪晴数据网注册用户以及北京友万信息科技有限公司的用户,还有一定的优惠,具体优惠幅度请与工作人员协商。
与会者可申请工信部《数据挖掘与分析应用高级工程师》职业技术水平证书,通过考核后即可获得证书,需另交考试费、证书工本费共400元。
报名方式
请发送邮件至marketing@uone-tech.cn(备注:Python培训),我们的工作人员随后会联系您。确认报名后,请通过以下三种支付方式中的一种来缴费(请保留支付凭证,拍照或截图发给我们的工作人员 ):
外地学员请于12月8号提前报到,北京学员可于9号早上8点~8点半报到,缴费并领取发票和纸质邀请函,以及上课教材。
由于9号早上现场人比较多,鼓励北京学员也于8号报到。