Python作为一门面向对象的编程语言,简洁的语法使得编写十几行代码即可实现爬虫功能,获取海量互联网数据。使用Python来编写爬虫实现简单且效率高,同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析,最重要的是学习成本低,如此之好的东西怎能不学习呢?
2020重磅升级的Python数据科学入门与网络爬虫案例实战研讨会开始报名啦!
原来数据的获取不是我们想的那样,教您玩转Python爬虫入门+进阶+实战 。
§ 学习基础Python
§ 重视递归思维求解能力与训练
§ 你可能不知道而你应该知道的Python知识
§ 编程的艺术
§ Python网络爬虫介绍
§ 网络爬虫的流程
§ 网页结构和网络协议
§ 利用requests和BeautifulSoup模块抓取静态网页
§ 利用selenium抓取动态页面
讲师介绍:
Allen Chen
微软(中国)有限公司 解决方案架构师
中国青年统计学家协会常务理事,微软认证讲师,2017~2018年入选微软最有价值专家。在高级分析、数据挖掘、人工智能等领域有十年的经验,为企业级客户提供相关项目的架构设计、咨询培训、测试开发支持等服务,服务过金融、互联网、通信、咨询、航空、医疗等行业的客户。
时间及地点 :
报道时间:
2020年02月11日 下午 13:00-18:00
2020年02月12日 上午 08:00-09:00
培训时间:
2020年02月12日~14 日
上午 09:00-12:00
下午 14:00-17:00
答疑 17:00-17:30
培训地点:北京市
参会对象:
从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金等与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大Python爱好者。
福利升级:我们会根据学员的意愿从案例库里来选择案例讲解,学员也可以提供自己想要抓取数据的链接,老师现场讲解。
课程大纲:
第一天:python基础语法和网络知识简介
第一讲:Python环境的搭建
1. 操作系统的配置
2. 安装anaconda套件
3. Jupyter Notebook的使用
第二讲:Python基础语法
1. 基本数据结构(列表、字典、元组)
2. 基本语法(条件、循环、函数、类)
第三讲:数据导入导出、数据整理与变换
1. 使用Pandas模块导入/导出数据
2. 使用Pandas筛选、整理数据,分组汇总
3. 数据变换,重编码
第四讲:可视化与描述性统计
1. 饼图、柱形图、折线图、箱线图
2. 在线可视化的工具
第五讲:网络和网页基础知识
1. 网络协议
2. 网页加载过程
3. 网页结构
4. HTML简介
5. CSS选择器
6. Xpath
第二天:静态网站的抓取
第六讲:相关Python模块
1. 用Requests模块获取网页
2. 用BeautifulSoup模块解析网页元素
3. 用requests和Beautiful Soup写简单的爬虫程序
§ 案例: 爬取电影票房数据
第七讲:静态网站抓取的高级策略
1. 寻找目标内容的真正网址
2. 翻页的处理
3. 提交表单后才能获取内容的网页如何爬取
4. 如何下载文件
5. 伪造Cookie绕过网站反爬机制
§ 案例: 抓取北京交通委公布的交通指数
§ 案例: 批量下载上交所上市公司公告
§ 案例: 抓取全国土地交易数据
§ 案例:生态环境部网站全国城市空气质量日报
§ 案例:大众点评店铺信息的抓取
第三天:动态网站的抓取
第八讲:通过API接口获取数据
1. 什么是Ajax异步加载
2. 什么是JSON格式
3. API接口返回JSON数据时如何解析
4. API接口返回其他数据格式时如何解析
5. 从动态地图中抓取并解析数据
§ 案例: 从东方财富网抓取基金数据
§ 案例:上海医疗服务信息便民查询系统网站
§ 案例:财政部PPP项目储备清单
§ 案例:汽车消费者投诉受理处置信息的抓取
第九讲:用Selenium模拟浏览器获取数据
1. Selenium的简介
2. 用Selenium结合Xpath Helper抓取数据
3. 模拟浏览器登录网站、绕开验证码
§ 案例: 中国保险行业协会新闻列表的抓取
§ 案例: 抓取电商网站商品信息和评论
§ 案例:抓取历史航班信息
§ 案例:微博数据的抓取
第十讲:疑难问题的应对
1. 网站内容定时更新,要怎么自动去抓取
2. 正则表达式的使用
3. 使用异常处理,让程序更稳健
4. 能定位到网页元素但不知如何提取
5. 几种反爬虫机制的应对策略
为什么要学爬虫技术,学了以后有什么好处?
不论您是想要做市场调查、趋势分析、还是想要做科研,都需要从自己机构外部找数据,但是网站有千百种,从单纯的下载文件,到整理成干净的数据表,数据藏在哪里,要拿甚么钥匙去敲门,都是透过每个精心设计的范例去学习的。拿到数据之后,不同的数据类型有不同的处理方式,最后怎么有能力说出一个故事,都是这堂课的学习主轴。
网上有很多爬虫课程,为什么要选我们的课程呢?
市场上真的有各种爬虫课程,各有各的特色及优点,有的还是免费的,这里我们不比较各自的不同,就说说我们有什么优点吧:优秀的讲师团队:我们的讲师不但有多年的工作经验,也有丰富的教学经验,不但技术过硬,也善于用通俗的语言讲解复杂的知识点,更有耐心为学员解答学习过程中的问题。每次课程我们都会反复研究,花大量时间准备课程材料,力求用最适合的案例和方式为学员讲解。
案例教学的方法:我们从2016年开始举办公开的技术培训,也曾多次给企业做内部培训,从多年的教学实践中,我们发现,用传统以知识点讲解为主线,案例为辅的方式,效果并不好。学员反映,听了后面忘前面,学了一堆东西却不知道怎么用。经过多次尝试,我们摒弃了这种教学方式,采用以案例为主线,在案例中讲解知识点的方法,在一个案例中串联多个知识点,利用遗忘曲线的原理,我们用多个案例重现数据分析的流程,学员自然会举一反三了。
选取有实用价值的案例:iris数据集、titanic数据、NBA比赛数据跟我们的工作和科研有什么关系?基本没关系,那我们在讲课的时候就不会用这种数据。而且我们教的是如何使用数据分析技术,并不是教你怎么写代码,我们不培养码农的。所以我们选择的案例,都是有现实的商业意义,或者科研价值。在讲解过程中,不但告诉你代码怎么写,还会教你怎么解决问题,为什么要这么做。
贴心的助教制度:我们每次开课都会有助教,因为是手把手的课程,助教的存在,就是为了能解答您的问题,确保您有学会,满载回家。而且我们的助教都有实战经验,有的来自业界,有的来自前几批的优秀学员,我们也欢迎您以后加入我们的助教或讲师团队。
对课程品质的坚持:我们在不同场合讲解过课程的内容,不断调整打磨课程,即使是相近的主题,我们也会对课程内容和案例进行升级,挑选出最适合市场趋势的案例和技术来讲解,并升级了大量案例。
没有学过Python,也可以来上课吗?
当然可以。我们的课程专门面向非计算机专业的学员,其实每次都有对编程一无所知的小白来参加我们的课程,他们甚至对电脑的很多知识都不甚了解,经过两三天的课程,不但跟下来了,还很有收获。对Python有一点认识的朋友相信一定可以得心应手,针对完全没有碰过Python的新手,报名之后我们会推荐您Python的基础在线课程进行课前的练习,也可以提前一天报到,参加我们的课前辅导。
参会费用:
全价:3600元/人;
学生价:3000元/人(需出示学生证)
友万用户(8.5折):3060元/人
团报价格(三人及以上8.5折):3060元/人
注: 以上所有优惠不叠加! 费用均含报名费、材料费,差旅及食宿费自理。
特别优惠:转发课程链接到微信朋友圈,在以上优惠基础上直减200元或领取价值200元(培训代金券一张),可凭此券参加我司主办的任意一场培训活动进行抵扣,有效期为2年。本活动优惠截止至1月31日。(详细转发需求请联系工作人员确认。)
报名方式:
识别下图二维码立即填写在线报名表,我们的工作人员随后会联系您。确认报名后,请通过以下支付方式中的一种来缴费( 请保留支付凭证,拍照或截图发给我们的工作人员。)
报名链接:http://uone-tech.cn/Uone-Api/web/detail.html?Id=977eda9e-1f1f-4944-be55-fcda0ca771da&flag=2
支付方式:
方式一:
对公转账
缴费开户名:北京友万信息科技有限公司
开户行:中国建设银行北京昌平支行
帐 号:11050181360009366857
方式二:现场刷(公务卡)缴费
如现场刷卡需预缴500元留位费至主办方指定帐户,现场刷卡后以现金方式返还。外地学员请于2020年2月11号提前报到,北京学员可于12号早上8:00-9:00报到,缴费并领取发票和纸质邀请函,以及上课教材。由于12号早上现场人比较多,鼓励北京学员也于11号报到。
其它事项:
· 主办方将提供培训课程所需的Python软件;
· 请学员自带笔记本电脑并提前自行安装软件;
· 本次课程食宿差旅费用由学员自理,外地学员请提前安排好行程;
· 课程结束后,学员可申请由主办方“北京友万信息科技有限公司”提供的结业证书。
· 请于课程开始前完成报名工作并及时与会务组保持沟通。
主办机构:
主办方:北京友万信息科技有限公司协办方:北理工大数据创新学习中心
联系方式:
咨询邮箱:marketing@uone-tech.cn
温馨提示:按预报名顺序排座位
主办方简介:
北京友万信息科技有限公司,简称:友万科技。英文全称:Beijing Uone Info&Tech Co.,Ltd,简称:Uone-Tech,是一家专注于引进国外市场软硬件产品的高科技企业。总部位于中关村昌平科技园区,是中国大陆领先的教育和科学软件分销商,该公司已在中国300多所高校建立了可靠的分销渠道,拥有最成功的教学资源和数据管理专家。Uone-Tech将能够有效地推广科学软件,促进采购和遵守中国当地的采购惯例,同时向中国用户提供高质量的客户支持和培训服务。