教育装备采购网
第七届图书馆 校体购1

2020重磅升级“Python数据科学入门与网络爬虫案例实战研讨会”

教育装备采购网 2019-12-26 09:04 围观3402次

  Python作为一门面向对象的编程语言,简洁的语法使得编写十几行代码即可实现爬虫功能,获取海量互联网数据。使用Python来编写爬虫实现简单且效率高,同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析,重要的是学习成本低,如此之好的东西怎能不学习呢?

  2020重磅升级的Python数据科学入门与网络爬虫案例实战研讨会开始报名啦!

  原来数据的获取不是我们想的那样,教您玩转Python爬虫入门+进阶+实战 。

  § 学习基础Python

  § 重视递归思维求解能力与训练

  § 你可能不知道而你应该知道的Python知识

  § 编程的艺术

  § Python网络爬虫介绍

  § 网络爬虫的流程

  § 网页结构和网络协议

  § 利用requests和BeautifulSoup模块抓取静态网页

  § 利用selenium抓取动态页面

  讲师介绍

  Allen Chen

  微软(中国)有限公司 解决方案架构师

  中国青年统计学家协会常务理事,微软认证讲师,2017~2018年入选微软有价值专家。在高级分析、数据挖掘、人工智能等领域有十年的经验,为企业级客户提供相关项目的架构设计、咨询培训、测试开发支持等服务,服务过金融、互联网、通信、咨询、航空、医疗等行业的客户。

  时间及地点 :

  报道时间:

  2020年02月11日 下午 13:00-18:00

  2020年02月12日 上午 08:00-09:00

  培训时间:

  2020年02月12日~14 日

  上午 09:00-12:00

  下午 14:00-17:00

  答疑 17:00-17:30

  培训地点:北京市

  参会对象:

  从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金等与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大Python爱好者。

  福利升级:我们会根据学员的意愿从案例库里来选择案例讲解,学员也可以提供自己想要抓取数据的链接,老师现场讲解。

  课程大纲:

第一天:python基础语法和网络知识简介

  第一讲:Python环境的搭建

  1. 操作系统的配置

  2. 安装anaconda套件

  3. Jupyter Notebook的使用

  第二讲:Python基础语法

  1. 基本数据结构(列表、字典、元组)

  2. 基本语法(条件、循环、函数、类)

  第三讲:数据导入导出、数据整理与变换

  1. 使用Pandas模块导入/导出数据

  2. 使用Pandas筛选、整理数据,分组汇总

  3. 数据变换,重编码

  第四讲:可视化与描述性统计

  1. 饼图、柱形图、折线图、箱线图

  2. 在线可视化的工具

  第五讲:网络和网页基础知识

  1. 网络协议

  2. 网页加载过程

  3. 网页结构

  4. HTML简介

  5. CSS选择器

  6. Xpath

第二天:静态网站的抓取

  第六讲:相关Python模块

  1. 用Requests模块获取网页

  2. 用BeautifulSoup模块解析网页元素

  3. 用requests和Beautiful Soup写简单的爬虫程序

  § 案例: 爬取电影票房数据

  第七讲:静态网站抓取的高级策略

  1. 寻找目标内容的真正网址

  2. 翻页的处理

  3. 提交表单后才能获取内容的网页如何爬取

  4. 如何下载文件

  5. 伪造Cookie绕过网站反爬机制

  § 案例: 抓取北京交通委公布的交通指数

  § 案例: 批量下载上交所上市公司公告

  § 案例: 抓取全国土地交易数据

  § 案例:生态环境部网站全国城市空气质量日报

  § 案例:大众点评店铺信息的抓取

第三天:动态网站的抓取

  第八讲:通过API接口获取数据

  1. 什么是Ajax异步加载

  2. 什么是JSON格式

  3. API接口返回JSON数据时如何解析

  4. API接口返回其他数据格式时如何解析

  5. 从动态地图中抓取并解析数据

  § 案例: 从东方财富网抓取基金数据

  § 案例:上海医疗服务信息便民查询系统网站

  § 案例:财政部PPP项目储备清单

  § 案例:汽车消费者投诉受理处置信息的抓取

  第九讲:用Selenium模拟浏览器获取数据

  1. Selenium的简介

  2. 用Selenium结合Xpath Helper抓取数据

  3. 模拟浏览器登录网站、绕开验证码

  § 案例: 中国保险行业协会新闻列表的抓取

  § 案例: 抓取电商网站商品信息和评论

  § 案例:抓取历史航班信息

  § 案例:微博数据的抓取

  第十讲:疑难问题的应对

  1. 网站内容定时更新,要怎么自动去抓取

  2. 正则表达式的使用

  3. 使用异常处理,让程序更稳健

  4. 能定位到网页元素但不知如何提取

  5. 几种反爬虫机制的应对策略

  为什么要学爬虫技术,学了以后有什么好处?

  不论您是想要做市场调查、趋势分析、还是想要做科研,都需要从自己机构外部找数据,但是网站有千百种,从单纯的下载文件,到整理成干净的数据表,数据藏在哪里,要拿甚么钥匙去敲门,都是透过每个精心设计的范例去学习的。拿到数据之后,不同的数据类型有不同的处理方式,最后怎么有能力说出一个故事,都是这堂课的学习主轴。

  网上有很多爬虫课程,为什么要选我们的课程呢?

  市场上真的有各种爬虫课程,各有各的特色及优点,有的还是免费的,这里我们不比较各自的不同,就说说我们有什么优点吧:优秀的讲师团队:我们的讲师不但有多年的工作经验,也有丰富的教学经验,不但技术过硬,也善于用通俗的语言讲解复杂的知识点,更有耐心为学员解答学习过程中的问题。每次课程我们都会反复研究,花大量时间准备课程材料,力求用适合的案例和方式为学员讲解。

  案例教学的方法:我们从2016年开始举办公开的技术培训,也曾多次给企业做内部培训,从多年的教学实践中,我们发现,用传统以知识点讲解为主线,案例为辅的方式,效果并不好。学员反映,听了后面忘前面,学了一堆东西却不知道怎么用。经过多次尝试,我们摒弃了这种教学方式,采用以案例为主线,在案例中讲解知识点的方法,在一个案例中串联多个知识点,利用遗忘曲线的原理,我们用多个案例重现数据分析的流程,学员自然会举一反三了。

  选取有实用价值的案例:iris数据集、titanic数据、NBA比赛数据跟我们的工作和科研有什么关系?基本没关系,那我们在讲课的时候就不会用这种数据。而且我们教的是如何使用数据分析技术,并不是教你怎么写代码,我们不培养码农的。所以我们选择的案例,都是有现实的商业意义,或者科研价值。在讲解过程中,不但告诉你代码怎么写,还会教你怎么解决问题,为什么要这么做。

  贴心的助教制度:我们每次开课都会有助教,因为是手把手的课程,助教的存在,就是为了能解答您的问题,确保您有学会,满载回家。而且我们的助教都有实战经验,有的来自业界,有的来自前几批的优秀学员,我们也欢迎您以后加入我们的助教或讲师团队。

  对课程品质的坚持:我们在不同场合讲解过课程的内容,不断调整打磨课程,即使是相近的主题,我们也会对课程内容和案例进行升级,挑选出适合市场趋势的案例和技术来讲解,并升级了大量案例。

  没有学过Python,也可以来上课吗?

  当然可以。我们的课程专门面向非计算机专业的学员,其实每次都有对编程一无所知的小白来参加我们的课程,他们甚至对电脑的很多知识都不甚了解,经过两三天的课程,不但跟下来了,还很有收获。对Python有一点认识的朋友相信一定可以得心应手,针对完全没有碰过Python的新手,报名之后我们会推荐您Python的基础在线课程进行课前的练习,也可以提前一天报到,参加我们的课前辅导。

  参会费用:

  全价:3600元/人;

  学生价:3000元/人(需出示学生证)

  友万用户(8.5折):3060元/人

  团报价格(三人及以上8.5折):3060元/人

  注: 以上所有优惠不叠加! 费用均含报名费、材料费,差旅及食宿费自理。

  特别优惠:转发课程链接到微信朋友圈,在以上优惠基础上直减200元或领取价值200元(培训代金券一张),可凭此券参加我司主办的任意一场培训活动进行抵扣,有效期为2年。本活动优惠截止至1月31日。(详细转发需求请联系工作人员确认。)

  报名方式:

  识别下图二维码立即填写在线报名表,我们的工作人员随后会联系您。确认报名后,请通过以下支付方式中的一种来缴费( 请保留支付凭证,拍照或截图发给我们的工作人员。)

  报名链接:http://uone-tech.cn/Uone-Api/web/detail.html?Id=977eda9e-1f1f-4944-be55-fcda0ca771da&flag=2

  支付方式:

  方式一:

  对公转账

  缴费开户名:北京友万信息科技有限公司

  开户行:中国建设银行北京昌平支行

  帐 号:11050181360009366857

  方式二:现场刷(公务卡)缴费

  如现场刷卡需预缴500元留位费至主办方指定帐户,现场刷卡后以现金方式返还。外地学员请于2020年2月11号提前报到,北京学员可于12号早上8:00-9:00报到,缴费并领取发票和纸质邀请函,以及上课教材。由于12号早上现场人比较多,鼓励北京学员也于11号报到。

  其它事项:

  · 主办方将提供培训课程所需的Python软件;

  · 请学员自带笔记本电脑并提前自行安装软件;

  · 本次课程食宿差旅费用由学员自理,外地学员请提前安排好行程;

  · 课程结束后,学员可申请由主办方“北京友万信息科技有限公司”提供的结业证书。

  · 请于课程开始前完成报名工作并及时与会务组保持沟通。

  主办机构:

  主办方:北京友万信息科技有限公司协办方:北理工大数据创新学习中心

  联系方式:

  咨询邮箱:marketing@uone-tech.cn

  温馨提示:按预报名顺序排座位

  主办方简介:

  北京友万信息科技有限公司,简称:友万科技。英文全称:Beijing Uone Info&Tech Co.,Ltd,简称:Uone-Tech,是一家专注于引进国外市场软硬件产品的高科技企业。总部位于中关村昌平科技园区,是中国大陆领先的教育和科学软件分销商,该公司已在中国300多所高校建立了可靠的分销渠道,拥有成功的教学资源和数据管理专家。Uone-Tech将能够有效地推广科学软件,促进采购和遵守中国当地的采购惯例,同时向中国用户提供高质量的客户支持和培训服务。

点击进入北京友万信息科技有限公司展台查看更多 来源:教育装备采购网 责任编辑:张肖 我要投稿
校体购终极页

相关阅读

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品