摘要:本发明涉及一种面向海量数据源的网络爬虫动态带宽分配方法及系统,所述方法包括以下步骤:S1、通过若干爬虫程序带宽占比进行第一次分配;S2、每隔一段时间通过各爬虫程序对带宽进行重新预测和分配;S3、若某个爬虫程序停止后释放其所占用资源,并通过爬虫程序重新进行带宽分配;S4、当所有爬虫程序均停止,则分配结束。本发明实现了在request级别上对带宽的细粒度动态分配,保障信息的及时获取,降低爬取信息的总时间;实现了最短总爬取时间和最短最长爬取时间两种分配算法,支持多种数据爬取情况。
- 专利类型发明专利
- 申请人武汉烽火普天信息技术有限公司;
- 发明人金俏;杨绪升;杜鲁;朱卫平;李述;乔瑞凯;朱文鹏;范昊深;
- 地址430074 湖北省武汉市东湖开发区光谷软件园A1栋10楼
- 申请号CN201610536834.3
- 申请时间2016年07月08日
- 申请公布号CN106209685A
- 申请公布时间2016年12月07日
- 分类号H04L12/911(2013.01)I;H04L12/919(2013.01)I;G06F17/30(2006.01)I;