作者:倩-1130 | 来源:互联网 | 2023-10-10 17:55
说起Python爬虫,非数据分析或是专业的爬虫工程师都会使用爬虫框架,其中包括Scrapy、Crawley、Portia、newspaper等等,但是其中使用占比最高的是Scrap
说起 Python爬虫,非数据分析或是专业的爬虫工程师都会使用爬虫框架,其中包括 Scrapy、Crawley、Portia、newspaper 等等,但是其中使用占比最高的是 Scrapy框架。顺带说一下光会写爬虫不懂得项目管理的话永远你就是一个兵,所以对于爬虫管理框架来说,首选 Gerapy框架。
中国网 很多小伙伴不知道,是和 新华网、人民网 齐名的国家级的新闻媒体机构,有幸参与了863课题的舆情项目,现在很多的企业舆情项目都是基于这套内容衍生出来的。并且基于舆情项目衍生出来的很多项目都会涉及到数据采集工作,简单来说就是基于现有业务从舆情的内容数据中提取响应的内容。
结合舆情系统的结构复现了一套爬虫数据采集的结构,由于当年的课题比较久远,其中具体的开发内容具体生产方式未知,结合课题的相关内容用Python复现了一套舆情系统供企业的某些项目使用,未来会这套系统内容会更新出来,今天主要说数据采集这块思路和简单功能实现。
整体项目以构建舆情系统数据库的新闻数据采集作为 Scrapy 爬虫的基础信息部分。总体的项目复现构思基于 Scrapy框架(爬虫框架) + Gerapy 框架(爬虫管理框架)。实现分布式数据采集每日根据不同的项目采集数据约百万级,这里展示部分实现的内容,有兴趣的小伙伴可以自行尝试更大规模的数据采集。