作者:宛雨万青惠雯 | 来源:互联网 | 2023-02-06 02:56
我正在爬网数千页,需要一个解决方案。每个站点都有自己的html代码-它们都是唯一的站点。没有干净的数据源或API。我希望将捕获的数据加载到某种数据库中。
如果可能的话,有什么想法可以解决吗?
1> Done Data So..:
如果我不得不从数千个站点中抓取干净的数据,并且每个站点都有自己的布局,结构等,那么我将实现以下方法(实际上在某些项目中也是如此):
抓取工具 -一种抓取脚本,用于抓取这些网站及其所有子页面(这是最简单的部分),并将其转换为纯文本
NLP处理 -对纯文本进行一些基本的NLP(自然语言)处理(加标记,词性(POS)标记,命名实体识别(NER))
分类 -一种分类器,可以使用第2步中的数据来确定页面是否包含我们要查找的数据-基于简单规则,或者(如果需要)使用机器学习。那些怀疑包含任何可用数据的页面将被放入下一步:
提取 -基于语法,基于统计或机器学习的提取器,使用POS标签和NER标签(以及其他任何特定领域的因素)来提取我们正在寻找的数据
清理 -步骤4中创建的重复记录的一些基本匹配,也许还有必要丢弃步骤2至4中具有低置信度得分的记录。
当然,这远远超出了构建拼凑的刮板,并且需要在NLP甚至机器学习方面有丰富的知识和经验。
同样,您也无法期望通过这种方法获得接近100%的准确结果。根据算法的调整和训练方式,这样的系统将跳过一些有效数据(假阴性),或者在实际上不是任何数据的情况下提取数据(假阳性)...或两者混合使用(假肯定和错误否定)。
尽管如此,我希望我的回答能帮助您对情况有所了解。