爬虫断了？一招搞定MongoDB重复数据

作者：權yzq | 来源：互联网 | 2023-08-09 21:42

MongoDB避免插入重复数据。摘要：尽量使用update_one()方法而不是insert_one

MongoDB 避免插入重复数据。

摘要：尽量使用 update_one() 方法而不是 insert_one() 插入数据。

相信你一定有过这样的经历：大晚上好不容易写好一个爬虫，添加了种种可能出现的异常处理，测试了很多遍都没有问题，点击了 RUN 开始正式运行，然后美滋滋地准备钻被窝睡觉，睡前还特意检查了下确认没有问题，合上眼后期待着第二天起来，数据都乖乖地躺在 MongoDB 中。第二天早上一睁眼就满心欢喜地冲到电脑前，结果发现爬虫半夜断了，你气得想要砸电脑，然后你看了一下 MongoDB 中爬了一半的数据，在想是删掉重新爬，还是保留下来接着爬。

到这儿问题就来了，删掉太可惜，接着爬很可能会爬到重复数据，虽然后期可以去重，但你有强迫症，就是不想爬到重复数据，怎么办呢？

这就遇到了「爬虫断点续传」问题，关于这个问题的解决方法有很多种，不过本文主要介绍数据存储到 MongoDB 时如何做到只插入新数据，而重复数据自动过滤不插入。

先来个简单例子，比如现在有两个 list ，data2 中的第一条数据和 data 列表中的第一条数据是重复的，我们想将这两个 list 依次插入 MnogoDB 中去，通常我们会使用 insert_one() 或者 insert_many() 方法插入，这里我们使用 insert_one() 插入，看一下效果。

data = [
{'index':'A','name':'James','rank':'1' },
{'index':'B','name':'Wade','rank':'2' },
{'index':'C','name':'Paul','rank':'3' },
]

data2 = [
{'index':'A','name':'James','rank':'1' },
{'index':'D','name':'Anthony','rank':'4' },
]

import pymongo
client = pymongo.MongoClient('localhost',27017)
db = client.Douban
mongo_collection = db.douban

for i in data:
    mongo_collection.insert_one(i)

插入第一个 list ：

爬虫断了？一招搞定 MongoDB 重复数据

插入第二个 list ：

爬虫断了？一招搞定 MongoDB 重复数据

你会发现，重复的数据 A 被插入进去了，那么怎么只插入 D，而不插入 A 呢，这里就要用到 update_one() 方法了，改写一下插入方法：

for i in data2:
    mongo_collection.update_one(i,{'$set':i},upsert=True)

爬虫断了？一招搞定 MongoDB 重复数据

这里用到了 $set 运算符，该运算符作用是将字段的值替换为指定的值，upsert 为 True 表示插入。这里也可以用 update() 方法，但是这个方法比较老了，不建议使用。另外尝试使用 update_many() 方法发现不能更新多个相同的值。

for i in data2:
	mongo_collection.update(i, i, upsert=True)

下面举一个豆瓣电影 TOP250 的实例，假设我们先获取 10 个电影的信息，然后再获取前 20 个电影，分别用 insert_one() 和 update_one() 方法对比一下结果。

insert_one() 方法会重复爬取前 10 个电影的数据：

爬虫断了？一招搞定 MongoDB 重复数据

update_one() 方法则只会插入新的 10 个电影的数据：

爬虫断了？一招搞定 MongoDB 重复数据

这就很好了对吧，所以当我们去爬那些需要分页的网站，最好在爬取之前使用 update_one() 方法，这样就算爬虫中断了，也不用担心会爬取重复数据。

代码实现如下：

import requests
import json
import csv
import pandas as pd
from urllib.parse import urlencode
import pymongo

client = pymongo.MongoClient('localhost', 27017)
db = client.Douban
mongo_collection = db.douban
class Douban(object):
    def __init__(self):
        self.url = 'https://api.douban.com/v2/movie/top250?'

    def get_content(self, start_page):
        params = {
            'start': start_page,
            'count': 10
        }
        respOnse= requests.get(self.url, params=params).json()
        movies = response['subjects']
        data = [{
            'rating': item['rating']['average'],
            'genres':item['genres'],
            'name':item['title'],
            'actor':self.get_actor(item['casts']),
            'original_title':item['original_title'],
            'year':item['year'],
        } for item in movies]

        self.write_to_mongodb(data)

    def get_actor(self, actors):
        actor = [i['name'] for i in actors]
        return actor

    def write_to_mongodb(self, data):
        for item in data:
            if mongo_collection.update_one(item, {'$set': item}, upsert=True):
                # if mongo_collection.insert_one(item):
                print('存储成功')
            else:
                print('存储失败')

    def get_douban(self, total_movie):
        # 每页10条，start_page循环1次
        for start_page in range(0, total_movie, 10):
            self.get_content(start_page)

if __name__ == '__main__':
    douban = Douban()
    douban.get_douban(10)

本文完。

以上所述就是小编给大家介绍的《爬虫断了？一招搞定 MongoDB 重复数据》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们的支持！

推荐阅读

object
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
object
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
object
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：4. 设备上报属性

阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]

蜡笔小新 2023-12-14 12:40:20
object
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
request
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
request
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
request
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
request
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
object
Spring常用注解（绝对经典），全靠这份Java知识点PDF大全

本文介绍了Spring常用注解和注入bean的注解，包括@Bean、@Autowired、@Inject等，同时提供了一个Java知识点PDF大全的资源链接。其中详细介绍了ColorFactoryBean的使用，以及@Autowired和@Inject的区别和用法。此外，还提到了@Required属性的配置和使用。 ... [详细]

蜡笔小新 2023-12-12 10:15:07
request
python限制递归次数（python最大公约数递归）

本文目录一览：1、python为什么要进行递归限制 ... [详细]

蜡笔小新 2023-12-11 17:39:02
object
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
object
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
ip
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
request
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
grid
PHP调用实现波场交互[支持TRX/TRC20]的开发包

本文介绍了一个适用于PHP应用快速接入TRX和TRC20数字资产的开发包，该开发包支持使用自有Tron区块链节点的应用场景，也支持基于Tron官方公共API服务的轻量级部署场景。提供的功能包括生成地址、验证地址、查询余额、交易转账、查询最新区块和查询交易信息等。详细信息可参考tron-php的Github地址：https://github.com/Fenguoz/tron-php。 ... [详细]

蜡笔小新 2023-12-11 17:02:09

權yzq

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章