热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MongoDB保存数据的优化方法

MongoDB批量保存数据的优化方法这两天频繁遇到MongoDB插入数据的问题,这里记录下。问题描述:我有多个线程在抓数据,每天数据里有含有多个文档(Document),使用Pym

MongoDB 批量保存数据的优化方法
MongoDB 保存数据的优化方法
这两天频繁遇到 MongoDB 插入数据的问题,这里记录下。

问题描述:

我有多个线程在抓数据,每天数据里有含有多个文档(Document),使用 Pymongo 的插入方法,逐条插入。形如下

def save_to_mongo(data):
    for i in data:
        db.insert_one(i)

在接收到数据后直接调用该方法即可。但是运维那边反馈,数据库压力比较大,让我修改。仔细想了想,可以使用insert_many方法。

插入可迭代的文档

>>> db.test.count_documents({})
0
>>> result = db.test.insert_many([{'x': i} for i in range(2)])
>>> result.inserted_ids
[ObjectId('54f113fffba522406c9cc20e'), ObjectId('54f113fffba522406c9cc20f')]
>>> db.test.count_documents({})
2

有几个参数需要了解

  • documents: 可迭代文档
  • ordered :(可选)如果“True”(默认)文档将按顺序插入服务器,按提供的顺序。 如果发生错误,则中止所有剩余插入。 如果为“False”,文档将以任意顺序插入服务器,可能并行,并且将尝试所有文档插入。
  • bypass_document_validation: (可选)如果为“True”,则允许写入选择退出文档级别验证。 默认为“False”。
  • session (optional): a ClientSession.

好了最简单的方法就是把所有需要保存的数据暂时存放在列表中,最后再插入。建议加上 ordered=False 参数,可以防止数据保存异常。

def save_mongo():
    while True:
        while len(tmp) > 100:
            try:
                c = db[collection_name]
                c.insert_many(tmp, ordered=False)
                tmp.clear()
            except pymongo.errors.BulkWriteError:
                tmp.clear()
            except Exception as e:
                logging.error('mongodb_save insert_many: {}, {}'.format(e, tmp))
        time.sleep(3)
tmp = []
for i in data:
    tmp.append(i)
t_save = threading.Thread(target=save_mongo)
t_save.setDaemon(True)
t_save.start()

新开一个线程去不停的检查,如果列表数据大于 100,则批量插入,或者等待3秒。

这里捕获 pymongo.errors.BulkWriteError 异常,如果在 insert_many 时发生错误,会产生该异常。在我这里通常是插入重复数据引起的。

还有一种情况,是在多线程情况下。多个线程共享一个列表对象,肯定是需要加锁的,如果使用 Lock 来管理数据插入问题,需要去给列表加锁。之前还没用过锁,去看看教程。

import threading
class SharedCounter:
    '''
    A counter object that can be shared by multiple threads.
    '''
    def __init__(self, initial_value = 0):
        self._value = initial_value
        self._value_lock = threading.Lock()
    def incr(self,delta=1):
        '''
        Increment the counter with locking
        '''
        self._value_lock.acquire()
        self._value += delta
        self._value_lock.release()
    def decr(self,delta=1):
        '''
        Decrement the counter with locking
        '''
        self._value_lock.acquire()
        self._value -= delta
        self._value_lock.release()

觉得太麻烦,可以将保存数据等方法封装成一个类对象,实例化一个列表,在每个线程中实例化一个类对象即可,这样多个线程中是不会共享列表数据的。

当然也可以使用另外一种数据结构:Queue 队列。Queue 是线程安全的,自带锁,使用的时候,不用对队列加锁操作。可以将数据暂时存入 queue,然后用列表取出来,数量大于 100 则插入,并清空列表。

via:https://zhangslob.github.io/2018/12/18/MongoDB保存数据的优化方法/#more


推荐阅读
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • Day2列表、字典、集合操作详解
    本文详细介绍了列表、字典、集合的操作方法,包括定义列表、访问列表元素、字符串操作、字典操作、集合操作、文件操作、字符编码与转码等内容。内容详实,适合初学者参考。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Oracle分析函数first_value()和last_value()的用法及原理
    本文介绍了Oracle分析函数first_value()和last_value()的用法和原理,以及在查询销售记录日期和部门中的应用。通过示例和解释,详细说明了first_value()和last_value()的功能和不同之处。同时,对于last_value()的结果出现不一样的情况进行了解释,并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出,并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码,并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作,但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 本文介绍了使用cacti监控mssql 2005运行资源情况的操作步骤,包括安装必要的工具和驱动,测试mssql的连接,配置监控脚本等。通过php连接mssql来获取SQL 2005性能计算器的值,实现对mssql的监控。详细的操作步骤和代码请参考附件。 ... [详细]
author-avatar
mobiledu2502891853
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有