scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

作者：品位人生2602905223 | 来源：互联网 | 2022-04-12 17:18

这篇文章主要介绍了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法,涉及scrapy采集及操作mongodb数据库的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下：

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
  def __init__(self):
    self.server = settings['MONGODB_SERVER']
    self.port = settings['MONGODB_PORT']
    self.db = settings['MONGODB_DB']
    self.col = settings['MONGODB_COLLECTION']
    cOnnection= pymongo.Connection(self.server, self.port)
    db = connection[self.db]
    self.collection = db[self.col]
  def process_item(self, item, spider):
    err_msg = ''
    for field, data in item.items():
      if not data:
        err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
    if err_msg:
      raise DropItem(err_msg)
    self.collection.insert(dict(item))
    log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
        level=log.DEBUG, spider=spider)
    return item

希望本文所述对大家的python程序设计有所帮助。

推荐阅读

import
python web数据库mongodb的使用（附下载链接）

今天我们学习，数据库mongodb的使用，最下面有mongodb的下载链接。pipinstallpymongo首先安装pymongo，然后在需要用到的地方importpymongo ... [详细]

蜡笔小新 2023-10-16 13:16:55
io
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
python
90后程序员的职业发展之路：从年薪3w到30w的经验分享

本文是一位90后程序员分享的职业发展经验，从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光，包括与朋友一起玩DOTA的回忆，并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队，如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验，作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]

蜡笔小新 2023-12-14 15:22:09
python
Python字典推导式及循环列表生成字典方法

本文介绍了Python中使用字典推导式和循环列表生成字典的方法，包括通过循环列表生成相应的字典，并给出了执行结果。详细讲解了代码实现过程。 ... [详细]

蜡笔小新 2023-12-14 14:54:09
python
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
python
Python版Protobuf安装和使用教程

本文介绍了Python版Protobuf的安装和使用方法，包括版本选择、编译配置、示例代码等内容。通过学习本教程，您将了解如何在Python中使用Protobuf进行数据序列化和反序列化操作，以及相关的注意事项和技巧。 ... [详细]

蜡笔小新 2023-12-14 09:27:58
io
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
io
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
import
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
io
ppurl

Allegro总结:1.防焊层(SolderMask):又称绿油层,PCB非布线层,用于制成丝网印板,将不需要焊接的地方涂上防焊剂.在防焊层上预留的焊盘大小要比实际的焊盘大一些,其差值一般 ... [详细]

蜡笔小新 2023-10-17 18:30:39
io
MongoDB创建数据库和用户

step1.为mongodb添加admin管理员root@12.154.29.163:~#mongoMongoDBshellversionv3.4.2connectingto:mo ... [详细]

蜡笔小新 2023-10-17 12:02:01
io
Mongo篇之排错之慢SQL查询

一、前言在数据库中，慢查询日志通常是用来进行优化数据库，MySQL中存在慢查询，Mongodb中也是如此。在Mongo中的慢查询属于Mon ... [详细]

蜡笔小新 2023-10-16 19:34:51
python
Python Python Python 100个练手项目

1.淘宝模拟登录2.天猫商品数据爬虫3.爬取淘宝我已购买的宝贝数据4.每天不同时间段通过微信发消息提醒女友5.爬取5K分辨率超清唯美壁纸6.爬取豆瓣排行榜电影数据(含GUI界面版) ... [详细]

蜡笔小新 2023-10-16 18:29:34
io
Abp+MongoDb改造默认的审计日志存储位置

一、背景在实际项目的开发当中，使用AbpZero自带的审计日志功能写入效率比较低。其次审计日志数据量中后期十分庞大，不适合与业务数据存放在一起。所以我们可以重新实现A ... [详细]

蜡笔小新 2023-10-16 15:09:22
io
MongoDB学习：（二）MongoDB简单使用

MongoDB学习：（二）MongoDB简单使用MongoDB使用：执行mongodb的操作之前，我们需要运行命令，来进入操作命令界面&amp;gt;mongo提示 ... [详细]

蜡笔小新 2023-10-16 11:03:41

品位人生2602905223

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章