爬虫实践-爬取简书网用户动态信息

作者：miwn4_651 | 来源：互联网 | 2023-10-12 18:37

jianshuwanguser.py:importrequestsfromlxmlimportetreeimportpymongoclientpymongo.MongoClie

jianshuwanguser.py:

import requests
from lxml import etree
import pymongo

client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
timeline = mydb['timeline']


def get_time_info(url, page):
    user_id = url.split('/')
    user_id = user_id[4]
    if url.find('page='):
        page = page + 1
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="note-list"]/li')
    for info in infos:
        dd = info.xpath('div/div/div/span/@data-datetime')[0]
        type = info.xpath('div/div/div/span/@data-type')[0]
        timeline.insert_one({'date': dd, 'type': type})

    id_infos = selector.xpath('//ul[@class="note-list"]/li/@id')
    if len(infos) > 1:
        feed_id = id_infos[-1]
        max_id = feed_id.split('-')[1]
        next_url = 'http://www.jianshu.com/users/%s/timeline?max_id=%s&page=%s' % (user_id, max_id, page)
        get_time_info(next_url, page)


if __name__ == '__main__':
        get_time_info('http://www.jianshu.com/users/9104ebf5e177/timeline', 1)

推荐阅读

object
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
sum
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
go
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
const
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
datetime
Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？

Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？ ... [详细]

蜡笔小新 2023-09-17 18:18:42
sum
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
spring
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
client
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
sum
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
sum
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
sum
批量重命名文件夹中的文件（python）

做实验需要重命名数据集的名字，有几个容易踩坑的地方和小技巧，总结一下importospathfilelistos.listdir(path)#文件夹路 ... [详细]

蜡笔小新 2023-10-17 08:42:05
jar
Creating dynamically named aws_lambda_alias results in badness

Thisissuewasoriginallyopenedbyashashicorp/terraform#5664.Itwasmigratedhe ... [详细]

蜡笔小新 2023-10-16 19:31:15
object
第 4 章数据类型

目录4.1.type数据类型检测 ... [详细]

蜡笔小新 2023-10-16 19:21:38
client
Kettle 增量导出MongoDB到Mysql表中

一、需求：将MongoDB表中的数据按照时间戳增量抽取到Mysql表中。二、实现方式： 1.kettle 2.pytho ... [详细]

蜡笔小新 2023-09-25 17:42:54
install
总结一下让pymongo支持事务

一.升级mongo到4.0以上安装mongodb4.0参考了这篇文章步骤1：在终端输入GPK码sudoapt-keyadv--keyserverhkp:keyserver.ubun ... [详细]

蜡笔小新 2023-09-16 22:28:22

miwn4_651

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章