爬取微信公众号文章并保存为PDF文件（Python方法）

作者：随意 | 来源：互联网 | 2022-09-27 17:21

本文介绍如何爬取微信公众号文章并保存为PDF文件，方法详细，一起学习。

【相关学习推荐：微信公众号开发教程】

前言
第一次写博客，主要内容是爬取微信公众号的文章，将文章以PDF格式保存在本地。

爬取微信公众号文章（使用wechatsogou）

1.安装

pip install wechatsogou --upgrade

wechatsogou是一个基于搜狗微信搜索的微信公众号爬虫接口

2.使用方法

使用方法如下所示

import wechatsogou
# captcha_break_time为验证码输入错误的重试次数，默认为1
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
# 公众号名称
gzh_name = &＃39;&＃39;
# 将该公众号最近10篇文章信息以字典形式返回
data = ws_api.get_gzh_article_by_history(gzh_name)

data数据结构：

{
    &＃39;gzh&＃39;: {
        &＃39;wechat_name&＃39;: &＃39;&＃39;,  # 名称
        &＃39;wechat_id&＃39;: &＃39;&＃39;,  # 微信id
        &＃39;introduction&＃39;: &＃39;&＃39;,  # 简介
        &＃39;authentication&＃39;: &＃39;&＃39;,  # 认证
        &＃39;headimage&＃39;: &＃39;&＃39;  # 头像
    },
    &＃39;article&＃39;: [
        {
            &＃39;send_id&＃39;: int,  # 群发id，注意不唯一，因为同一次群发多个消息，而群发id一致
            &＃39;datetime&＃39;: int,  # 群发datatime 10位时间戳
            &＃39;type&＃39;: &＃39;&＃39;,  # 消息类型，均是49（在手机端历史消息页有其他类型，网页端最近10条消息页只有49），表示图文
            &＃39;main&＃39;: int,  # 是否是一次群发的第一次消息 1 or 0
            &＃39;title&＃39;: &＃39;&＃39;,  # 文章标题
            &＃39;abstract&＃39;: &＃39;&＃39;,  # 摘要
            &＃39;fileid&＃39;: int,  #
            &＃39;content_url&＃39;: &＃39;&＃39;,  # 文章链接
            &＃39;source_url&＃39;: &＃39;&＃39;,  # 阅读原文的链接
            &＃39;cover&＃39;: &＃39;&＃39;,  # 封面图
            &＃39;author&＃39;: &＃39;&＃39;,  # 作者
            &＃39;copyright_stat&＃39;: int,  # 文章类型，例如：原创啊
        },
        ...
    ]
}

这里需要得到两个信息：文章标题，文章url。

得到文章url以后，就可以根据url将html页面转换成pdf文件了。

生成PDF文件

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

2.安装pdfkit

pip install pdfkit

3.使用方法

import pdfkit
# 根据url生成pdf
pdfkit.from_url(&＃39;http://baidu.com&＃39;,&＃39;out.pdf&＃39;)
# 根据html文件生成pdf
pdfkit.from_file(&＃39;test.html&＃39;,&＃39;out.pdf&＃39;)
# 根据html代码生成pdf
pdfkit.from_string(&＃39;Hello!&＃39;,&＃39;out.pdf&＃39;)

如果直接用上面得到的文章url去生成pdf，会出现pdf文件不显示文章图片的问题。

解决办法：

# 该方法根据文章url对html进行处理，使图片显示
content_info = ws_api.get_article_content(url)
# 得到html代码(代码不完整，需要加入head、body等标签)
html_code = content_info[&＃39;content_html&＃39;]

然后根据html_code构造完整的html代码，调用pdfkit.from_string()方法生成pdf文件，这时候会发现文章中的图片在pdf文件中显示出来了。

完整代码

import os
import pdfkit
import datetime
import wechatsogou

# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)


def url2pdf(url, title, targetPath):
    &＃39;&＃39;&＃39;
    使用pdfkit生成pdf文件
    :param url: 文章url
    :param title: 文章标题
    :param targetPath: 存储pdf文件的路径
    &＃39;&＃39;&＃39;
    try:
        content_info = ws_api.get_article_content(url)
    except:
        return False
    # 处理后的html
    html = f&＃39;&＃39;&＃39;
    
    
    
        
        
    
    
    {title}
    {content_info[&＃39;content_html&＃39;]}
    
    
    &＃39;&＃39;&＃39;
    try:
        pdfkit.from_string(html, targetPath + os.path.sep + f&＃39;{title}.pdf&＃39;)
    except:
        # 部分文章标题含特殊字符，不能作为文件名
        filename = datetime.datetime.now().strftime(&＃39;%Y%m%d%H%M%S&＃39;) + &＃39;.pdf&＃39;
        pdfkit.from_string(html, targetPath + os.path.sep + filename)


if __name__ == &＃39;__main__&＃39;:
    # 此处为要爬取公众号的名称
    gzh_name = &＃39;&＃39;
    targetPath = os.getcwd() + os.path.sep + gzh_name
    # 如果不存在目标文件夹就进行创建
    if not os.path.exists(targetPath):
        os.makedirs(targetPath)
    # 将该公众号最近10篇文章信息以字典形式返回
    data = ws_api.get_gzh_article_by_history(gzh_name)
    article_list = data[&＃39;article&＃39;]
    for article in article_list:
        url = article[&＃39;content_url&＃39;]
        title = article[&＃39;title&＃39;]
        url2pdf(url, title, targetPath)

相关学习推荐：python教程

以上就是爬取微信公众号文章并保存为PDF文件（Python方法）的详细内容，更多请关注其它相关文章！

推荐阅读

python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
python
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
python
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
python
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
input
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
text
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
text
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
tree
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
tree
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
tree
2022年的风口：你看不起的行业，真的很挣钱！

本文介绍了2022年的风口，探讨了一份稳定的副业收入对于普通人增加收入的重要性，以及如何抓住风口来实现赚钱的目标。文章指出，拼命工作并不一定能让人有钱，而是需要顺应时代的方向。 ... [详细]

蜡笔小新 2023-12-11 18:31:31
tree
小程序自动授权和手动接入的方式及操作步骤

本文介绍了小程序支持的两种接入方式：自动授权和手动接入，并详细说明了它们的操作步骤。同时还介绍了如何在两种方式之间切换，以及手动接入后如何下载代码包和提交审核。 ... [详细]

蜡笔小新 2023-12-11 18:21:09
tree
分享css中提升优先级属性!important的用法总结

web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]

蜡笔小新 2023-12-11 11:25:16
js
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
js
安装mysqlclient失败解决办法

本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]

蜡笔小新 2023-12-14 18:24:10
text
拥抱Android Design Support Library新变化（导航视图、悬浮ActionBar）

转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一，为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]

蜡笔小新 2023-12-13 16:11:00