问

网页爬虫 - python爬取网络小说中文‘乱码’

魅由心生先_941 发布于 2022-10-30 11:24

python爬取网络小说中文‘乱码’，因为不知道是否是乱码，所以加了引号
代码如下
# -- coding:utf8 --
from bs4 import BeautifulSoup
import requests

url = "http://www.cishuge.com/read/0/250/"
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')

titles = soup.select('#readerlist > ul > li > a')
for title in titles:
```
   data = {
       'title': title.get('title'),
       'link': title.get('href')
   }
   print(data)
```
目标网页为http://www.cishuge.com/read/0/250/
运行结果如下图所示

链接能正常显示，文章标题貌似‘乱码’
百度下没找到解决方法，特来求助各位前辈

补充：运行环境 windows10, python3, pycharm

2 个回答

1、看一下别人网站的编码
2、需要转码就转码
参考 https://github.com/bravekingzhang/moveSpider/blob/master/dyspider/html_downloader.py

2022-11-12 01:47 回答

hjp1993

<meta http-equiv="Content-Type" content="text/html; charset=gbk" />

web_data.encoding = "gbk"

2022-11-12 01:47 回答

最后一次让我牵你手卍

撰写答案

今天，你开发时遇到什么问题呢？

热门标签

PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有