当前位置: 开发笔记 > 编程语言 > 正文

python爬取快手小姐姐视频

作者：我本僐悢 | 来源：互联网 | 2023-05-19 07:26

流程分析一、导入需要的三方库importre#正则表表达式文字匹配importrequests#指定url，获取网页数据importjson#转化json格式importos#创建

流程分析

一、导入需要的三方库

import re #正则表表达式文字匹配
import requests #指定url，获取网页数据
import json #转化json格式

import os #创建文件

二、确定目标地址

快手的目标地址需要在https://www.kuaishou.com网站截取请求，需要在控制台network截取，找到真正的地址https://www.kuaishou.com/graphql

url = "https://www.kuaishou.com/graphql" #目标网站url

三、确定数据位置

通过在network中搜索网页中显示的特定数据来确定data数据包，可以发现数据在data中。

四、伪装请求头、复制data数据

在控制台找到headers，复制里面的信息并手动转换成键值对的形式

在负载中找到以下信息，并封装到data里用于post请求

data = { #封装data数据
'operationName': "visionSearchPhoto",
'query': "fragment photoContent on PhotoEntity {\n id\n duration\n caption\n likeCount\n viewCount\n realLikeCount\n coverUrl\n photoUrl\n photoH265Url\n manifest\n manifestH265\n videoResource\n coverUrls {\n url\n __typename\n }\n timestamp\n expTag\n animatedCoverUrl\n distance\n videoRatio\n liked\n stereoType\n profileUserTopPhoto\n __typename\n}\n\nfragment feedContent on Feed {\n type\n author {\n id\n name\n headerUrl\n following\n headerUrls {\n url\n __typename\n }\n __typename\n }\n photo {\n ...photoContent\n __typename\n }\n canAddComment\n llsid\n status\n currentPcursor\n __typename\n}\n\nquery visionSearchPhoto($keyword: String, $pcursor: String, $searchSessionId: String, $page: String, $webPageArea: String) {\n visionSearchPhoto(keyword: $keyword, pcursor: $pcursor, searchSessionId: $searchSessionId, page: $page, webPageArea: $webPageArea) {\n result\n llsid\n webPageArea\n feeds {\n ...feedContent\n __typename\n }\n searchSessionId\n pcursor\n aladdinBanner {\n imgUrl\n link\n __typename\n }\n __typename\n }\n}\n",
'variables': {'keyword': keyword,'pcursor': str(page),'page':"search",'searchSessionId':"MTRfNTU2NDg2NDBfMTY1MTE0Njk1MTk5OV_mhaLmkYdfNjA0NQ"}
}
data = json.dumps(data) #将字典数据data转换成需要的json
headers = { #伪装请求头，模拟浏览器访问
'accept': "*/*",
'Accept-Encoding' : "gzip,deflate,br",
'Accept-Language': "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
'Connection': "keep-alive",
'Content-Length': "1279",
'content-type': "application/json",
'COOKIE': "clientid=3; did=web_3a9d9e97c96c8d33eddd663ef9362703; client_key=65890b29; kpf=PC_WEB; kpn=KUAISHOU_VISION; userId=55648640; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABVSIs0T2ccYTa7qgMDgpAdRiErWNJyU1r87iKEYuIWEo_oJSNGq4aTBB5sq0bA7iLeCMOoX0grrEbBkpPmehOVWEs_tC-cDytf6dxSLnrE9-tRQaVcHziopazhh5rroA2XZmHEjHAe6z9-AHD0ZTxV9nJPHeI0-k0wfn9DHvDcj8ZUgQexbGwXDeH2wBV_WSuzutsd3d5oLNmN-90a33TXhoS6uws2LN-siMyPVYdMaXTUH7FIiBd27-7kiEEP6BHgx67BTXhdNPtfA88SZZL4Q_uQ09AuCgFMAE; kuaishou.server.web_ph=b0d04539ad2d77e13d866a70f9e56371c4a6",
'Host' : "www.kuaishou.com",
'Origin': "https://www.kuaishou.com",
'Referer': "https://www.kuaishou.com/search/video?searchKey=%E6%85%A2%E6%91%87",
'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Microsoft Edge";v="100"',
'sec-ch-ua-mobile' : "?0",
'sec-ch-ua-platform': '" "Windows" "',
'Sec-Fetch-Dest': "empty",
'Sec-Fetch-Mode':"cors",
'Sec-Fetch-Site': "same-origin",
"User-Agent": "Mozilla / 5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.51Mobile Safari / 537.36"
}

五、发出请求

向网站发起请求，需要用到第三方requests库，进行访问。

respOnse= requests.post(url=url,headers=headers,data=data) #向目标网站发出请求

六、数据解析

通过re库和xpath进行数据解析，解析到需要的数据封装到列表中。

json_data = response.json() #转换json数据
#print(json_data)
feed_list = json_data['data']['visionSearchPhoto']['feeds'] #在标签中找出每一项的列表
#print(feed_list)
for feeds in feed_list: #循环每一项
title = feeds['photo']['caption'] #在网页中找出标题
new_title = re.sub(r'[\/:*?"<>\n]','_',title) #去除标题中的特殊字符
photoUrl = feeds['photo']['photoUrl'] #找到视频的url地址
mp4_data = requests.get(photoUrl).content #转换视频二进制形式

七、保存数据

创建文件夹，并将数据保存到文件夹中。需要用到os库。

def mkdir(path): #创建文件夹
# 引入模块
import os #引入第三方库
# 去除首位空格
path = path.strip()
# 去除尾部 \ 符号
path = path.rstrip("\\")
# 判断路径是否存在
# 存在 True
# 不存在 False
isExists = os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
print(path + ' 创建成功')
return True
else:
# 如果目录存在则不创建，并提示目录已存在
print(path + ' 目录已存在')
return False

with open(keyword+'/'+ new_title +'.mp4',mode="wb") as f: #设定保存数据路径
f.write(mp4_data) #保存数据
print("保存成功！",new_title)

完整源代码

# -*- coding = utf-8 -*-
# @Time : 2022/4/28 10:48
# @Author :王敬博
# @File : 快手小姐姐.py
# @Software: PyCharm
import re #正则表表达式文字匹配
import requests #指定url，获取网页数据
import json #转化json格式
def mkdir(path): #创建文件夹
# 引入模块
import os #引入第三方库
# 去除首位空格
path = path.strip()
# 去除尾部 \ 符号
path = path.rstrip("\\")
# 判断路径是否存在
# 存在 True
# 不存在 False
isExists = os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
print(path + ' 创建成功')
return True
else:
# 如果目录存在则不创建，并提示目录已存在
print(path + ' 目录已存在')
return False
url = "https://www.kuaishou.com/graphql" #目标网站url
keyword = input("请输入想要搜索的关键词") #搜索关键字
mkpath = "d:\\pywork\\demo02\\"+keyword #创建的文件路径
mkdir(mkpath) #调用函数，创建文件夹
for page in range(1,5): #爬取4页
print("==================第%d页================="%page) #打印爬取的页数
data = { #封装data数据
'operationName': "visionSearchPhoto",
'query': "fragment photoContent on PhotoEntity {\n id\n duration\n caption\n likeCount\n viewCount\n realLikeCount\n coverUrl\n photoUrl\n photoH265Url\n manifest\n manifestH265\n videoResource\n coverUrls {\n url\n __typename\n }\n timestamp\n expTag\n animatedCoverUrl\n distance\n videoRatio\n liked\n stereoType\n profileUserTopPhoto\n __typename\n}\n\nfragment feedContent on Feed {\n type\n author {\n id\n name\n headerUrl\n following\n headerUrls {\n url\n __typename\n }\n __typename\n }\n photo {\n ...photoContent\n __typename\n }\n canAddComment\n llsid\n status\n currentPcursor\n __typename\n}\n\nquery visionSearchPhoto($keyword: String, $pcursor: String, $searchSessionId: String, $page: String, $webPageArea: String) {\n visionSearchPhoto(keyword: $keyword, pcursor: $pcursor, searchSessionId: $searchSessionId, page: $page, webPageArea: $webPageArea) {\n result\n llsid\n webPageArea\n feeds {\n ...feedContent\n __typename\n }\n searchSessionId\n pcursor\n aladdinBanner {\n imgUrl\n link\n __typename\n }\n __typename\n }\n}\n",
'variables': {'keyword': keyword,'pcursor': str(page),'page':"search",'searchSessionId':"MTRfNTU2NDg2NDBfMTY1MTE0Njk1MTk5OV_mhaLmkYdfNjA0NQ"}
}
data = json.dumps(data) #将字典数据data转换成需要的json
headers = { #伪装请求头，模拟浏览器访问
'accept': "*/*",
'Accept-Encoding' : "gzip,deflate,br",
'Accept-Language': "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
'Connection': "keep-alive",
'Content-Length': "1279",
'content-type': "application/json",
'COOKIE': "clientid=3; did=web_3a9d9e97c96c8d33eddd663ef9362703; client_key=65890b29; kpf=PC_WEB; kpn=KUAISHOU_VISION; userId=55648640; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABVSIs0T2ccYTa7qgMDgpAdRiErWNJyU1r87iKEYuIWEo_oJSNGq4aTBB5sq0bA7iLeCMOoX0grrEbBkpPmehOVWEs_tC-cDytf6dxSLnrE9-tRQaVcHziopazhh5rroA2XZmHEjHAe6z9-AHD0ZTxV9nJPHeI0-k0wfn9DHvDcj8ZUgQexbGwXDeH2wBV_WSuzutsd3d5oLNmN-90a33TXhoS6uws2LN-siMyPVYdMaXTUH7FIiBd27-7kiEEP6BHgx67BTXhdNPtfA88SZZL4Q_uQ09AuCgFMAE; kuaishou.server.web_ph=b0d04539ad2d77e13d866a70f9e56371c4a6",
'Host' : "www.kuaishou.com",
'Origin': "https://www.kuaishou.com",
'Referer': "https://www.kuaishou.com/search/video?searchKey=%E6%85%A2%E6%91%87",
'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Microsoft Edge";v="100"',
'sec-ch-ua-mobile' : "?0",
'sec-ch-ua-platform': '" "Windows" "',
'Sec-Fetch-Dest': "empty",
'Sec-Fetch-Mode':"cors",
'Sec-Fetch-Site': "same-origin",
"User-Agent": "Mozilla / 5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.51Mobile Safari / 537.36"
}
respOnse= requests.post(url=url,headers=headers,data=data) #向目标网站发出请求
json_data = response.json() #转换json数据
#print(json_data)
feed_list = json_data['data']['visionSearchPhoto']['feeds'] #在标签中找出每一项的列表
#print(feed_list)
for feeds in feed_list: #循环每一项
title = feeds['photo']['caption'] #在网页中找出标题
new_title = re.sub(r'[\/:*?"<>\n]','_',title) #去除标题中的特殊字符
photoUrl = feeds['photo']['photoUrl'] #找到视频的url地址
mp4_data = requests.get(photoUrl).content #转换视频二进制形式
with open(keyword+'/'+ new_title +'.mp4',mode="wb") as f: #设定保存数据路径
f.write(mp4_data) #保存数据
print("保存成功！",new_title)

效果展示

总结

这次爬取的流程以及源代码是从bili的课程中学到的，大概用了3个小时左右，个人感觉第一次爬取动态网页还是找到数据是比较难的。通过这次实践我终于体会到了程序员的快乐(谁不喜欢看小姐姐呢)，嘿嘿嘿!

如果有问题可以私聊我，如果对你有帮助的话，记得个赞哦！

推荐阅读

web
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
search
收集一些好用的搜索引擎的替代品

本文介绍了一些好用的搜索引擎的替代品，包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外，还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]

蜡笔小新 2023-12-13 16:47:45
ip
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
ip
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
string
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
string
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
string
NetCore WebAPI开发探索及部署方法详解

本文介绍了NetCore WebAPI开发的探索过程，包括新建项目、运行接口获取数据、跨平台部署等。同时还提供了客户端访问代码示例，包括Post函数、服务器post地址、api参数等。详细讲解了部署模式选择、框架依赖和独立部署的区别，以及在Windows和Linux平台上的部署方法。 ... [详细]

蜡笔小新 2023-12-09 18:38:28
string
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
web
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
ip
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
go
Ubuntu安装常用软件详细步骤

目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]

蜡笔小新 2023-12-12 21:26:41
js
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
ip
elasticsearch ES中使用脚本(script)

摘要1：ElasticSearch比较两个时间的大小_gaojie_csdn的博客-CSDN博客_es时间比较摘要2：zlasticsearch脚本教 ... [详细]

蜡笔小新 2023-12-09 19:43:39
search
PostgreSQL OR条件

PostgreSQLOR条件与WHERE子句一起使用，以从表中的一列或多列列中选择唯一数据。语法 ... [详细]

蜡笔小新 2023-12-09 19:08:09

我本僐悢

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章