热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬取抖音评论_爬取抖音299w用户数据后的分析

纯好奇抖音用户构成做了这件事.抓取数据2999801条.(1)AnyProxy查看app网络请求.发现url会直接返回某个粉丝列表.https:api.amemv.comawe

纯好奇抖音用户构成做了这件事.抓取数据2999801条.

(1) AnyProxy 查看app网络请求.发现url 会直接返回某个粉丝列表 .

https://api.amemv.com/aweme/v1/user/follower/list/?user_id=96744033525&max_time=1527236030&count=20&retry_type=no_retry&iid=31995420310&device_id=51778233807&ac=wifi&channel=aweGW&aid=1128&app_name=aweme&version_code=181&version_name=1.8.1&device_platform=android&ssmix=a&device_type=MI+6&device_brand=Xiaomi&language=zh&os_api=26&os_version=8.0.0&uuid=863264038588223&openudid=99b06d2a82221c9c&manifest_version_code=181&resolution=1080*1920&dpi=480&update_version_code=1810&_rticket=1527236030783&ts=1527236030&as=a1e53c30eeab4b25475991&cp=c3b0bf58e7780452e1bkbe&mas=000de87c6bd683b509ae83095f3572eb948c9c9cacec2cac4c462c

试图伪造请求参数. 大雾..无奈发现不清楚具体算法的情况下无法伪造as cp mas. 直接通过url获取数据失败.

(2)尝试反编译抖音apk . 手机用xposed 直接hook 网络请求.  配合adb forward自己弄一个url 出来.. 传入大号uid . 当前时间戳. 需要拿到的粉丝数量. 下一页的数据就是当前页返回数据的min_time 千辛万苦终于拿到数据. 发现.一个大号竟然只能拿到3w个粉丝has_more 就为false了.然后抖音的进程连续运行一个小时会出现无响应.只能每抓取100个大号.杀死一次进程再重启进程.

Terminal 输入

adb forward tcp:18390 tcp:18390 #访问电脑的18390相当于访问手机18390端口.

Python3内 杀死/启动 抖音进程 返回手机桌面

subprocess.call("adb forward tcp:18390 tcp:18390", shell=True)

time.sleep(3)

subprocess.call("adb shell am force-stop com.ss.android.ugc.aweme", shell=True)

# 杀死进程

time.sleep(10)

subprocess.call("adb shell am start com.ss.android.ugc.aweme/com.ss.android.ugc.aweme.main.MainActivity",shell=True)

# 启动抖音app

time.sleep(15)

subprocess.call("adb shell input keyevent 3", shell=True)

# 返回手机桌面.让抖音在后台运行.否则视频一直播放手机电量不足.

time.sleep(3)

Postman 测试

1827095271.jpgpostman手动调通api

(3) 批量获取大号id?

AnyProxy 查看抖音热搜网络请求.找到url

https://aweme.snssdk.com/aweme/v1/challenge/fresh/aweme/?ch_id=1599721829135383&query_type=0&cursor=1&count=1&type=5&retry_type=no_retry&iid=31995420310&device_id=%s&ac=wifi&channel=aweGW&aid=1128&app_name=aweme&version_code=181&version_name=1.8.1&device_platform=android&ssmix=a&device_type=MI+6&device_brand=Xiaomi&language=en&os_api=26&os_version=8.0.0&uuid=%s&openudid=%s&manifest_version_code=181&resolution=1080*1920&dpi=480&update_version_code=181

其中ch_id 就是热搜的id,遍历完第一个一个chid 至少能拿到5000大号的uid,够了. Python 代码循环获取数据插入数据到数据库就可以了.中间遇到的问题. 抖音进程连续跑一个小时以上.会造成手机关机…

(4) 数据结果.

douyin_data.png抖音用户个人数据

douyin_count_all.png抓取记录总数

(5) 数据分析.

用户年龄分布图: MySQL 查询.

#很大一部分人,比如我这样的就是只是随手刷刷抖音的.

#是不会去填年龄什么的.所以.先统计填写了年龄的用户

SELECT count(1) FROM yk_ios_cloud.douyin_fans where birthday != '';

# count(1)

'1411395'

141w 人填写了年龄.

select &#39;(-∞,10)&#39; value,sum(case when user_age<&#61;10 then 1 else 0 end) counts from (

SELECT (YEAR(CURDATE())-YEAR(birthday)) as user_age from yk_ios_cloud.douyin_fans where 1

) TA

union

select &#39;[10,20)&#39; value,sum(case when (user_age>&#61;11 and user_age<20) then 1 else 0 end) counts from (

SELECT (YEAR(CURDATE())-YEAR(birthday)) as user_age from yk_ios_cloud.douyin_fans where 1

) TA

union

select &#39;[20,35)&#39; value,sum(case when (user_age>&#61;20 and user_age<35) then 1 else 0 end) counts from (

SELECT (YEAR(CURDATE())-YEAR(birthday)) as user_age from yk_ios_cloud.douyin_fans where 1

) TA

union

select &#39;[35,&#43;∞)&#39; value,sum(case when user_age>&#61;35 then 1 else 0 end) counts from (

SELECT (YEAR(CURDATE())-YEAR(birthday)) as user_age from yk_ios_cloud.douyin_fans where 1

) TA

# value, counts

&#39;(-∞,10)&#39;, &#39;96697&#39;

&#39;[10,20)&#39;, &#39;391988&#39;

&#39;[20,35)&#39;, &#39;836370&#39;

&#39;[35,&#43;∞)&#39;, &#39;86340&#39;

统计完成看到年龄小于等于10岁的用户有96697 人我是震惊的…

生成年龄分布图.

Python3代码:

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import matplotlib.pyplot as plt

def main():

plt.figure(figsize&#61;(6, 9))

labels &#61; [&#39;-∞,10&#39;, &#39;10,20&#39;, &#39;20,35&#39;, &#39;35,&#43;∞&#39;]

sizes &#61; [7, 28, 60, 6]

colors &#61; [&#39;red&#39;, &#39;yellowgreen&#39;, &#39;lightskyblue&#39;, &#39;yellow&#39;]

explode &#61; [0, 0, 0, 0]

patches, l_text, p_text &#61; plt.pie(

x&#61;sizes,

explode&#61;explode,

labels&#61;labels,

colors&#61;colors,

labeldistance&#61;1.05,

autopct&#61;&#39;%3.1f%%&#39;,

shadow&#61;False,

startangle&#61;90,

pctdistance&#61;0.6)

for t in l_text:

t.set_size(10)

for t in p_text:

t.set_size(10)

plt.axis(&#39;equal&#39;)

plt.legend()

plt.show()

if __name__ &#61;&#61; &#39;__main__&#39;:

main()

douyin_age.png

2.性别分布图. MySQL 查询

SELECT count(1) as total_gender_not_null FROM yk_ios_cloud.douyin_fans where gender !&#61; 0;

# total_gender_not_null

&#39;1686323&#39;

gender &#61; 2 # 女生

gender &#61; 1 #男生

boy: &#39;798336&#39;

girl: &#39;887987&#39;

figure_boyandgirl.png用户性别分布图

3.拿到的用户信息地址竟然只有CN 也是无奈.所以用户城市分布图就没了.

4. 个性签名词云.

figure_1.png个性签名词云.

拿到的数据还有每个用户发布和喜欢的视频信息.暂时没有时间做分析了… 有时间再弄.


推荐阅读
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Imdevelopinganappwhichneedstogetmusicfilebystreamingforplayinglive.我正在开发一个应用程序,需要通过流 ... [详细]
  • 安卓中的刮刮卡视图,示例原文:https://www.gee ... [详细]
  • Android安卓中的TextView自动调整文字大小——Autosizing功能详解
    Android8.0已经发布了有一阵子了,如果你有在关注它,你应该会知道它新增了一个对于TextView字体大小变动的新特性:Autosi ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 【工具篇】抓包中的王牌工具—Fiddler (1环境搭建)
    本文介绍了抓包工具Fiddler的概述,包括其功能、选择原因和安装方法。Fiddler是一款免费且功能强大的抓包工具,可用于网络代理、接口测试、安全测试和WEB调试等。安装配置简单,上手快速,适合新手使用。详细的安装地址为https://www.telerik.com/download/fiddl。 ... [详细]
  • 近来有一个需求,是需要在androidjava基础库中插入一些log信息,完成这个工作需要的前置条件有编译好的android源码具体android源码如何编译,这 ... [详细]
  • 这两天用到了ListView,写下遇到的一些问题。首先是ListView本身与子控件的焦点问题,比如我这里子控件用到了Button,在需要ListView中的根布局属性上加上下面的这一个属性:and ... [详细]
  • 十八、本地化这一章既快速又简单,但我们将学习如何让数百万潜在用户能够访问您的应用。我们将看到如何 ... [详细]
  • mpvue-meituanmpvue-meituan是一款使用mpvue开发的实战小程序项目,完全仿制美团官方外卖点餐小程序开发而成,项目的框架结构完全 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有