热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于酷狗音乐的歌单数据爬取

前言按照学校项目要求,想做一个资源分享的开放论坛,首先想到了音乐资源。由于版权的问题所以不能直接爬取音乐文件本身,所以采取了一种折中的方案,爬取音乐相关数据,如播放量、评分、简介


前言

按照学校项目要求,想做一个资源分享的开放论坛,首先想到了音乐资源。由于版权的问题所以不能直接爬取音乐文件本身,所以采取了一种折中的方案,爬取音乐相关数据,如播放量、评分、简介等等。最后考虑到目前对相关算法的知识了解地不是很深,不能熟练地进行相关数据的筛选工作,故只爬取了相关榜单的信息作为本次项目的数据参考,不得不说也是一种遗憾的事。




一、相关准备工作



  • python3,这里我使用了PyCharm这个著名的IDE

  • 下载好requests 和 re两个第三方包,在数据爬取的过程中会用到


二、使用步骤


1.引入库

1 import requests
2 import re

这里request主要是用于请求访问网页,以获得网页相关信息;re是正则表达式,主要是用于爬取与正则表达式相匹配的信息的相关网页内容 


2.分析网页特征

打开酷狗音乐的一些榜单,我们会发现这些歌单都有这样的一些特征:

主体的网址都是kugou.com/yy/rank/home/1-(榜单ID).html?from=rank

我们会发现,这些榜单最主要的就是中间榜单的ID名称不同,所以我们想爬哪些榜单,就可以将它们的榜单ID打包起来

list = [6666,8888,52144,52767,24971,21101,31308,31313,54848,31310,31311,31312,33162,33160,46910,44412,33163,33165,33166]

3.访问网页

使用循环保证列表里面的每一个歌单都能被访问

1 for i in list:
2 url = f'https://www.kugou.com/yy/rank/home/1-{i}.html?from=rank'

这里我们使用了f‘’(format)格式化输出,这样代码简洁方便

因为爬虫需要将自己伪装成一个浏览器才能获取到更多信息,所以我们需要将爬虫伪装成一个浏览器,右键,打开谷歌浏览器的检查工具

注意标头中的user-agent内容

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36 

这就是我们需要的内容了,它反映了我们浏览器的相关属性,我们就可以让爬虫模拟这样一个浏览器来进行数据访问及爬取了

1 headers = {
2 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
3 }

在有了这些之后,爬虫就可以开始访问网页了

res = requests.get(url,headers=headers)

这里我们使用了requests包中的get函数,请求指定的页面信息,并返回页面主体


4.信息筛选

切回元素页面,我们首先注意到榜单的标题:

DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="keywords" content="酷狗正式版, 歌手,明星,音乐,在线音乐,在线听歌,听歌,新专辑,港台,日本,韩国,欧美,英国" />
<meta name="description" content="提供酷狗音乐酷狗飙升榜展示,让你了解歌曲榜单信息。榜单更新于:2022-06-05" />
<link rel="dns-prefetch" href="//static.kgimg.com/">
<link rel="dns-prefetch" href="//sdn.kugou.com/">
<link rel="dns-prefetch" href="//js.webcollect.kugou.com/">
<title>酷狗飙升榜_排行榜_乐库频道_酷狗网title>
<script data-embed="false" type="text/Javascript" src="https://www.kugou.com/yy/static/js/PCToMoblie.js" >script>
<link href="https://www.kugou.com/yy/static/images/favicon.ico" rel="shortcut icon" />
<link rel="stylesheet" href="https://www.kugou.com/yy/static/css/rankPage.min.css?201505211743" type="text/css">
head>

继续往下看,发现榜单是以无序列表的形式排列的

详细点进去,我们会发现:

<li class=" " title="胡彦斌、张碧晨 - 陪你度过漫长岁月 (Live)" data-index="0">
<span class="pc_temp_btn_check pc_temp_btn_checked" data-index="0">span>
<span class="pc_temp_coverlayer">span>
<span class="pc_temp_num">
<strong>1strong>
span>
<span class="pc_temp_tips_l">
<i class="pc_temp_icon_new" title="新入榜">i>
span>
<a href="https://www.kugou.com/mixsong/6vod7z7e.html"
data-active
="playDwn" data-index="0" class="pc_temp_songname"
title
="胡彦斌、张碧晨 - 陪你度过漫长岁月 (Live)"
hidefocus
="true">
陪你度过漫长岁月 (Live)
<span style="color: #999;"> - 胡彦斌、张碧晨span>
a>
<span class="pc_temp_tips_r">
<a href="Javascript:;" data-active="play" data-index="0" class="pc_temp_btn_listen" title="播放" hidefocus="true">播放a>
<a href="Javascript:;" onclick="_hmt.push(['_trackEvent', 'hidedown', 'hidecilick', 'hidepc']);" data-active="download" data-index="0" class="pc_temp_btn_download" title="下载" hidefocus="true">下载a>
<a href="Javascript:;" data-active="share" data-index="0" class="pc_temp_btn_share" title="分享" hidefocus="true">分享a>
<span class="pc_temp_time">
5:34
span>
span>
li>

每首歌曲的名称位于

class="pc_temp_songname" 
            title="" 
            hidefocus="true">

class="pc_temp_songname" 
            title="胡彦斌、张碧晨 - 陪你度过漫长岁月 (Live)" 
            hidefocus="true">

故针对歌曲名称的爬取,我们采用re包里的findall函数,匹配到相应字符之后返回一个包含所有满足条件字符的列表,关于爬取的数据我还做了一个解码工作,只解码用‘utf-8’编码的数据,防止最后返回的数据是乱码,同时这里还用了r‘’这样的转义字符,就是为了防止一些相关的符号如‘\’被python解释器误认为是换行符,从而使获得的数据有误
故爬取歌曲名称的代码如下:

1 sOng= re.findall(r''' class="pc_temp_songname"
2 title="(.*?)"
3 hidefocus="true"''',res.content.decode(encoding='utf-8'))

  (.?*)分别表示匹配任意1个字符(除了\n);匹配前⼀个字符出现0次或者无限次,即可有可无;匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有。这样一来,HTML标签里的所有可能的字符都包含进去了

每个榜单的名称位于之间


故爬取榜单名称的代码如下:

list_name = re.findall(r'',res.content.decode(encoding='utf-8'))

5. 完整代码及运行结果

1 # 引入爬虫需要的request包和正则表达式包
2 import requests
3 import re
4
5 # 创建列表,将所需要的排行榜对应的网页写入
6 list = [6666,8888,52144,52767,24971,21101,31308,31313,54848,31310,31311,31312,33162,33160,46910,44412,33163,33165,33166]
7
8 # 将列表里的元素循环,使用format格式化输出,还原出每个歌单所对应的网址
9 for i in list:
10 url = f'https://www.kugou.com/yy/rank/home/1-{i}.html?from=rank'
11
12 # 模拟浏览器访问网页
13 headers = {
14 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
15 }
16
17 # 调用request中“get”用法,请求指定的页面信息,并返回实体主体
18 res = requests.get(url,headers=headers)
19
20 sOng= re.findall(r''' class="pc_temp_songname"
21 title="(.*?)"
22 hidefocus="true"''',res.content.decode(encoding='utf-8'))
23 list_name = re.findall(r'',res.content.decode(encoding='utf-8'))
24
25 # 打印最终结果
26 print(list_name)
27 print(url)
28 print(song)

['酷狗飙升榜_排行榜']
https://www.kugou.com/yy/rank/home/1-6666.html?from=rank
['胡彦斌、张碧晨 - 陪你度过漫长岁月 (Live)', '张韶涵、周深 - 一路生花 (Live)', '张靓颖 - 如果爱下去', '张齐山DanieL - 单人券', '陈奕迅 - 陪你度过漫长岁月', 'Taylor Swift - Love Story', '张韶涵、王赫野 - 篇章', 'melo-D - Just Say Hello', '川青 - 生分', '温奕心 - 一路生花', '刘大拿 - 就忘了吧 (DJ版)', '尹昔眠 - 骄傲的你', '大美 - 我是夜里的孤独', '吕大叶、马子林Broma、陈觅Lynne - 篝火旁', 'Zyboy忠宇 - 堕', 'Uri、喵酱油 - 鸳鸯债', '徐佳莹 - 一样的月光', '张茜、半吨兄弟 - 爱似水仙 (合唱版)', '买辣椒也用券 - 起风了', '旺仔小乔 - 樱花树下的约定', '五月天 - 后来的我们 (Life Live)', 'Adam Christopher - So Far Away (Acoustic)']
['酷狗TOP500_排行榜']
https://www.kugou.com/yy/rank/home/1-8888.html?from=rank
['1K - 就忘了吧', 'Zyboy忠宇 - 妈妈的话', '王心凌 - 爱你', 'Zyboy忠宇 - 堕', '蔡健雅 - Letting Go', '海来阿木 - 三生三幸', '周林枫 - 镜中渊', 'Dark、Rain - Xin Đừng Nhấc Máy (Remix)', '阿禹ayy - 耍把戏', '陈奕迅 - 孤勇者', '徐佳莹 - 一样的月光', '于冬然 - 我的眼泪 你的战利品', '刘大拿 - 就忘了吧 (DJ版)', '张韶涵、周深 - 一路生花 (Live)', '温奕心 - 一路生花', '金渔 - 伪善者', '川青 - 生分', '旺仔小乔 - 樱花树下的约定', '鱼多余 - 剑魂 (鱼多余DJ版)', 'Martin Garrix、David Guetta、Jamie Scott、Romy Dya - So Far...', 'Tysm - Normal No More (Explicit)', '五月天 - 后来的我们']
['抖音热歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-52144.html?from=rank
['S.H.E - 你曾是少年', '王心凌 - 爱你', '1K - 就忘了吧 (DJAh版)', '陈娴静、范例三、山姆、桃子A1J、安迪秀、KEYNO - 最美好的时光...', '24KGoldn、iann dior、Lil Ghost小鬼 - Mood (Lil Ghost Remix)...', '秦海清 - 诛心', '大籽 - 白月光与朱砂痣', 'Sam Ock、Sarah Kang - One of a Kind', 'Joji、BENEE - Afterthought', '王忻辰、苏星婕 - 落日与晚风', '尹昔眠 - 落在生命里的光', 'Adam Christopher - So Far Away (Acoustic)', 'Lance - 愉快 轻松 放松', '海来阿木 - 三生三幸', 'Josh Vietti - A Thousand Miles (千山万水)', '弹棉花的小花 - 最美的瞬间 (女版)', 'LBI利比 - 小城夏天', '王心凌 - 彩虹的微笑', '阿梨粤 - 晚风心里吹', '陈奕迅 - 孤勇者', '旅行团乐队 - 悠长假期', '告五人 - 带我去找夜生活']
['快手热歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-52767.html?from=rank
['L(桃籽)、何文宇 - 可有可无的角色', 'L(桃籽)、何文宇 - 羡慕', '漫香、咕咕井 - 千万个我', 'Zyboy忠宇 - 妈妈的话', '来一碗老于 - 天地似无情', '张茜、半吨兄弟 - 爱似水仙 (合唱版)', 'L(桃籽)、周林枫、三楠 - 晚风作酒', '周林枫 - 镜中渊', 'Dark、Rain - Xin Đừng Nhấc Máy (Remix)', '范海荣 - 家乡', '弦子、小乐哥(王唯乐) - 不甘 (Live)', '张韶涵、王赫野 - 篇章', '锤娜丽莎 - 我太笨', 'Martin Garrix、David Guetta、Jamie Scott、Romy Dya - So Far...', '张叶蕾 - 还是分开', '安儿陈 - 曲中人', 'AURORA - Cure For Me', '于冬然 - 从前怕', '王乐蔚 - 孤独的船', '阿禹ayy - 耍把戏', '刘至佳、韩瞳 - 时光背面的我', '孤矢、虞娱 - 月亮之矢']
['DJ热歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-24971.html?from=rank
['1K - 就忘了吧 (DJAh版)', 'Dark、Rain - Xin Đừng Nhấc Máy (Remix)', '鱼多余 - 剑魂 (鱼多余DJ版)', '付豪 - 爱情指南 (DJ伟然版)', '豆包 - 太想念 (DJ阿卓版)', '刘晓超 - 旧梦 (DJ默涵版)', '王优秀 - 想某人 (DJ舞曲版)', '海来阿木 - 三生三幸 (DJ小拳权版)', '豆包 - 作酒 (DJ默涵版)', '白嘉峻、王优秀 - 想某人 (DJ沈念版)', '阿梨粤 - 秒针 (DJ R7版)', '马博 - 小芳呀小芳 (DJ阿卓版)', '王不醒 - 月老掉线 (DJ阿卓版)', 'cici_ - 我看过 (DJ版)', '安儿陈 - 曲中人 (DJ版)', 'Ellie Goulding - Still Falling For You (Laibert Remix)', 'Imagine Dragons、Broiler - Shots (Broiler Remix)', '川青 - 生分 (DJ版)', 'Raven
& Kreyn、RudeLies、Nino Lucarelli - This Far (Rud...', '张禾禾 - 逃之夭夭 (DJheap九天版)', '宋孟君 - 失眠的夜 (DJ版)', '刘大拿 - 就忘了吧 (DJ版)']
['酷狗分享榜_排行榜']
https://www.kugou.com/yy/rank/home/1-21101.html?from=rank
['海来阿木 - 三生三幸', '安儿陈 - 曲中人', '王佳钰 - 六一儿童节', '海来阿木、陈冰 - 三生三幸 (Live)', '川青 - 生分', '陈奕迅 - 孤勇者', '1K - 就忘了吧 (DJAh版)', '阿梨粤 - 晚风心里吹', 'L(桃籽)、周林枫、三楠 - 晚风作酒', '王馨 - 还没有爱够', '豆包 - 太想念', '张瀚元 - I do love you', '张齐山DanieL - 单人券', 'Zyboy忠宇 - 妈妈的话', '申菲 - 曾经的少年不再年少', '黄迎迎、李书伟 - 青山哥哥绿水妹', '李昕融 - 听我说', '大欢 - 这一程', '梅朵 - 总以为来日方长', '张茜、半吨兄弟 - 爱似水仙 (合唱版)', '安静 - 红颜知己', '凌丰 - 三两三']
['内地榜_排行榜']
https://www.kugou.com/yy/rank/home/1-31308.html?from=rank
['摩登兄弟刘宇宁 - 梦华', '弹棉花的小花 - 大眠 (烟嗓版)', '老姜食话 - 走卒', '阿禹ayy - 吾往矣', '张艺兴、尼克·杨、说唱者联盟 - 热爱 (Time To Shine)', '艾辰 - 星愿', '毛不易 - 蔚蓝新生', '张磊 - 半生', '张茜、半吨兄弟 - 爱似水仙 (合唱版)', '弹棉花的小花 - 妈妈的话 (烟嗓版)', '大美 - 我是夜里的孤独', '汪苏泷 - 眼泪落下之前', 'Zyboy忠宇 - 堕', '毛不易、单依纯 - 分分钟需要你 (Live)', '魔动闪霸、炎明熹 - 我钟意 (Live)', '海来阿木 - 三生三幸', '旺仔小乔 - 爱你 (女版)', '张靓颖 - 不惜时光', '花町馆长 - 相思', '海来阿木、陈冰 - 三生三幸 (Live)', '程响 - 可能', '王超然 - 试着断了联系']
['香港地区榜_排行榜']
https://www.kugou.com/yy/rank/home/1-31313.html?from=rank
['林晓峰、刘惜君 - 现代爱情故事 (Live)', '林子祥、叶蒨文 - 敢爱敢做 (Live)', '李克勤、周笔畅 - 红绿灯 (Live)', '张智霖、王源 - 岁月如歌 (Live)', '杨千嬅、李健 - 风起似水流年 (Live)', '王祖蓝、IXFORM-邓孝慈 - 少年郎', 'CoCo李玟、Mike 曾比特 - Monica (Live)', '叶蒨文 - 凭着爱 (Live)', '王祖蓝 - 过洞庭 (Live)', '谭咏麟 - 等你不等你', '林晓峰 - 今生今世 (Live)', '林子祥、叶蒨文、李克勤、林晓峰、杨千嬅、李健、CoCo李玟、周笔...', 'Mike 曾比特 - 初恋 (Live)', '炎明熹 - 蜚蜚 (Live)', 'Mike 曾比特、安崎 - 夏日倾情 (Live)', 'Mike 曾比特 - 梦中人 (Live)', '炎明熹、刘惜君 - 念亲恩 (Live)', '洪嘉豪 - 这天那天某天', '洪嘉豪 - 24/7 恋人', '洪嘉豪 - 救', '洪嘉豪 - 防火门', '洪嘉豪 - 我懂']
['台湾地区榜_排行榜']
https://www.kugou.com/yy/rank/home/1-54848.html?from=rank
['张韶涵、王赫野 - 篇章', '张信哲 - 曾经你说 (Live)', '张韶涵、刘惜君 - 如愿 (Live)', '杨宗纬 - 我想要 (Live)', 'A-Lin - 下雨天 (Live)', '张韶涵、李大奔 - 快乐崇拜2022 (Come On) (Live)', '刘畊宏 - 记得要勇敢', '魏如萱 - 哎呀哎呀', '光良 - 天地吾乡 (普通话版)', 'Tank - 倔强的树', 'Tank、F.I.R.飞儿乐团 - 三国恋2022', '信、NINEONE # - 中文十级听力 (Live)', '詹雯婷 - 人间惊鸿客', '卢广仲、The Black Skirts - DREAM LIKE ME', 'A-Lin - 挚友 (Live)', '张韶涵、张碧晨 - 玫瑰的名字 (Live)', '无糖小洁 - 海与孤屿', '信 - 顽魂', '张韶涵、赵磊 - 高贵与丑 (Live)', '傅如乔 - 在草地上肆意奔跑', '告五人 - 我以为你不会出现', '徐佳莹 - 远距离练习']
['欧美榜_排行榜']
https://www.kugou.com/yy/rank/home/1-31310.html?from=rank
['Why Don&#039;t We - How Do You Love Somebody (Explicit)', 'Josefine Lensebakken、Adele、Samuel Dixon - Love in the Dar...', 'salem ilese - Crypto ₿oy (Explicit)', 'San Holo、Jai Wolf - We Will Meet Again', 'Vanni G - I Say Yeah (DJ秣茴版)', 'Duke
& Jones、Louis Theroux - Jiggle Jiggle', 'Walk Off the Earth、Tyler Shaw、Ross Golan、Sean Douglas、A...', 'Melanie Fontana - Business', 'NEFFEX - Catch Me If I Fall', 'K-391、Victor Crone - Lonely World', '星团音乐、Vas Angelov、Bailey Jehl - Operation Deepness', 'Alexander 23 - The Hardest Part', 'Heleen、BEAUZ - Keep On Dancing', 'Kanye West、XXXTENTACION - True Love', 'The Chainsmokers - I Love U', 'Calvin Harris、Dua Lipa、Young Thug - Potion (Explicit)', 'OneRepublic - I Ain&#039;t Worried', 'Chloe Adams - Seasons', 'Harry Styles - Late Night Talking', 'The Chainsmokers - If You&#039;re Serious', 'Why Don&#039;t We - Just Friends', 'Steven Grove、Adam Gubman - 愚人曲']
['韩国榜_排行榜']
https://www.kugou.com/yy/rank/home/1-31311.html?from=rank
['aespa (에스파) - 怪火 (Illusion)', 'NCT DREAM (엔시티 드림) - Beatbox', 'LE SSERAFIM - FEARLESS', 'SEVENTEEN - HOT', 'NCT DREAM (엔시티 드림) - 最后的告别 (To My First)', '曺柔理 - 러브 쉿! (Love Shhh!)', 'GOT7 - NANANA', 'IVE - LOVE DIVE', 'Jessi - ZOOM', 'NCT DREAM (엔시티 드림) - Sorry, Heart', 'SEVENTEEN - DON QUIXOTE', 'NCT DREAM (엔시티 드림) - 星空 (On the way)', '曺柔理 - Round and Around', 'WINTER、宁艺卓 - ONCE AGAIN', 'SEVENTEEN - Shadow', 'SEVENTEEN - March', '曺柔理 - Rolla Skates', 'SEVENTEEN - 노래해 (&#039;bout you)', 'SEVENTEEN - Domino', '曺柔理 - This Time', 'VICTON - Stupid O&#039;clock', 'SEVENTEEN - Ash']
['日本榜_排行榜']
https://www.kugou.com/yy/rank/home/1-31312.html?from=rank
['LiSA - シフクノトキ (至福时光)', '米津玄師 - M八七', 'YOASOBI - 好きだ (喜欢你)', '花澤香菜 - 君の知らない物語 - from CrosSing', '星野源 - 喜劇', 'キタニタツヤ、はるまきごはん (春卷饭) - 月光', '宮下遊 - キルマー (Cover)', 'DECO*27、初音ミク - 愛言葉Ⅳ (爱的言语 Ⅳ)', 'ギガP、可不 - CH4NGE (feat.可不)', '平井大 - 願いごと (许愿)', '古川慎、小原好美 - My Nonfiction', 'QUEENDOM - チキチキバンバン (TV Ver.)', '米津玄師 - ETA', '『ユイカ』 - 17さいのうた。', '花澤香菜、竹達彩奈、伊藤美来、佐倉綾音、水瀬いのり - 君の笑...', '坂本真綾 - 菫', '花澤香菜、竹達彩奈、伊藤美来、佐倉綾音、水瀬いのり - 五等分...', 'Eve - Yoku', '花澤香菜、竹達彩奈、伊藤美来、佐倉綾音、水瀬いのり - 五等分...', 'マカロニえんぴつ - 星が泳ぐ (游星)', 'ツユ - いつかオトナになれるといいね。 (要是哪天能变成大人就...', 'EIKO starring 96猫、置鮎龍太郎、千葉翔也、久遠七海 starring...']
['ACG新歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-33162.html?from=rank
['双笙 (陈元汐) - 龙吟天下', '梁龙 - 乱世逐鹿', '玄觞 - 枕梦桃源', '曾一鸣 - 修罗', '王晰 - 下潜', '张韶涵、信 - 孤勇者 (Live)', '银临 - 落英', '胡彦斌 - 不负人间', '艾露露Ailurus - Break Free', '詹雯婷 - 人间惊鸿客', '信 - 顽魂', '赖美云、星瞳 - 花宸令', '等什么君(邓寓君) - 舞娘', '郑洛宇 - Start Again', '星野源 - 喜劇', 'Official髭男dism - ミックスナッツ', '硬糖少女303希林娜依·高 - 精英不凡', '李玉刚 - 诛仙忘尘', 'QUEENDOM - チキチキバンバン', 'Adam Gubman - 第■幕', '古川慎、小原好美 - My Nonfiction', '漆柚 - 降临']
['电音热歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-33160.html?from=rank
['Dxrk ダーク - RAVE', 'Martin Garrix、David Guetta、Jamie Scott、Romy Dya - So Far...', 'Kastra - Fool For You', 'James Carter、Nevve - Hands in the Fire (Explicit)', 'Rentz - Alone', 'xxxCr3 - Alone', 'DubVision - Into You (Matvey Emerson Remix)', 'Raven
& Kreyn、RudeLies、Nino Lucarelli - This Far (Rud...', 'Professor Green - In The Shadow Of The Sun', 'Imanbek、BYOR - Belly Dancer', 'Lazer Boomerang - Time to Pretend (伪装时刻)', 'Hoang、DAYE - Not Over You', 'DJ Dark、MENTOL - Say it right (Radio Edit)', 'DJ Pablo - One B-Boy', 'Ash - Melody (旋律)(Original Mix)', 'Mandee、Maria Mathea - Superstar', 'Just Kiddin、Camden Cox - Stay The Night', '来一碗老于 - 天地似无情', 'Craig David - Insomnia', 'Junona Boys - Relax', 'MAGES - Lifestyle (Вся жизнь тусовка) (生活方式)', 'Jori King - Fatal love']
['综艺新歌榜_排行榜']
https://www.kugou.com/yy/rank/home/1-46910.html?from=rank
['林子祥、叶蒨文 - 敢爱敢做 (Live)', '林晓峰、刘惜君 - 现代爱情故事 (Live)', '毛不易、单依纯 - 分分钟需要你 (Live)', '张智霖、王源 - 岁月如歌 (Live)', '李克勤、周笔畅 - 红绿灯 (Live)', '海来阿木、陈冰 - 三生三幸 (Live)', '杨千嬅、李健 - 风起似水流年 (Live)', '张紫宁、白小白 - 欠你的婚礼 (Live)', '张信哲 - 曾经你说 (Live)', '魔动闪霸、炎明熹 - 我钟意 (Live)', '张韶涵、刘惜君 - 如愿 (Live)', '胡彦斌、李巍V仔 - 曾经我也想过一了百了 (Live)', '张韶涵、李大奔 - 快乐崇拜2022 (Come On) (Live)', '叶蒨文 - 凭着爱 (Live)', '萨顶顶 - 雾里 (Live)', '马赛克乐队、安崎 - Cha Cha Cha (Live)', 'CoCo李玟、Mike 曾比特 - Monica (Live)', '房东的猫、孟慧圆 - 凤凰花开的路口 (Live)', '胡海泉、周深 - 情歌 (Live)', '林子祥、叶蒨文、李克勤、林晓峰、杨千嬅、李健、CoCo李玟、周笔...', '张靓颖 - 暗恋 (Live)', '刘惜君、杨默依 - 不可控玩家 (Live)']
['说唱先锋榜_排行榜']
https://www.kugou.com/yy/rank/home/1-44412.html?from=rank
['永彬Ryan.B、丛琳潼elf - 时间胶囊', '张艺兴、尼克·杨、说唱者联盟 - 热爱 (Time To Shine)', 'Tizzy T - 放轻松', 'Tizzy T - 你最好知道', '穆傲寒 - 好烦噢', 'Tizzy T、sis_NoNo洪一诺 - 橘子', 'Tizzy T - 雨不停', '李承铉 - 我爱你就像', '硬糖少女303 - 狂飙', 'h3R3 - 先说谎的人', '艾福杰尼 - 对手戏2000', 'yvngtee羊蹄、忧郁王子、张奶奶 - 阿尔法和贝塔', 'Jason(刘杏华) - 古代史', 'Tizzy T - 匕首', 'Tizzy T - 你', 'B2$、KOALA - 真的没喝多', 'Jay Park、pH-1、李大奔 - 想到你', '梁老师T.Song - 昨夜舞会', 'Youngior - 黑魔法', 'pro - 等不来花开', '余奔YuB、黄乙纳keyna - 跟着我慢慢走', 'coco这个李文 - 智者不入爱河']
['影视金曲榜_排行榜']
https://www.kugou.com/yy/rank/home/1-33163.html?from=rank
['王心凌 - 第一次爱的人【《爱的秘笈》电视剧插曲】', '莫文蔚 - 这世界那么多人【《我要我们在一起》电影主题曲】', '告五人 - 带我去找夜生活【《她们创业的那些事儿》电视剧插曲】', '周杰伦 - 我是如此相信【《天·火》电影主题曲】', '王菲 - 如愿【《我和我的父辈》电影主题曲】', '五月天 - 后来的我们【《美好年代》电视剧片头曲】', '白挺 - 你从未离去【《熊出没之雪岭熊风》电影片尾曲】', 'BEYOND - 海阔天空【《中国合伙人》电影插曲】', 'Tank - 三国恋【《七剑下天山》电视剧主题曲】', 'BEYOND - 灰色轨迹【《天若有情》电影粤语版插曲】', '刘若英 - 后来【《后来的我们》电影插曲】', '张芸京 - 偏爱【《仙剑奇侠传3》电视剧插曲】', '陈慧娴 - 千千阙歌【《猎场》电视剧插曲】', 'BEYOND - 真的爱你【《摆渡人》电影插曲】', '张杰、张碧晨 - 只要平凡【《我不是药神》电影主题曲】', '张碧晨 - 光的方向【《长歌行》电视剧主题曲】', '林子祥 - 敢爱敢做【《神奇两女侠》电影主题曲】', '雷佳 - 人世间【《人世间》电视剧主题曲】', '李克勤 - 护花使者【《西虹市首富》电影插曲】', '王心凌 - 彩虹的微笑【《微笑pasta》电视剧插曲】', '孙燕姿 - 遇见【《向左走,向右走》电影主题曲】', '林俊杰 - 不潮不用花钱【《乌鸦嘴妙女郎》电视剧插曲】']
['粤语金曲榜_排行榜']
https://www.kugou.com/yy/rank/home/1-33165.html?from=rank
['BEYOND - 海阔天空', '陈慧娴 - 千千阙歌', '梦涵 - 爱的暴风雨 (粤语版)(DJ霄霄版)', 'BEYOND - 光辉岁月 (粤语版)', '谭咏麟 - 讲不出再见', 'BEYOND - 真的爱你', '艺涛、梁剑东 - 夜色 (DJ Candy版)', '刘小慧 - 初恋情人', '周慧敏 - 最爱', '街道办GDC、欧阳耀莹 - 春娇与志明', '阿梨粤 - 晚风心里吹 (DJ R7版)', '李克勤 - 月半小夜曲', '周慧敏 - 痴心换情深', '黄静美 - 不再痴情', 'BEYOND - 灰色轨迹', 'BEYOND - 不再犹豫', '谭咏麟 - 一生中最爱', '周华健 - 难念的经', '广东雨神 - 广东爱情故事', '李克勤 - 护花使者', '王菲 - 容易受伤的女人', '张学友 - 只想一生跟你走']
['欧美金曲榜_排行榜']
https://www.kugou.com/yy/rank/home/1-33166.html?from=rank
['Hillsong Young
& Free - Wake (Studio Version)', 'Daniel Powter - Free Loop', 'Tysm - Normal No More (Explicit)', '2Someone - Star Unkind (Lanfranchi & Farina Radio) (Rad...', 'The Kid LAROI、Justin Bieber - STAY (Clean)', 'Lulleaux、Kid Princess - Empty Love', 'Interupt、Luna LePage - Power (In Your Soul)', 'Sia - Unstoppable', 'Martin Garrix、David Guetta、Jamie Scott、Romy Dya - So Far...', 'FrogMonster - Remember Our Summer', 'Wiz Khalifa、Charlie Puth - See You Again', 'Jaymes Young - Infinity', 'Hawk Nelson - Sold Out', 'Professor Green - In The Shadow Of The Sun', 'Imagine Dragons、Broiler - Shots (Broiler Remix)', 'Alan Walker、Iselin Solheim - Faded', 'Taylor Swift - Love Story', 'Sasha Alex Sloan - Dancing With Your Ghost', 'Sia、Alan Walker - Move Your Body (Alan Walker Remix)', 'Vanni G - I Say Yeah (Radio Edit)', 'BeatBrothers - Fight', 'Ava Max - Salt']

三、过程中遇到的困难反思及下一步优化

困难在爬取的过程中暂时没有遇到,不过关于爬取出的数据的整理,我下次会考虑使用Excel表单的形式,这也是我下一步优化的方向。




总结

以上就是关于酷狗音乐榜单的数据爬取,相信我能够从这次的经历中收获不少。同时感谢小组中每一个人的辛勤付出。



推荐阅读
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 延迟注入工具(python)的SQL脚本
    本文介绍了一个延迟注入工具(python)的SQL脚本,包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试,并通过延迟时间来判断注入是否成功。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
  • 文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ... [详细]
  • 最近在学Python,看了不少资料、视频,对爬虫比较感兴趣,爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]
  • 目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]
  • 博主使用代理IP来自于网上免费提供高匿IP的这个网站用到的库frombs4importBeautifulSoupimportrandomimporturllib.re ... [详细]
author-avatar
骑蜗牛找-矿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有