当前位置: 开发笔记 > 编程语言 > 正文

今日头条抓取街拍图片数据集

作者：xao | 来源：互联网 | 2022-12-15 13:35

spider1：抓取街拍页面的所有入口链接：1.数据查看到，街拍页面需要的数据集都在data这个集合中，而data是整个数据集字典的一个键，data这个键又包括了一个list，list中是一

spider1：抓取街拍页面的所有入口链接：

1.数据查看到，街拍页面需要的数据集都在data这个集合中，而data是整个数据集字典的一个键，data这个键又包括了一个list，list中是一个个字典。

2. list中包括了是图集的，以及是单个图片显示内容的。

3. 对比list中的数据集，可以发现，单个图片显示内容的是有：single_mode这个键

4.同时查看data的数据集：可以看到键‘url’或‘article_url’所对应的值，是我们需要的url入口链接，这边要注意是否有url这个键

5.爬下来的网址发现有一类多余的，要剔除类似：https开头的，news的，即如果没有group在url里面的都要剔除，这是跑了到offset=180的结果

# 爬取今日头条街拍的数据。
import json

import os
from hashlib import md5

import pymongo
from bs4 import BeautifulSoup
import requests
import re
from urllib.parse import urlencode
from requests.exceptions import RequestException
from config import *  # 将config中的对象全部引入
from multiprocessing import Pool  # 开启进程池

client = pymongo.MongoClient(MONGO_URL, 27017)
db = client[MONGO_DB]
# spider1：负责抓取，街拍的的所有链接入口
def get_all_url(offset, keyword):
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': 20,
        'cur_tab': 1,
        'from': 'search_tab'  # some are gallery
    }  # 请求的字符串参数  query string paramenter
    # 对网页进行响应请求：
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)  # 对data参数进行网络编码
    all_url = []
    try:
        respOnse= requests.get(url)
        if response.status_code == 200:  # 即能够正常请求网络，我们就对网络url进行抓取
            #print(response.text)  # 看一下数据:可以看到数据：\u7687\u57ce类似这种json数据
            respOnse= json.loads(response.text)  # 将其转化为json对象。
          #  print(response)  # 可以看到数据比较正常，此时里面有我们需要抓取的数据。用BeatifulSoup去解析了一下，发现，json对象不能用它解析
            if response and 'data' in response.keys():
                for data in response['data']:  # data 只是response的一个键。
                    if 'single_mode' not in data.keys() and 'article_url' in data.keys():
                      #  all_url.append(data['url'])  # 这个key使用，但是用生成器，貌似会更好，如果需要储存在mongodb中，这个也不错
                      #  print(data.get('url'))  现在返回没有什么问题了
                        yield data.get('article_url')  # 向外面提供url去爬取
    except RequestException as f:
        print('请求页面失败！')


def url_washing(offset):
    '''
    负责url的清洗工作，最后得到的是需要的url，有用的数据。
    '''
    url = []
    # offset = [x for x in range(Group_start, Group_end, 20)]  # url也是一个迭代器
    for i in offset:
        for j in get_all_url(i, '街拍'):
            if 'group' in j:
                url.append(j)
                #print(j)
    return url


# spider2: 爬取详情页的详细信息
def get_detail(url):
    '''
    url:每一个详情页的url
    :return: 详情页的标题，以及图片网址，一个详情页，图片网址不止一个
    '''
    try:
        respOnse= requests.get(url)
        if response.status_code == 200:  # 即能够正常请求网络，我们就对网络url进行抓取
            soup = BeautifulSoup(response.text, 'lxml')
            title = soup.select('title')[0].get_text()
            images_pattern = re.compile('gallery: JSON.parse\\((.*?)\\)', re.S)
            images = re.search(images_pattern, response.text)
            images = json.loads(images.group(1))  # json.loads 不能转换单引号数据类型,json对象。
            image_url = re.findall('\\"(http.*?)\\"', images)
            image_url1 = []
            for i in image_url:
                image_url1.append(i.replace('\\',''))
            data = {
                'title': title,
                'url': url,
                'image_url': image_url1
            }
            return data  # 每一个详情页的数据
    except RequestException as f:
        print('请求详情页失败！')


def download_image(image_url):
    '''
    :param image_url: 每一个详情页图片的网址
    :return: 将网址中的图片下载到本地
    '''
    try:
        respOnse= requests.get(image_url)
        if response.status_code == 200:  # 即能够正常请求网络，我们就对网络url进行抓取
            sava_image(response.content) # content 是获取图片，视频的二进制内容
    except RequestException as f:
        print('请求图片失败！')

def sava_image(content):

    file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(), 'jpg')
    if not os.path.exists(file_path):
        with open(file_path, 'wb') as f:
            f.write(content)
            f.close()

def sava_to_mongo(data):
    if db[MONGO_TABLE].update(data, data, upsert=True):  # 更新数据库比较好，后面有是否插入的参数
        print('储存到MongoDB成功！', data)
        return True
    return False


def main(offset): # 定义一个主函数，操作所以函数
    # offset = [x for x in range(Group_start, Group_end, 20)]
    url = url_washing(offset)
    for i in url:
        data = get_detail(i)
        sava_to_mongo(data)
        # for url in data['image_url']:
        #     print('正在下载图片',url)
        #     download_image(url)



if __name__ == '__main__':
    group = [x * 20 for x in range(Group_start, Group_end + 1)]  # [x for x in range(Group_start, Group_end, 20)]
    main(group)
    # pool = Pool()
    # pool.map(main, group)  # apply_async(main)
    # pool.close()
    # pool.join()

推荐阅读

require
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
format
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
format
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
go
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
const
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
const
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
process
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
go
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
go
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
go
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
datetime
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
random
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
random
如何在HTML中获取鼠标的当前位置

本文介绍了在HTML中获取鼠标当前位置的三种方法，分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ... [详细]

蜡笔小新 2023-12-11 13:04:00
random
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
go
利用Visual Basic开发SAP接口程序初探的方法与原理

本文介绍了利用Visual Basic开发SAP接口程序的方法与原理，以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图，在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型，并强调本文主要不讨论SAP R/3函数的开发，而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]

蜡笔小新 2023-12-13 10:56:31

xao

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章