当前位置: 开发笔记 > 编程语言 > 正文

用Python获取Amazon亚马逊的商品信息

作者：红烧大青虫 | 来源：互联网 | 2023-05-17 20:51

亚马逊网站相较于国内的购物网站，可以直接使用python的最基本的requests进行请求。访问不是过于频繁，在未触发保护机制的情况下，可以获取我们想要的数据。本次通过以下三部分简单介绍下基本爬取流程。

引言

亚马逊网站相较于国内的购物网站，可以直接使用python的最基本的requests进行请求。访问不是过于频繁，在未触发保护机制的情况下，可以获取我们想要的数据。本次通过以下三部分简单介绍下基本爬取流程：

使用requests的get请求，获取亚马逊列表和详情页的页面内容
使用css/xpath对获取的内容进行解析，取得关键数据
动态IP的作用及其使用方法

一、获取亚马逊列表页的信息

以游戏区为例：

程序员必备接口测试调试工具：立即使用
Apipost = Postman + Swagger + Mock + Jmeter
Api设计、调试、文档、自动化测试工具
后端、前端、测试，同时在线协作，内容实时同步

获取列表内能获取到的商品信息，如商品名，详情链接，进一步获取其他内容。

用requests.get()获取网页内容，设置好header，利用xpath选择器选取相关标签的内容：

import requests  
from parsel import Selector  
from urllib.parse import urljoin  
   
spiderurl = &＃39;https://www.amazon.com/s?i=videogames-intl-ship&＃39;  
headers = {  
    "authority": "www.amazon.com",  
    "user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Mobile/14G60 MicroMessenger/6.5.19 NetType/4G Language/zh_TW",  
}  
resp = requests.get(spiderurl, headers=headers)  
cOntent= resp.content.decode(&＃39;utf-8&＃39;)  
select = Selector(text=content)  
nodes = select.xpath("//a[@title=&＃39;product-detail&＃39;]")  
for node in nodes:  
    itemUrl = node.xpath("./@href").extract_first()  
    itemName = node.xpath("./div/h2/span/text()").extract_first()  
    if itemUrl and itemName:  
        itemUrl = urljoin(spiderurl,itemUrl)#用urljoin方法凑完整链接  
        print(itemUrl,itemName)

此时已经获取的当前列表页目前能获得的信息：

二、获取详情页信息

进入详情页：

进入详情页之后，能获得更多的内容

用requests.get()获取网页内容，css选取相关标签的内容：

res = requests.get(itemUrl, headers=headers)  
cOntent= res.content.decode(&＃39;utf-8&＃39;)  
Select = Selector(text=content)  
itemPic = Select.css(&＃39;#main-image::attr(src)&＃39;).extract_first()  
itemPrice = Select.css(&＃39;.a-offscreen::text&＃39;).extract_first()  
itemInfo = Select.css(&＃39;#feature-bullets&＃39;).extract_first()  
data = {}  
data[&＃39;itemUrl&＃39;] = itemUrl  
data[&＃39;itemName&＃39;] = itemName  
data[&＃39;itemPic&＃39;] = itemPic  
data[&＃39;itemPrice&＃39;] = itemPrice  
data[&＃39;itemInfo&＃39;] = itemInfo  
print(data)

此时已经生成详情页数据的信息：

目前涉及到的就是最基本的requests请求亚马逊并用css/xpath获取相应的信息。

三、代理设置

目前，国内访问亚马逊会很不稳定，我这边大概率会出现连接不上的情况。如果真的需要去爬取亚马逊的信息，最好使用一些稳定的代理，我这边自己使用的是ipidea的代理，可以白嫖500M流量。如果有代理的话访问的成功率会高，速度也会快一点。

网址在这里：http://www.ipidea.net/?utm-source=PHP&utm-keyword=?PHP

代理使用有两种方式，一是通过api获取IP地址，还有用账密的方式使用，方法如下：

3.1.1 api获取代理

3.1.2 api获取ip代码

def getProxies():  
    # 获取且仅获取一个ip  
    api_url = &＃39;生成的api链接&＃39;  
    res = requests.get(api_url, timeout=5)  
    try:  
        if res.status_code == 200:  
            api_data = res.json()[&＃39;data&＃39;][0]  
            proxies = {  
                &＃39;http&＃39;: &＃39;http://{}:{}&＃39;.format(api_data[&＃39;ip&＃39;], api_data[&＃39;port&＃39;]),  
                &＃39;https&＃39;: &＃39;http://{}:{}&＃39;.format(api_data[&＃39;ip&＃39;], api_data[&＃39;port&＃39;]),  
            }  
            print(proxies)  
            return proxies  
        else:  
            print(&＃39;获取失败&＃39;)  
    except:  
        print(&＃39;获取失败&＃39;)

3.2.1 账密获取代理（注册地址：http://www.ipidea.net/?utm-source=PHP&utm-keyword=?PHP ）

因为是账密验证，所以需要去到账户中心填写信息创建子账户：

创建好子账户之后，根据账号和密码获取链接：

3.2.2 账密获取代理代码

# 获取账密ip  
def getAccountIp():  
    # 测试完成后返回代理proxy  
    mainUrl = &＃39;https://api.myip.la/en?json&＃39;  
    headers = {  
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",  
        "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Mobile/14G60 MicroMessenger/6.5.19 NetType/4G Language/zh_TW",  
    }  
    entry = &＃39;http://{}-zone-custom{}:proxy.ipidea.io:2334&＃39;.format("帐号", "密码")  
    proxy = {  
        &＃39;http&＃39;: entry,  
        &＃39;https&＃39;: entry,  
    }  
    try:  
        res = requests.get(mainUrl, headers=headers, proxies=proxy, timeout=10)  
        if res.status_code == 200:  
            return proxy  
    except Exception as e:  
        print("访问失败", e)  
        pass

使用代理之后，亚马逊商品信息的获取改善了不少，之前代码会报各种连接失败的错误，在requests请求之前调用代理获取的方法，方法return回代理ip并加入requests请求参数，就可以实现代理请求了。

四、全部代码

# coding=utf-8  
   
import requests  
from parsel import Selector  
from urllib.parse import urljoin  
   
def getProxies():  
    # 获取且仅获取一个ip  
    api_url = &＃39;生成的api链接&＃39;  
    res = requests.get(api_url, timeout=5)  
    try:  
        if res.status_code == 200:  
            api_data = res.json()[&＃39;data&＃39;][0]  
            proxies = {  
                &＃39;http&＃39;: &＃39;http://{}:{}&＃39;.format(api_data[&＃39;ip&＃39;], api_data[&＃39;port&＃39;]),  
                &＃39;https&＃39;: &＃39;http://{}:{}&＃39;.format(api_data[&＃39;ip&＃39;], api_data[&＃39;port&＃39;]),  
            }  
            print(proxies)  
            return proxies  
        else:  
            print(&＃39;获取失败&＃39;)  
    except:  
        print(&＃39;获取失败&＃39;)  
   
spiderurl = &＃39;https://www.amazon.com/s?i=videogames-intl-ship&＃39;  
headers = {  
    "authority": "www.amazon.com",  
    "user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Mobile/14G60 MicroMessenger/6.5.19 NetType/4G Language/zh_TW",  
}  
proxies = getProxies()  
resp = requests.get(spiderurl, headers=headers, proxies=proxies)  
cOntent= resp.content.decode(&＃39;utf-8&＃39;)  
select = Selector(text=content)  
nodes = select.xpath("//a[@title=&＃39;product-detail&＃39;]")  
for node in nodes:  
    itemUrl = node.xpath("./@href").extract_first()  
    itemName = node.xpath("./div/h2/span/text()").extract_first()  
    if itemUrl and itemName:  
        itemUrl = urljoin(spiderurl,itemUrl)  
        proxies = getProxies()  
        res = requests.get(itemUrl, headers=headers, proxies=proxies)  
        cOntent= res.content.decode(&＃39;utf-8&＃39;)  
        Select = Selector(text=content)  
        itemPic = Select.css(&＃39;#main-image::attr(src)&＃39;).extract_first()  
        itemPrice = Select.css(&＃39;.a-offscreen::text&＃39;).extract_first()  
        itemInfo = Select.css(&＃39;#feature-bullets&＃39;).extract_first()  
        data = {}  
        data[&＃39;itemUrl&＃39;] = itemUrl  
        data[&＃39;itemName&＃39;] = itemName  
        data[&＃39;itemPic&＃39;] = itemPic  
        data[&＃39;itemPrice&＃39;] = itemPrice  
        data[&＃39;itemInfo&＃39;] = itemInfo  
        print(data)

通过上面的步骤，可以实现最基础的亚马逊的信息获取。

目前只获得最基本的数据，若想获得更多也可以自行修改xpath/css选择器去拿到你想要的内容。而且稳定的动态IP能是你进行请求的时候少一点等待的时间，无论是编写中的测试还是小批量的爬取，都能提升工作的效率。以上就是全部的内容。

以上就是用Python获取Amazon亚马逊的商品信息的详细内容，更多请关注其它相关文章！

推荐阅读

postman
Oracle RAC数据库实例启动异常问题分析IPC Send timeout

近期，某用户在重启RAC一个节点的数据库实例时，发现启动速度非常慢。同时业务部门反馈连接RAC存活节点的业务也受影响。通过对日志的分析， ... [详细]

蜡笔小新 2023-10-17 20:40:38
get
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
get
【openwrt】设备mt7628关于wan侧eth0.1 mac地址固定的问题

本文讨论了在openwrt-17.01版本中，mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下，而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等，生成后的mac地址会保存在/etc/config/network下。 ... [详细]

蜡笔小新 2023-12-12 17:47:48
text
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
dll
深入解析Linux下的I/O多路转接epoll技术

本文深入解析了Linux下的I/O多路转接epoll技术，介绍了select和poll函数的问题，以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法，包括epoll_create和epoll_ctl两个系统调用。 ... [详细]

蜡笔小新 2023-12-10 14:18:30
get
[翻译]PyCairo指南裁剪和masking

裁剪和masking在PyCairo指南的这个部分，我么将讨论裁剪和masking操作。裁剪裁剪就是将图形的绘制限定在一定的区域内。这样做有一些效率的因素࿰ ... [详细]

蜡笔小新 2023-10-17 17:18:21
uri
504 Gateway Timeout的解决方法

1、etcnginxconf.ddefault.conf，添加如下信息：location{try_files$uri$urirouter;rootho ... [详细]

蜡笔小新 2023-10-17 17:14:08
get
Linux之进程数和句柄数：linux句柄数含义

本文主要介绍关于linux文件描述符设置,centos7设置文件句柄数,centos7查看进程数的知识点，对【Linux之进程数和句柄数】和【linux句柄数含义】有兴趣的朋友可以看下由【东城绝神】投 ... [详细]

蜡笔小新 2023-10-17 14:36:29
get
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
get
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
get
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
get
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
copy
Ansibleplaybook roles安装redis实例(学习笔记二十九)

1、相关redis参数：2、templatesredis.conf配置相关参数：daemonizeyespidfilevarrunredis_{{red ... [详细]

蜡笔小新 2023-10-17 15:59:52
text
html和js代码互转,html转html5

本文目录一览：1、html网页跳转javascript代码实现 ... [详细]

蜡笔小新 2023-10-17 15:04:31
get
python2个子线程等待_python并发编程之多线程2死锁与递归锁，信号量等...

一、死锁现象与递归锁进程也是有死锁的所谓死锁：是指两个或两个以上的进程或线程在执行过程中，因争夺资源而造成的一种互相等待的现象，若无外力作 ... [详细]

蜡笔小新 2023-10-17 14:12:31

红烧大青虫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章