如何用 Python 爬虫抓取亚马逊商城商品价格：零基础教程

原创于 2025-11-20 17:33:48 发布 · 809 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #开发语言

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

在进行电商分析、价格对比、产品研究等工作时，抓取亚马逊商品的价格是一项非常实用的技能。本文将带你从零开始，用 Python 爬虫抓取亚马逊商城的商品价格，并讲解如何用 requests 和 BeautifulSoup 等工具高效实现。

一、准备工作：安装必要的库

首先，确保你已经安装了以下两个 Python 库：

requests：用于向网页发送请求，获取网页数据。
BeautifulSoup：用于解析 HTML 网页，提取我们需要的数据。

安装命令：

pip install requestspip install beautifulsoup4

二、分析亚马逊商品页面

要抓取亚马逊商城商品的价格，我们首先需要了解亚马逊商品页面的 HTML 结构。

打开一个亚马逊商品页面（例如：https://www.amazon.com/dp/B08P2D1P9Q）
右键点击商品价格并选择 "检查" 或 "Inspect"（取决于浏览器）。这样你可以看到商品页面的 HTML 代码。

商品价格通常位于以下标签：

<span
id
=
"priceblock_ourprice"
class
=
"a-size-medium a-color-price priceBlockBuyingPriceString"
> 价格信息 
</
span
>

这段 HTML 代码表明，价格信息存储在 span 标签的 id="priceblock_ourprice" 属性中。接下来，我们可以根据这个信息提取价格。

三、编写爬虫代码

发送请求：用 requests 库发送 GET 请求来获取商品页面的 HTML 内容。
解析 HTML：用 BeautifulSoup 库解析 HTML 并提取价格。

以下是抓取商品价格的完整代码：

import
 requests
from
 bs4 
import
 BeautifulSoup
# 设置你要抓取的商品页面 URL
url = 
"https://www.amazon.com/dp/B08P2D1P9Q"
# 发送请求，获取页面内容
headers = {
"User-Agent"
: 
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)

# 如果请求成功

if
 response.status_code == 
200
:
# 解析网页内容
    soup = BeautifulSoup(response.text, 
"html.parser"
)
# 查找价格信息
    price_tag = soup.find(
id
=
"priceblock_ourprice"
)
if
 price_tag:
        price = price_tag.text.strip()
print
(
f"商品价格：
{price}
")
else
:
print
(
"无法找到价格信息"
)
else
:
print
(
"网页请求失败，状态码："
, response.status_code)

四、解释代码

headers：模拟浏览器发送请求，避免被网站反爬虫机制阻挡。这里使用了常见的 User-Agent，模仿浏览器行为。
response = requests.get(url, headers=headers)：发送请求并获取页面内容。
soup = BeautifulSoup(response.text, "html.parser")：用 BeautifulSoup 解析页面的 HTML 内容。
price_tag = soup.find(id="priceblock_ourprice")：根据商品页面中的价格 id 查找价格标签。
price = price_tag.text.strip()：提取标签中的文本内容，并去掉多余的空白字符。

五、处理可能的反爬虫机制

亚马逊等网站往往会使用一些反爬虫机制，来限制自动化工具的访问。常见的反爬虫措施包括：

IP 封禁：频繁访问同一个网站可能会导致你的 IP 被封。
验证码：请求时可能要求你输入验证码验证是否为人类。
动态加载数据：某些网页内容是通过 JavaScript 动态加载的，普通的爬虫可能无法直接获取。

为了解决这些问题，你可以：

使用代理池：通过代理池来频繁更换 IP 地址，避免 IP 被封。
设置延迟：控制爬虫访问的频率，不要频繁请求同一页面，模拟人类浏览行为。
使用 Selenium：对于动态加载内容的网站，使用 Selenium 来模拟浏览器，抓取网页。

六、爬取多个商品价格

如果你想抓取多个商品的价格，可以将商品的 URL 放在一个列表中，循环遍历每个链接来获取价格。以下是示例代码：

# 商品链接列表
urls = [
"https://www.amazon.com/dp/B08P2D1P9Q"
,
"https://www.amazon.com/dp/B07N6X2XG2"
,
"https://www.amazon.com/dp/B08PDZG9Z7"
]
# 遍历所有链接，抓取价格
for
 url 
in
 urls:
    response = requests.get(url, headers=headers)
if
 response.status_code == 
200
:
        soup = BeautifulSoup(response.text, 
"html.parser"
)
        price_tag = soup.find(
id
=
"priceblock_ourprice"
)
if
 price_tag:
            price = price_tag.text.strip()
print
(
f"商品价格：
{price}
")
else
:
print
(
"无法找到价格信息"
)
else
:
print
(
f"网页请求失败，状态码：
{response.status_code}
 - URL：
{url}
")

七、数据存储

抓取的数据可以保存为 CSV 文件，便于后续分析或处理。以下是将价格数据保存到 CSV 文件的示例：

import
 csv
# 打开文件进行写入
with
open
(
'amazon_prices.csv'
, mode=
'w'
, newline=
''
, encoding=
'utf-8'
) 
as
 file:
    writer = csv.writer(file)
# 写入表头
    writer.writerow([
"商品链接"
, 
"商品价格"
])
# 遍历商品链接并写入价格
for
 url 
in
 urls:
        response = requests.get(url, headers=headers)
if
 response.status_code == 
200
:
            soup = BeautifulSoup(response.text, 
"html.parser"
)
            price_tag = soup.find(
id
=
"priceblock_ourprice"
)
if
 price_tag:
                price = price_tag.text.strip()
                writer.writerow([url, price])
else
:
                writer.writerow([url, 
"无法找到价格"
])
else
:
            writer.writerow([url, 
"请求失败"
])

这样，你就能将多个商品的价格抓取下来并保存在 CSV 文件中，方便后续分析。