亚马逊类目 Top 100 数据采集实战指南 2026:反爬突破 + 完整 Python 工程方案

该文章已生成可运行项目,

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

在这里插入图片描述

前言

亚马逊 Best Sellers 页面是公开可访问的,但稳定批量地做亚马逊类目 Top 100 数据采集,在工程层面比大多数人预想的复杂得多。本文从技术角度系统拆解采集难点,给出完整可运行的 Python 工程方案,并对比主流方案在实际生产环境中的表现差异。

适读人群:有 Python 基础、需要构建亚马逊数据采集管道的工程师或数据分析师。


目录

  1. 亚马逊类目榜单数据的结构与字段
  2. 反爬机制深度分析
  3. 主流采集方案对比(含性能测试数据)
  4. 基于 Pangolinfo API 的完整工程实现
  5. 数据库设计与存储方案
  6. 自动化调度与监控
  7. 常见问题与解决方案

1. 亚马逊类目榜单数据结构

亚马逊 Best Sellers 页面(/zgbs/ 路径)的 DOM 结构分为两层:

  • 外层容器#zg-ordered-list,包含 100 个商品卡片
  • 商品卡片li.zg-item-immersion,每个卡片包含排名、ASIN(从商品链接提取)、标题、图片、价格、评分、评论数等

关键字段提取路径(以当前页面结构为参考,可能随亚马逊更新而变化):

# 典型字段提取(仅供原理说明,实际生产中建议使用 API 方案)
rank = card.select_one('.zg-bdg-text').text.strip('#')
title = card.select_one('.p13n-sc-truncated').get('title', '')
asin = card.select_one('a.a-link-normal')['href'].split('/dp/')[1].split('/')[0]
price = card.select_one('.p13n-sc-price').text if card.select_one('.p13n-sc-price') else None
rating = card.select_one('i.a-icon-star span').text.split()[0] if card.select_one('i.a-icon-star') else None

⚠️ 注意:以上选择器是 2024 年的参考结构,亚马逊 2024 年全年至少更新了 11 次 Best Sellers 页面结构,3 次导致选择器完全失效。在生产环境中硬编码选择器风险极高。

在这里插入图片描述


2. 反爬机制深度分析

2.1 四层防御体系

Layer 1: IP 频率限制
  ├── 阈值:约 30 次/分钟/IP(非官方,通过测试推断)
  ├── 响应:返回空白页 / 重定向至首页
  └── 绕过:代理池轮换 + 请求间隔控制

Layer 2: TLS 指纹检测
  ├── 检测项:TLS 版本、密码套件顺序、扩展字段
  ├── Python requests 默认指纹与 Chrome 差异明显
  └── 绕过:使用 curl-cffi 或 tls-client 库模拟浏览器 TLS

Layer 3: 行为特征分析
  ├── Cookie 链路连续性(是否有完整的会话历史)
  ├── 请求间隔规律性(机器人请求间隔往往过于均匀)
  └── 绕过:随机化请求间隔 + 完整 Cookie 管理

Layer 4: 动态 CAPTCHA 注入
  ├── 触发条件:综合评分超阈值后注入 reCAPTCHA
  ├── 普通代理池触发率:60-80%(高频场景)
  └── 无完美绕过方案(第三方 CAPTCHA 服务成本高且不稳定)

2.2 TLS 指纹绕过示例

# 使用 curl-cffi 模拟真实浏览器 TLS 指纹
from curl_cffi import requests as cffi_requests

session = cffi_requests.Session(impersonate="chrome110")
response = session.get(
    "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/",
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Encoding": "gzip, deflate, br",
    }
)

局限性:即使解决了 TLS 指纹问题,Layer 3 和 Layer 4 的对抗依然存在,且亚马逊会持续更新检测规则。


3. 主流方案性能对比

维度自建爬虫Selenium/PlaywrightSaaS 工具 APIPangolinfo Scrape API
初始集成时间3–5 天2–3 天1–2 天30 分钟
维护成本/月高($3,000+ 工程师时间)极低
CAPTCHA 处理无内置方案部分缓解N/A内置
页面结构变更适应手动修复(6–48h 中断)手动修复服务商负责自动(2–4h)
数据时效性实时(若不被封)实时(若不被封)24–72h 延迟实时(5–15s)
月成本(200 类目/日)$18,500+$25,000+$279+$120–300
A/B 测试页面处理N/A
Customer Says 字段不稳定不稳定通常无
SP 广告位采集率60–70%65–75%N/A98%

4. 基于 Pangolinfo API 的完整工程实现

4.1 环境配置

pip install requests pandas schedule loguru sqlite3

4.2 核心采集模块

"""
amazon_top100_collector.py
基于 Pangolinfo Scrape API 的亚马逊类目 Top 100 采集模块
"""

import requests
import json
import time
import random
from datetime import datetime
from typing import Optional
from loguru import logger
from concurrent.futures import ThreadPoolExecutor, as_completed

class AmazonTop100Collector:
    """亚马逊类目 Top 100 数据采集器"""
    
    API_ENDPOINT = "https://api.pangolinfo.com/scrape"
    
    def __init__(self, api_key: str, max_workers: int = 5):
        self.api_key = api_key
        self.max_workers = max_workers
        self.session = requests.Session()
        self.session.headers.update({
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        })
        logger.info(f"AmazonTop100Collector initialized | max_workers={max_workers}")
    
    def fetch_category(
        self, 
        category_url: str,
        marketplace: str = "US",
        output_format: str = "json",
        retry_times: int = 3
    ) -> Optional[dict]:
        """
        采集单个类目的 Top 100 数据
        
        Args:
            category_url: 亚马逊类目 Best Sellers URL
            marketplace: 站点代码 (US/UK/DE/JP/CA/FR/IT/ES)
            output_format: 输出格式 (json/markdown/html)
            retry_times: 失败重试次数
        
        Returns:
            包含 products 列表的字典,每个商品包含完整字段
        """
        payload = {
            "url": category_url,
            "marketplace": marketplace,
            "output_format": output_format,
            "parse_template": "amazon_bestsellers",
            "include_fields": [
                "rank", "asin", "title", "price", "original_price",
                "rating", "review_count", "brand", "is_prime",
                "badge", "fulfillment_type", "variant_count",
                "subcategory_path", "image_url", "customer_says",
                "sp_ad_position"
            ]
        }
        
        for attempt in range(retry_times):
            try:
                resp = self.session.post(
                    self.API_ENDPOINT,
                    json=payload,
                    timeout=30
                )
                resp.raise_for_status()
                data = resp.json()
                
                # 注入元数据
                ts = datetime.utcnow().isoformat()
                for item in data.get("products", []):
                    item["_scraped_at"] = ts
                    item["_category_url"] = category_url
                    item["_marketplace"] = marketplace
                
                product_count = len(data.get("products", []))
                logger.success(f"[{marketplace}] {category_url}{product_count} products")
                return data
                
            except requests.exceptions.Timeout:
                logger.warning(f"Attempt {attempt+1}/{retry_times} timeout: {category_url}")
            except requests.exceptions.HTTPError as e:
                logger.error(f"HTTP {e.response.status_code}: {category_url}")
                if e.response.status_code in (401, 403):
                    break  # API key 问题,不重试
            except Exception as e:
                logger.error(f"Unexpected error: {e}")
            
            if attempt < retry_times - 1:
                wait = (attempt + 1) * 2 + random.uniform(0, 1)
                time.sleep(wait)
        
        return None
    
    def fetch_multiple_categories(
        self,
        category_configs: list[dict]
    ) -> list[dict]:
        """
        并发采集多个类目
        
        Args:
            category_configs: 类目配置列表
            格式: [{"url": "...", "marketplace": "US"}, ...]
        
        Returns:
            所有商品数据的扁平列表
        """
        all_products = []
        failed_categories = []
        
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            future_map = {
                executor.submit(
                    self.fetch_category,
                    config["url"],
                    config.get("marketplace", "US")
                ): config
                for config in category_configs
            }
            
            for future in as_completed(future_map):
                config = future_map[future]
                try:
                    result = future.result()
                    if result and result.get("products"):
                        all_products.extend(result["products"])
                    else:
                        failed_categories.append(config["url"])
                except Exception as e:
                    logger.error(f"Future error for {config['url']}: {e}")
                    failed_categories.append(config["url"])
        
        if failed_categories:
            logger.warning(f"{len(failed_categories)} categories failed: {failed_categories}")
        
        logger.info(f"Total collected: {len(all_products)} products across "
                   f"{len(category_configs) - len(failed_categories)} categories")
        return all_products

4.3 数据持久化模块

"""
storage.py
数据存储模块 - SQLite(可扩展至 PostgreSQL / BigQuery)
"""

import sqlite3
import pandas as pd
from pathlib import Path
from loguru import logger

class Top100Storage:
    
    CREATE_TABLE_SQL = """
        CREATE TABLE IF NOT EXISTS amazon_top100 (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            scraped_at TEXT NOT NULL,
            marketplace TEXT NOT NULL,
            category_url TEXT NOT NULL,
            rank INTEGER NOT NULL,
            asin TEXT NOT NULL,
            title TEXT,
            price REAL,
            original_price REAL,
            rating REAL,
            review_count INTEGER,
            brand TEXT,
            is_prime INTEGER DEFAULT 0,
            badge TEXT,
            fulfillment_type TEXT,
            variant_count INTEGER,
            subcategory_path TEXT,
            image_url TEXT,
            customer_says TEXT,
            sp_ad_position INTEGER,
            UNIQUE(scraped_at, asin, category_url, rank)
        )
    """
    
    CREATE_INDEX_SQLS = [
        "CREATE INDEX IF NOT EXISTS idx_asin ON amazon_top100(asin)",
        "CREATE INDEX IF NOT EXISTS idx_scraped_at ON amazon_top100(scraped_at)",
        "CREATE INDEX IF NOT EXISTS idx_category ON amazon_top100(category_url)",
        "CREATE INDEX IF NOT EXISTS idx_marketplace ON amazon_top100(marketplace)",
        "CREATE INDEX IF NOT EXISTS idx_rank ON amazon_top100(rank)",
    ]
    
    def __init__(self, db_path: str = "amazon_top100.db"):
        self.db_path = db_path
        self._init_db()
    
    def _init_db(self):
        with sqlite3.connect(self.db_path) as conn:
            conn.execute(self.CREATE_TABLE_SQL)
            for idx_sql in self.CREATE_INDEX_SQLS:
                conn.execute(idx_sql)
            conn.commit()
        logger.info(f"Database initialized: {self.db_path}")
    
    def upsert_products(self, products: list[dict]) -> int:
        """批量写入商品数据,重复记录自动跳过"""
        saved = 0
        with sqlite3.connect(self.db_path) as conn:
            for p in products:
                try:
                    conn.execute("""
                        INSERT OR IGNORE INTO amazon_top100
                        (scraped_at, marketplace, category_url, rank, asin, title,
                         price, original_price, rating, review_count, brand, is_prime,
                         badge, fulfillment_type, variant_count, subcategory_path,
                         image_url, customer_says, sp_ad_position)
                        VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)
                    """, (
                        p.get("_scraped_at"), p.get("_marketplace"),
                        p.get("_category_url"), p.get("rank"), p.get("asin"),
                        p.get("title"), p.get("price"), p.get("original_price"),
                        p.get("rating"), p.get("review_count"), p.get("brand"),
                        1 if p.get("is_prime") else 0, p.get("badge"),
                        p.get("fulfillment_type"), p.get("variant_count"),
                        p.get("subcategory_path"), p.get("image_url"),
                        p.get("customer_says"), p.get("sp_ad_position")
                    ))
                    saved += 1
                except Exception as e:
                    logger.error(f"Insert error for ASIN {p.get('asin')}: {e}")
            conn.commit()
        logger.info(f"Saved {saved}/{len(products)} records to DB")
        return saved
    
    def get_rank_changes(self, days: int = 7, min_improvement: int = 10) -> pd.DataFrame:
        """分析排名变化,识别快速上升商品"""
        query = f"""
            SELECT 
                asin, title, brand,
                category_url,
                MAX(rank) as rank_start,
                MIN(rank) as rank_best,
                MAX(rank) - MIN(rank) as rank_improvement,
                AVG(price) as avg_price,
                MAX(review_count) as max_reviews
            FROM amazon_top100
            WHERE scraped_at >= datetime('now', '-{days} days')
            GROUP BY asin, category_url
            HAVING rank_improvement >= {min_improvement}
            ORDER BY rank_improvement DESC
        """
        with sqlite3.connect(self.db_path) as conn:
            return pd.read_sql_query(query, conn)

4.4 主程序入口

"""
main.py
亚马逊类目 Top 100 数据采集主程序
"""

import schedule
import time
from loguru import logger
from collector import AmazonTop100Collector
from storage import Top100Storage

# 配置
API_KEY = "your_pangolinfo_api_key"  # https://tool.pangolinfo.com 获取

CATEGORIES = [
    {"url": "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/", "marketplace": "US"},
    {"url": "https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/kitchen/", "marketplace": "US"},
    {"url": "https://www.amazon.com/Best-Sellers-Sports-Outdoors/zgbs/sporting-goods/", "marketplace": "US"},
    {"url": "https://www.amazon.com/Best-Sellers-Toys-Games/zgbs/toys-and-games/", "marketplace": "US"},
    {"url": "https://www.amazon.com/Best-Sellers-Beauty/zgbs/beauty/", "marketplace": "US"},
    {"url": "https://www.amazon.co.uk/Best-Sellers-Electronics/zgbs/electronics/", "marketplace": "UK"},
    # 按需扩展至数百个类目
]

collector = AmazonTop100Collector(api_key=API_KEY, max_workers=5)
storage = Top100Storage(db_path="amazon_top100.db")

def run_collection():
    logger.info("=== Starting collection job ===")
    products = collector.fetch_multiple_categories(CATEGORIES)
    storage.upsert_products(products)
    
    # 分析排名变化
    changes = storage.get_rank_changes(days=7, min_improvement=15)
    if not changes.empty:
        logger.info(f"\n=== Top Rising Products (7d) ===\n{changes.head(10).to_string()}")

# 每 8 小时采集一次
schedule.every(8).hours.do(run_collection)

if __name__ == "__main__":
    run_collection()  # 立即执行一次
    while True:
        schedule.run_pending()
        time.sleep(60)

5. 常见问题与解决方案

Q: API 返回 429 错误怎么办?

A: 说明请求频率超过了当前套餐的并发限制。将 max_workers 从 5 降至 3,或在Pangolinfo 控制台升级套餐配额。

Q: 某个类目始终返回 products 为空?

A: 检查 URL 格式是否正确(应为 /zgbs/ 路径),确认该类目在目标站点有 Best Sellers 页面。部分小众类目可能没有 Top 100 榜单。

Q: 如何从 SQLite 迁移到 PostgreSQL?

A: 将 sqlite3.connect() 替换为 psycopg2 连接,调整 UNIQUE 约束语法为 PostgreSQL 格式(ON CONFLICT DO NOTHING),其余逻辑无需改动。

Q: 数据量大了之后查询变慢怎么优化?

A: 在 scraped_at + category_url 上建立复合索引;对历史数据按月分区;对超过 90 天的数据可归档到冷存储表。


总结

亚马逊类目 Top 100 数据采集的工程难点不在于"怎么发 HTTP 请求",而在于"如何在反爬对抗下持续稳定地拿到高质量数据"。自建方案在小规模验证阶段是合理的,但随着监控类目数量的增长,维护成本会成为主要瓶颈。

Pangolinfo Scrape API在这个场景下的核心价值,是把复杂的反爬工程问题转化为一个简单的 REST API 调用问题,让工程师的精力可以集中在数据分析和业务逻辑上,而不是反爬对抗上。

完整代码已上传,欢迎参考和讨论。


参考资料

  • Pangolinfo API 文档
  • Jungle Scout 2025 State of the Amazon Seller Report
  • hiQ Labs v. LinkedIn, 9th Circuit 2022
本文章已经生成可运行项目

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制与早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
代码转载自:https://pan.quark.cn/s/46fd08fb879c 网管教程 从入门到精通软件篇 ★一。★详尽的xp修复控制台指令及其应用!!! 放入xp(2000)的光盘,安装时选择R,执行修复! Windows XP(涵盖 Windows 2000)的控制台指令是在系统遭遇某些意外状况时的一种极具效用的诊断、检测以及恢复系统功能的工具。笔者确实一直期望能够将这方面的指令进行归纳,此次由老范辛苦整理了这份极具价值的秘籍。 Bootcfg bootcfg 命令用于启动配置与故障恢复(对大多数计算机而言,即 boot.ini 文件)。 带有特定参数的 bootcfg 命令仅在运用故障恢复控制台时方可使用。能够在命令行界面下运用带有不同参数的 bootcfg 命令。 用法: bootcfg /default 设定默认引导选项。 bootcfg /add 向引导清单中增添 Windows 安装。 bootcfg /rebuild 重复整个 Windows 安装流程并让用户选择需添加的项目。 注意:运用 bootcfg /rebuild 之前,应先借助 bootcfg /copy 命令备份 boot.ini 文件。 bootcfg /scan 探查用于 Windows 安装的全部磁盘并展示结果。 注意:这些结果被静态存储,并用于当前会话。若在当前会话期间磁盘配置发生变动,为获取更新的探查结果,必须先重启计算机,然后再次探查磁盘。 bootcfg /list 列示引导清单中已有的项目。 bootcfg /disableredirect 在启动引导程序中禁用重定向。 bootcfg /redirect [ PortBaudRrate] |[ useBio...
代码下载链接: https://pan.quark.cn/s/fc524f791b68 AA制程,即Active Alignment,被理解为主动对准,是一种用于确定零部件装配中相对位置的方法。在摄像头封装阶段,涉及图像传感器、镜座、马达、镜头、线路板等多个部件的重复组装,而传统的封装设备如CSP及COB等,均是依据设备设定的参数进行零部件的移动装配,因而零部件的叠加误差会逐渐增大,最终在摄像头上表现为拍照最清晰的位置可能偏离画面中心、四边清晰度不均等现象。伴随智能手机和其他高端电子产品的普及,摄像头模组的性能正日益受到重视。高分辨率、卓越的低光表现以及稳定视频输出是现代用户所期望的。在摄像头模组的制造环节,各部件的精准定位对成像质量具有决定性作用。因此,一种名为“AA制程”(Active Alignment)的前沿技术被开发出来,成为摄像头精密对准的核心技术。 AA制程,即Active Alignment,是一种在摄像头封装过程中应用的主动对准方法。该方法在多个组件装配阶段发挥作用,涵盖图像传感器、镜座、马达、镜头和线路板等部件。传统的封装方式,例如CSP(Chip Scale Package)和COB(Chip On Board),依赖于设备预设的参数进行组装,但随着组件数量的增加,误差也会累积,最终影响摄像头的表现。例如在成像质量上可能出现中心位置偏移、四角清晰度不一致等问题。 AA制程技术的核心在于实时监测与主动调整。在组装过程中,它借助先进的检测设备持续监控半成品的状态,并根据实时信息对组装部件进行精确修正,从而显著降低装配误差。通过这种技术,能够确保摄像头模组中各组件的相对位置准确无误,从而使得最终的成像效果更加稳定,特别是在中心区域和四角的清晰度上...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值