
前言
对于有技术背景的亚马逊卖家、数据工程师或跨境电商SaaS开发者来说,选品数据的获取不仅是"用什么工具"的问题,更是"数据如何集成进系统"的架构问题。本文从技术视角拆解各类亚马逊选品数据来源的获取方式、数据质量和集成路径,并给出从免费渠道到企业级API方案的完整技术选型建议。
一、数据来源分类概览
亚马逊选品所需的核心数据类型及对应的主要获取渠道:
| 数据类型 | 免费渠道 | 付费SaaS | API方案 |
|---|---|---|---|
| BSR排名(实时) | Amazon官方榜单页面 | JS/H10(周更) | Pangolinfo Scrape API(分钟级) |
| BSR排名(历史) | Keepa免费版(3个月) | Keepa Pro | Keepa API |
| 关键词搜索量 | 无可靠免费源 | JS/H10/卖家精灵 | 无直接API(需结合SaaS数据) |
| 竞品ASIN详情 | 手动访问页面 | Black Box等工具 | Pangolinfo Scrape API |
| 价格/库存历史 | Keepa免费版 | Keepa Pro | Keepa API |
| 评论数据 | 手动采集 | 各工具限量 | Reviews Scraper API |
| SP广告位数据 | 无 | 无 | Pangolinfo Scrape API |
二、免费渠道技术分析
2.1 Amazon 官方榜单(直接抓取)
亚马逊 Best Sellers、Movers & Shakers、New Releases 页面是合法可访问的公开数据。对于开发者,可以通过以下方式获取:
方式一:手动浏览(效率最低)
适合个人卖家,不适合系统化数据流水线。
方式二:自行爬虫(高风险)
亚马逊有严格的反爬策略,包括IP封禁、CAPTCHA、行为检测等。自建爬虫维护成本高,稳定性差,不建议用于生产环境。
方式三:通过 Scrape API(推荐)
使用Pangolinfo Scrape API直接获取结构化的亚马逊榜单数据,无需维护爬虫基础设施,稳定性有保障,支持批量请求。
import requests
import json
# Pangolinfo Scrape API - 获取亚马逊Best Sellers榜单
API_KEY = "your_api_key"
BASE_URL = "https://api.pangolinfo.com/v1/scrape"
def get_amazon_bestsellers(category_node: str, marketplace: str = "amazon.com") -> dict:
"""
获取指定类目的亚马逊Best Sellers数据
Args:
category_node: 亚马逊类目节点ID或URL路径
marketplace: 目标市场域名
Returns:
结构化的榜单数据(JSON格式)
"""
payload = {
"url": f"https://www.{marketplace}/Best-Sellers/{category_node}",
"parse_type": "amazon_bestsellers",
"output_format": "json"
}
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
response = requests.post(BASE_URL, json=payload, headers=headers)
response.raise_for_status()
return response.json()
# 获取家居类目Best Sellers
data = get_amazon_bestsellers("zgbs/home-garden")
products = data.get("products", [])
for rank, product in enumerate(products[:10], 1):
print(f"#{rank} | ASIN: {product['asin']} | BSR: {product['bsr']} | 价格: {product['price']}")
2.2 Keepa 免费版的技术局限
- 只提供浏览器插件,无API访问
- 历史数据限制在3个月以内
- 无法批量查询(每次只能查一个ASIN)
- 不适合集成进任何自动化数据流
三、付费工具的技术局限
主流付费SaaS工具(Jungle Scout、Helium 10、卖家精灵)在技术层面有一个共同的根本性局限:数据被封闭在工具UI内。
- Jungle Scout:提供有限的API访问(仅Enterprise版,且功能受限)
- Helium 10:无原生API,数据只能手动导出CSV
- 卖家精灵:无API
- 数据格式:CSV导出,字段不统一,需要额外清洗处理
这意味着:如果你需要将选品数据集成进自己的数据仓库、BI平台或自动化决策系统,这些SaaS工具在技术上是死路。
四、企业级API方案对比
4.1 Keepa API
import keepa
# 初始化Keepa API客户端
api = keepa.Keepa(accesskey="your_keepa_key")
# 批量获取ASIN历史数据(最多100个)
asins = ["B07XJ8C8F5", "B08N5WRWNW", "B07ZPKBL9V"]
products = api.query(asins, history=True, offers=20)
for product in products:
title = product.get("title", "N/A")
# BSR历史数据(时序,每隔约30分钟一个数据点)
bsr_history = product.get("data", {}).get("ROOT", [])
print(f"{title}: {len(bsr_history)//2} 个BSR历史数据点")
Keepa API 适用场景:
- 需要长时间跨度历史BSR和价格数据
- 监控特定ASIN的价格/库存/卖家数量变化
- 构建BSR稳定性评分模型
4.2 Pangolinfo Scrape API
Pangolinfo Scrape API的核心价值在于提供实时的结构化亚马逊数据,适合需要分钟级数据时效的场景。
import asyncio
import aiohttp
from typing import List, Dict
class PangolinAmazonScraper:
"""异步亚马逊数据采集客户端"""
def __init__(self, api_key: str):
self.api_key = api_key
self.base_url = "https://api.pangolinfo.com/v1/scrape"
self.headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
async def scrape_asin(self, session: aiohttp.ClientSession, asin: str, marketplace: str = "amazon.com") -> Dict:
"""异步获取单个ASIN的结构化数据"""
payload = {
"url": f"https://www.{marketplace}/dp/{asin}",
"parse_type": "amazon_product",
"output_format": "json"
}
async with session.post(self.base_url, json=payload, headers=self.headers) as resp:
return await resp.json()
async def batch_scrape(self, asins: List[str], marketplace: str = "amazon.com") -> List[Dict]:
"""并发批量采集多个ASIN数据"""
async with aiohttp.ClientSession() as session:
tasks = [self.scrape_asin(session, asin, marketplace) for asin in asins]
return await asyncio.gather(*tasks)
# 使用示例
async def main():
scraper = PangolinAmazonScraper(api_key="your_api_key")
asins = ["B07XJ8C8F5", "B08N5WRWNW", "B07ZPKBL9V"]
results = await scraper.batch_scrape(asins)
for asin, data in zip(asins, results):
product = data.get("product", {})
print(f"ASIN: {asin}")
print(f" 标题: {product.get('title', 'N/A')[:50]}")
print(f" 价格: ${product.get('price', 'N/A')}")
print(f" BSR: {product.get('bsr', 'N/A')}")
print(f" 评论数: {product.get('review_count', 'N/A')}")
asyncio.run(main())
4.3 两个API的互补关系
| 维度 | Keepa API | Pangolinfo Scrape API |
|---|---|---|
| 数据时效 | 10分钟-1小时 | 分钟级(实时) |
| 历史深度 | 2011年至今 | 无历史存档(仅实时) |
| 数据类型 | BSR/价格/库存/卖家时序 | 全品类结构化页面数据 |
| 关键词数据 | 无 | SERP结构化结果 |
| SP广告位 | 无 | 支持(98%采集率) |
| 价格 | €17/月起 | 按用量 |
推荐架构: Keepa API 负责历史数据层(时序分析、稳定性建模),Pangolinfo Scrape API 负责实时数据层(选品扫描、竞品监控、广告位追踪),两者互补构成完整的亚马逊数据采集基础设施。
五、技术选型建议
个人卖家/小工具: 免费渠道 + SaaS工具
有技术团队的卖家: Keepa API + SaaS工具(关键词)
数据服务商/大卖: Pangolinfo Scrape API
总结
亚马逊选品数据来源的技术选型本质上是数据时效性 × 集成灵活性 × 成本三个维度的权衡。SaaS工具解决了"有数据可看"的问题,但API方案才能解决"数据为我所用"的问题。
参考资料
- Pangolinfo Scrape API 文档
- Keepa API 文档
- Amazon Best Sellers: https://www.amazon.com/Best-Sellers/zgbs/
1万+

被折叠的 条评论
为什么被折叠?



