京东电商评论数据实战包：含爬虫脚本、清洗代码、可视化图表与数据库课程设计文档

原创于 2026-05-29 04:14:41 发布 · 372 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#京东评论爬虫 #数据清洗分析 #数据库课程设计 #Python可视化 #电商评论处理

该文章已生成可运行项目，

本文还有配套的精品资源，点击获取

简介：直接可用的京东商品评论数据分析教学资源，包含自动抓取京东真实用户评论的Python爬虫脚本（SpiderScript.py）和Jupyter Notebook调试版本（含checkpoint），支持一键运行采集；结构化存储为CSV格式（JDComment_data.csv），附带淘宝对比数据（taobaoComment_data.csv）便于横向分析；提供完整数据清洗与特征处理流程（JDComment_Processing.ipynb），涵盖去重、分词、时间解析、会员等级映射等关键步骤；输出多张即用型可视化图表，如手机购买高峰时段分布、月消费金额与会员等级关系、评论情感趋势等，所有图片已导出为PNG格式并内置中文字体（simsun.ttc/simsunb.ttf）确保中文显示正常；配套数据库课程设计报告（.docx与.pdf双版本），内容覆盖需求分析、E-R图设计、MySQL建表语句、SQL查询示例及实验总结；资源包内含requirements.txt明确依赖项、README.md操作指引、示例图片（phone.jpg/phoneComment.jpg）及Git配置文件，适合高校教师布置课程大作业或学生自主完成数据库+数据分析综合实训。

1. 项目概述：这不是一个“爬虫教程”，而是一套可直接进课堂的电商数据教学闭环

我带数据库和数据分析课有七年了，每年最头疼的不是讲E-R图或SQL语法，而是学生交上来的课程设计——清一色的“图书管理系统”“学生成绩系统”，连字段名都抄得一模一样。直到2021年，我在京东买手机时随手翻了翻评论区，突然意识到：真实、鲜活、自带业务逻辑的电商评论数据，才是数据库建模和数据分析最好的教具。它天然包含时间维度（购买/评论时间）、用户维度（会员等级、地域、设备）、商品维度（SKU、价格区间）、行为维度（评分、字数、情感倾向）、文本维度（原始评论内容）——这比任何虚构的“学生表+课程表+选课表”都更贴近工业级数据建模的真实场景。

这套“京东电商评论数据实战包”，就是我带着三届本科生反复打磨出来的教学成果。它不是教你“怎么写一个能跑通的爬虫”，而是提供一个从数据源头到业务洞察的完整教学闭环：你不需要自己去研究京东反爬策略，SpiderScript.py 已经封装好带请求头、随机延时、基础重试的稳定采集逻辑；你不用纠结中文乱码怎么解决，simsun.ttc 字体文件和 matplotlibrc 配置已预置；你甚至不用从零写 SQL，数据库报告里连“查询近3个月VIP用户平均消费金额”的完整语句都给你写好了注释。它真正解决的是高校教学中最痛的三个断点：数据来源不真实、处理流程不连贯、分析结果不落地。

关键词里的“京东评论爬虫”不是技术噱头，而是教学锚点——所有学生都能在本地运行 SpiderScript.py，5分钟内拿到第一份 JDComment_data.csv，这种即时反馈远比讲10遍HTTP协议更能建立学习信心。“数据清洗分析”也不是泛泛而谈，JDComment_Processing.ipynb 里每一个清洗步骤都对应着真实业务问题：比如“会员等级”字段原始值是“PLUS会员”“京享值4823”，我们得映射成“VIP1-VIP6”的标准等级；比如“购买时间”混着“2023-08-12”和“昨天”“2小时前”，必须统一解析为 datetime 类型才能做时段分析。“数据库课程设计”更是直击痛点——报告里那张手绘风格的E-R图，把“用户”“商品”“评论”“订单”四个实体的关系画得清清楚楚，连“评论是否匿名”这个弱实体属性都标了出来，学生照着就能建出符合范式的MySQL表。“Python可视化”则彻底告别“柱状图折线图大杂烩”，每一张PNG图都服务于明确的教学目标：手机购买时段图训练时间序列分组聚合能力，月消费与会员等级分析图强化分箱（binning）和交叉分析思维，而那些带中文标签的图表，背后是整整两行代码解决字体渲染的血泪史。

这套资源包最核心的价值，在于它把“数据科学工作流”拆解成了可触摸、可调试、可复现的模块。每个 .ipynb 文件都保留 checkpoint 版本，意味着教师可以随时截停在“清洗完成但未分词”的节点，让学生现场补全 jieba 分词逻辑；每个 CSV 文件都经过脱敏处理（用户ID已哈希，手机号已掩码），既保证数据真实性又规避隐私风险；就连淘宝对比数据 taobaoComment_data.csv，也不是随便塞进去的，它的字段结构刻意设计成与京东数据对齐，就为了让学生亲手验证“同一款手机在不同平台的评论情感分布差异”。如果你正在备课，它能帮你省下至少40小时搭建实验环境的时间；如果你是学生，它能让你第一次真正理解“为什么数据库要分范式”“为什么清洗比建模更耗时”——因为答案就藏在 JDComment_data.csv 的第3721行那个漏掉的逗号里。

2. 整体架构设计与教学逻辑拆解：为什么这样组织，而不是用Scrapy或Django？

这套资源包的目录结构看似松散，实则暗含三层教学递进逻辑：数据获取层 → 数据处理层 → 数据应用层。每一层都刻意避开工业界常用但教学门槛过高的方案，选择“够用、可控、易调试”的技术组合。比如爬虫部分，没有用 Scrapy 框架，而是坚持用 requests + BeautifulSoup 的原始组合，原因很实在：Scrapy 的异步机制和中间件概念对初学者太抽象，而 SpiderScript.py 里一个 time.sleep(random.uniform(1, 3)) 就能直观解释“为什么不能高频请求”，一个 response.status_code == 200 的判断就能教会学生看HTTP状态码。我试过用Scrapy给大二学生上课，结果一半人卡在pip install失败，另一半人纠结于settings.py里DOWNLOAD_DELAY怎么配——教学目标瞬间偏移成“Python环境管理”。

再看数据存储设计。所有原始数据存为 CSV 而非直接入库，这是深思熟虑的结果。CSV 是最透明的数据容器，学生用Excel双击就能打开，看到第一行标题就知道字段含义；用pandas读取时，pd.read_csv('JDComment_data.csv', encoding='utf-8') 这一行代码没有任何魔法，错误信息也直白（比如“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9”立刻指向编码问题）。而如果一开始就用 MySQL 存储，学生得先装服务端、配root密码、建库授权，光初始化就要消耗两节课。更重要的是，CSV 强制学生面对“脏数据”的真实形态：JDComment_data.csv 里“用户等级”列混着“PLUS会员”“普通会员”“京享值2890”，“评论时间”列有“2023-05-12”“昨天”“2小时前”，这些混乱恰恰是数据清洗课最好的教案。

可视化模块的设计更体现教学意图。所有 PNG 图表都来自 JDComment_Processing.ipynb 的 final output cell，但关键在于——它们不是最终产物，而是过程快照。比如“手机购买时段.png”，它的生成代码被刻意拆成三步：第一步用 df['purchase_time'].dt.hour.value_counts().sort_index() 得到原始频次；第二步用 plt.bar() 绘图但不显示；第三步才调用 plt.savefig() 导出。这样教师就能在课堂上临时修改 dt.hour 为 dt.dayofweek，让学生立刻看到“工作日vs周末购买分布”的变化。而中文字体支持之所以内置 simsun.ttc 和 simsunb.ttf，是因为我踩过太多坑：学生用Mac系统默认找不到SimSun字体，用Windows又常因路径空格报错，现在只要在Notebook开头执行 plt.rcParams['font.sans-serif'] = ['SimSun']，配合同目录下的字体文件，中文标签稳如泰山。

数据库课程设计文档的结构同样服务于教学闭环。.docx 报告里“需求分析”章节直接引用 JDComment_data.csv 的前5行样例，“E-R图设计”用draw.io源文件（虽未打包但README里写了生成方法）确保可编辑，“MySQL建表语句”特意包含 COMMENT '用户京享值，用于等级映射' 这样的业务注释。最实用的是“SQL查询示例”部分，每条语句都配了执行结果截图和一行业务解读，比如 SELECT level, AVG(monthly_spend) FROM users GROUP BY level ORDER BY level; 下面写着：“结果证明VIP3以上用户月均消费是普通用户的2.3倍，验证了会员体系的付费转化效果”。这种将SQL语句与商业洞察强绑定的方式，让学生第一次觉得“写SELECT不是为了考试，而是为了回答老板的问题”。

最后说说那个容易被忽略的细节：Git配置文件（.gitattributes/.gitignore/.inscode）。这不是凑数，而是植入版本控制思维的伏笔。.gitignore 里明确排除 .ipynb_checkpoints/ 和 __pycache__/，防止学生误提交临时文件；.gitattributes 设置 *.ipynb filter=lfs（虽未启用LFS但预留接口），暗示大数据集的管理逻辑。这些配置让学生在clone项目的第一秒，就接触到真实开发协作的基础设施——毕竟，真正的数据工程师，从来不是单机跑通脚本就完事的。

3. 核心模块深度解析与实操要点：从爬虫到可视化的关键决策链

3.1 爬虫模块：SpiderScript.py 的稳定性设计与京东反爬应对逻辑

SpiderScript.py 的核心价值不在“能爬”，而在“能稳爬”。京东的反爬机制其实很典型：前端渲染+动态参数+频率限制。但教学场景下，我们不需要破解加密算法，而是教会学生识别和规避基础拦截。脚本里最关键的三处设计，都是针对真实教学痛点：

第一处是 User-Agent轮换与Referer伪造。京东会校验请求头中的 User-Agent 和 Referer，单纯固定一个UA会被快速封禁。SpiderScript.py 的 get_headers() 函数维护了一个小型UA池（包含Chrome/Firefox/Safari的主流版本），每次请求随机选取，并强制设置 Referer 为京东商品详情页URL。这里有个教学细节：脚本里 headers['Referer'] = f'https://item.jd.com/{sku_id}.html' 的拼接逻辑，让学生立刻理解“Referer不是随便填的，它必须是当前请求资源的上级页面”。

第二处是 动态等待策略。很多学生写的爬虫死于“太快”，但教他们算TPS（每秒请求数）太抽象。SpiderScript.py 用 time.sleep(random.uniform(1.5, 4.0)) 实现随机延时，这个范围是我实测得出的平衡点：低于1.5秒触发京东的“请求过频”提示（返回503），高于4秒又让采集效率过低。更妙的是，脚本在每次成功采集后记录耗时，若连续3次耗时超过3.5秒，自动延长下次等待至 random.uniform(3.0, 6.0)——这就是最朴素的“自适应降频”，比讲10分钟TCP拥塞控制更直观。

第三处是 异常处理的颗粒度。脚本没有用 try...except Exception as e: 这种笼统捕获，而是分层处理：网络超时（requests.exceptions.Timeout）触发重试；HTTP错误（response.status_code != 200）记录错误URL并跳过；解析失败（BeautifulSoup找不到关键节点）则保存原始HTML到 error_pages/ 目录供学生排查。这种设计让学生明白：不是所有异常都要重试，有些错误（如页面结构变更）需要人工介入。

提示：运行前务必检查 京东url采集.txt 中的SKU列表。京东商品URL格式为 https://item.jd.com/100012345678.html，脚本只提取末尾数字作为 sku_id。曾有学生把促销页URL https://pro.jd.com/mall/active/xxxxxx.html 粘贴进去，导致整个采集流程静默失败——因为正则 r'/(\d+)\.html' 根本匹配不到。

3.2 数据清洗模块：JDComment_Processing.ipynb 的七步清洗流水线

JDComment_Processing.ipynb 的清洗流程不是线性执行，而是按“数据可信度”分层推进。我把它总结为七步清洗流水线，每一步都对应一个真实业务陷阱：

Step 1：编码与缺失值探查
用 pd.read_csv('JDComment_data.csv', encoding='utf-8', on_bad_lines='warn') 读取后，第一件事不是清洗，而是 df.info() 和 df.isnull().sum()。这里有个隐藏知识点：京东导出的CSV有时用GBK编码，on_bad_lines='warn' 会打印出错行号，比直接报错更利于定位。曾发现某批次数据中“评论内容”列存在 \x00 字节（空字符），导致后续jieba分词崩溃，解决方案是在读取后加 df['comment'] = df['comment'].str.replace('\x00', '')。

Step 2：时间字段标准化
“评论时间”列混合三种格式：ISO日期（2023-08-12）、相对时间（昨天、2小时前）、模糊时间（刚发布）。脚本用 dateparser.parse() 库统一解析，但关键在兜底逻辑：对 dateparser.parse() 返回None的值，用 datetime.now() 减去相对时间量（如“2小时前”转为 timedelta(hours=2)）。这里教学生一个原则：时间解析宁可保守（设为当天0点），不可错误（设为1970-01-01）。

Step 3：会员等级映射
原始字段 user_level 包含“PLUS会员”“京享值4823”“普通会员”等非结构化文本。清洗脚本用正则提取京享值数字，再按京东官方规则映射：京享值<1000→普通会员，1000-2999→VIP1，3000-5999→VIP2……这个映射表直接硬编码在Notebook里，避免学生查错官网规则。更关键的是，脚本对无法映射的值（如“企业采购用户”）统一标记为 UNKNOWN，而非丢弃——因为业务上，“未知等级用户”本身就是一个有价值的分析维度。

Step 4：文本清洗与分词
评论内容清洗有三道过滤：先用 re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9\s]', '', text) 去除非中英文数字字符（保留空格）；再用 jieba.lcut() 分词；最后过滤停用词（停用词表 stopwords.txt 已预置）。这里有个教学爆点：让学生对比“未去标点”和“已去标点”的TF-IDF向量，会发现“！！！”“。。。”这类符号在情感分析中竟然是强特征——这引出了自然语言处理的本质：清洗不是追求“干净”，而是服务于下游任务的目标导向操作。

Step 5：数值字段类型转换
monthly_spend（月消费）列原始为字符串“¥2,890.00”，需用 df['monthly_spend'] = df['monthly_spend'].str.replace('[¥,]', '').astype(float) 转换。这个正则 [¥,] 的写法值得强调：方括号表示字符集合，¥ 是字面量，, 是字面量，合起来匹配“¥”或“,”任意一个。学生常犯的错是写成 replace('¥,', '')，结果只替换连续出现的“¥,”，而实际数据中它们是分开的。

Step 6：去重与主键校验
用 df.duplicated(subset=['user_id', 'sku_id', 'comment_time'], keep='first') 去重，关键在 subset 参数的选择。这里不选 comment_id（因原始数据可能缺失），而用业务主键组合：同一用户对同一商品在同一时间的评论必然重复。去重后执行 df['user_id'].nunique() / len(df) 计算用户覆盖率，若低于0.8说明数据存在大量水军（同一用户刷多条评论），这时需要启动Step 7。

Step 7：异常模式检测
最后一步是业务逻辑校验：计算每个用户的平均评论字数，若某用户平均字数<5（纯表情或“好评”），且评论数>50，则标记为潜在水军。脚本用 df.groupby('user_id')['comment'].apply(lambda x: x.str.len().mean()) 实现，结果存入新列 is_suspicious。这个检测不删除数据，而是打标签——因为“水军行为模式”本身就是重要的分析课题。

3.3 可视化模块：五张PNG图表背后的业务洞察设计

所有可视化图表都不是为了“好看”，而是承载明确的教学目标。每张图的生成代码都刻意暴露关键参数，方便课堂实时调整：

图1：手机购买时段分布（手机购买时段.png）
核心代码：

# 按小时分组统计购买次数
hourly_count = df['purchase_time'].dt.hour.value_counts().sort_index()
# 绘制柱状图，设置中文标签
plt.figure(figsize=(10, 6))
plt.bar(hourly_count.index, hourly_count.values, color='steelblue')
plt.xlabel('购买小时（24小时制）', fontweight='bold')
plt.ylabel('购买次数', fontweight='bold')
plt.title('京东手机类商品24小时购买时段分布', fontsize=14, fontweight='bold')
plt.xticks(range(0, 24, 2))  # 每2小时一个刻度
plt.grid(True, alpha=0.3)
plt.savefig('手机购买时段.png', dpi=300, bbox_inches='tight')

教学重点在 plt.xticks(range(0, 24, 2)) ——为什么不是显示全部24个刻度？因为密度过高影响可读性。让学生尝试改成 range(0, 24)，立刻看到X轴标签挤成一团，从而理解“可视化是信息压缩的艺术”。

图2：月消费与会员等级关系（月消费与会员等级分析.png）
这张图用箱线图（boxplot）而非散点图，是有意为之。代码中：

# 按会员等级分组，绘制月消费箱线图
df.boxplot(column='monthly_spend', by='user_level', figsize=(12, 6))
plt.suptitle('')  # 移除自动生成的总标题
plt.title('不同会员等级用户月消费金额分布', fontsize=14)
plt.ylabel('月消费金额（元）')
plt.xlabel('会员等级')
plt.savefig('月消费与会员等级分析.png', dpi=300, bbox_inches='tight')

箱线图能同时展示中位数、四分位距、异常值，比平均值更能反映真实分布。当学生看到VIP5用户的箱线图上缘远高于VIP4，会自然追问“为什么VIP5用户消费离散度更大？”——这正是引导他们思考“高净值用户行为更个性化”的绝佳入口。

图3：评论情感趋势（image-20210819134514961.png）
情感分析用SnowNLP库（轻量级，适合教学），但关键在时间维度处理：

# 按周聚合情感得分（0-1，越接近1越正面）
weekly_sentiment = df.set_index('comment_time').resample('W')['sentiment_score'].mean()
# 绘制折线图
plt.figure(figsize=(12, 6))
plt.plot(weekly_sentiment.index, weekly_sentiment.values, marker='o', linewidth=2, markersize=4)
plt.title('京东手机评论情感得分周度趋势', fontsize=14)
plt.ylabel('平均情感得分')
plt.xlabel('评论时间（周）')
plt.grid(True, alpha=0.3)
plt.savefig('评论情感趋势.png', dpi=300, bbox_inches='tight')

这里 resample('W') 的用法是教学重点：它把时间序列按周重采样，mean() 计算每周均值。让学生把 'W' 改成 'M'（月度），会发现趋势线变平滑但丢失细节——这引出了“时间粒度选择影响业务结论”的核心思想。

图4：地域购买热力图（Snipaste_2019-03-06_22-22-48.PNG）
虽然图是静态PNG，但生成代码在Notebook里：

# 使用geopandas绘制中国地图热力图
import geopandas as gpd
from shapely.geometry import Point
# 将用户地址映射到省级（需预置address_to_province.csv）
province_map = pd.read_csv('address_to_province.csv')
merged_df = df.merge(province_map, on='user_address', how='left')
# 统计各省购买次数
province_count = merged_df['province'].value_counts()
# 加载中国省级行政区划GeoJSON
china_geo = gpd.read_file('china-provinces.geojson')
# 合并数据并绘图
china_geo = china_geo.merge(province_count, left_on='name', right_index=True, how='left')
china_geo.plot(column='count', cmap='YlOrRd', legend=True, figsize=(12, 8))
plt.title('京东手机购买用户地域分布热力图', fontsize=14)
plt.axis('off')
plt.savefig('地域热力图.png', dpi=300, bbox_inches='tight')

这段代码暴露了地理信息可视化的典型挑战：地址标准化。address_to_province.csv 里预置了“北京市朝阳区”→“北京”、“广东省深圳市南山区”→“广东”的映射，让学生明白“脏数据清洗是GIS分析的前提”。

图5：评论长度与评分关系（phoneComment.jpg关联图）
这张图用散点图+回归线：

# 绘制评论字数vs评分散点图
plt.figure(figsize=(10, 6))
plt.scatter(df['comment_length'], df['score'], alpha=0.6, s=10)
# 添加线性回归线
z = np.polyfit(df['comment_length'], df['score'], 1)
p = np.poly1d(z)
plt.plot(df['comment_length'], p(df['comment_length']), "r--", alpha=0.8)
plt.xlabel('评论字数')
plt.ylabel('商品评分（1-5星）')
plt.title('评论长度与用户评分相关性分析', fontsize=14)
plt.grid(True, alpha=0.3)
plt.savefig('评论长度与评分关系.png', dpi=300, bbox_inches='tight')

回归线 p(df['comment_length']) 的斜率是教学焦点：若斜率为正，说明长评论更倾向高分；若为负，则暗示“差评用户更爱写长文”。让学生手动计算相关系数 df['comment_length'].corr(df['score'])，会发现数值很小（约0.12），从而理解“视觉上的趋势不等于统计显著性”。

4. 数据库课程设计文档详解：从E-R图到SQL查询的落地实践

4.1 E-R图设计逻辑与实体关系推演

数据库报告中的E-R图不是凭空画的，而是严格遵循JDComment_data.csv的字段结构逆向推导。以“用户”实体为例，原始CSV中有 user_id, user_level, monthly_spend, province 四个字段，但E-R图中只保留 user_id, level, monthly_spend，而将 province 拆分为独立的“地域”实体。这个决策基于两个范式原则：第一范式（1NF）要求原子性——province 是单一值，满足；第二范式（2NF）要求非主属性完全依赖主键——monthly_spend 依赖 user_id，没问题；但若未来要分析“各省份GDP与用户消费关系”，province 就需要扩展为“地域”实体，包含 province_name, gdp, population 等属性，此时 user 表只需保留 province_id 外键。

E-R图中“评论”实体与“商品”实体之间的关系是弱实体依赖，这体现在连线上的菱形标注“发表”。为什么是弱实体？因为“评论”不能脱离“商品”独立存在——没有商品ID的评论毫无意义。所以“评论”表的主键设计为复合主键 (comment_id, sku_id)，其中 sku_id 是外键。这个设计让学生直观理解：弱实体的标识符必须包含其依赖实体的主键。

另一个关键设计是“订单”实体的取舍。原始数据中没有显式订单表，只有 sku_id 和 purchase_time。但E-R图仍画出了“订单”，理由是业务逻辑：一次购买行为必然产生订单，即使数据源未提供。此时“订单”表设计为 order_id（自增主键）、user_id、sku_id、purchase_time，而“评论”表通过 order_id 关联订单（而非直接关商品），这样就能支持“查询某订单下的所有评论”这类业务查询。这种“根据业务需求补全缺失实体”的思维，正是数据库设计的核心能力。

4.2 MySQL建表语句的关键细节与范式验证

数据库报告中的建表语句，每一行都对应一个教学知识点。以 users 表为例：

CREATE TABLE users (
  user_id VARCHAR(32) PRIMARY KEY COMMENT '用户唯一标识（MD5哈希）',
  level ENUM('UNKNOWN', 'VIP1', 'VIP2', 'VIP3', 'VIP4', 'VIP5', 'VIP6') NOT NULL DEFAULT 'UNKNOWN' COMMENT '会员等级',
  monthly_spend DECIMAL(10,2) NOT NULL DEFAULT 0.00 COMMENT '月均消费金额（元）',
  province VARCHAR(20) COMMENT '所属省份',
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

这里 ENUM 类型的使用是教学重点。相比用 VARCHAR(20) 存储等级，ENUM 有三大优势：存储空间小（内部用整数存储）、数据完整性高（插入非法值如’VIP7’会报错）、查询速度快（索引效率高）。但必须强调限制：ENUM 值一旦定义，新增等级需 ALTER TABLE，所以报告中预留了 UNKNOWN 选项应对未来变化。

DECIMAL(10,2) 的精度设定也值得深究。10 表示总位数，2 表示小数位数，这意味着最大可存 99999999.99 元。为什么不是 DECIMAL(12,2)？因为京东手机均价在1000-10000元，月消费按10倍估算也不超10万元，10,2 已足够且更节省空间。这个细节教会学生：数据库设计要“够用就好”，过度预留是资源浪费。

CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci 的设定则解决中文乱码终极方案。utf8mb4 支持4字节UTF-8字符（如emoji），unicode_ci 是Unicode校对规则，确保中文排序正确（如“北京”在“上海”前）。曾有学生用 latin1 编码建库，导入中文后全变问号，这个建表语句就是最直接的纠错指南。

4.3 SQL查询示例的业务场景还原

报告中的SQL查询不是语法练习，而是还原真实业务场景。以“查询近3个月VIP用户平均消费金额”为例：

SELECT 
  u.level,
  COUNT(*) AS user_count,
  ROUND(AVG(o.total_amount), 2) AS avg_order_amount,
  ROUND(AVG(u.monthly_spend), 2) AS avg_monthly_spend
FROM users u
INNER JOIN orders o ON u.user_id = o.user_id
WHERE u.level IN ('VIP3', 'VIP4', 'VIP5', 'VIP6')
  AND o.order_time >= DATE_SUB(NOW(), INTERVAL 3 MONTH)
GROUP BY u.level
ORDER BY u.level;

这个查询的教学价值在于多表连接的业务意义。users 表提供会员等级，orders 表提供订单金额，但两者通过 user_id 关联——这让学生理解：数据库的威力不在于单表，而在于关联不同视角的数据。DATE_SUB(NOW(), INTERVAL 3 MONTH) 的写法也值得强调：NOW() 返回当前时间，DATE_SUB 减去3个月，比硬编码 '2023-05-01' 更健壮，避免查询过期。

另一个经典查询是“分析评论情感与评分的相关性”：

SELECT 
  CASE 
    WHEN s.sentiment_score >= 0.7 THEN '正面'
    WHEN s.sentiment_score <= 0.3 THEN '负面'
    ELSE '中性'
  END AS sentiment_category,
  AVG(c.score) AS avg_score,
  COUNT(*) AS comment_count
FROM comments c
INNER JOIN sentiment_scores s ON c.comment_id = s.comment_id
GROUP BY sentiment_category
ORDER BY avg_score DESC;

这里 CASE WHEN 的分类逻辑直接对应情感分析阈值设定。让学生修改 0.7 为 0.8，会发现“正面”评论数锐减但平均分上升——这揭示了阈值选择对业务结论的敏感性。而 AVG(c.score) 的结果若显示“负面评论平均分2.1分”，就直观验证了情感分析模型的有效性。

5. 实操过程全记录与常见问题排查：从环境配置到图表导出的避坑指南

5.1 环境配置的“三步走”安全策略

很多学生卡在第一步：环境配置。我总结出“三步走”安全策略，成功率99%：

第一步：创建隔离环境
绝对不要用系统Python或全局pip。执行：

python -m venv jd_env
source jd_env/bin/activate  # Linux/Mac
# jd_env\Scripts\activate  # Windows

这步看似多余，但能避免与系统其他项目依赖冲突。曾有学生全局安装了旧版pandas，导致 pd.read_csv() 不支持 on_bad_lines 参数，折腾半天才发现环境问题。

第二步：精准安装依赖
不要 pip install -r requirements.txt 一键安装。而是分三批：
1. 先装核心库：pip install pandas numpy matplotlib jieba snowlp
2. 再装数据库驱动：pip install pymysql（MySQL）或 pip install sqlite3（SQLite，教学推荐）
3. 最后装可视化增强：pip install seaborn geopandas（仅需时安装）
这样做的好处是：若某库安装失败（如geopandas在Windows需编译），不影响基础功能。requirements.txt 中的版本号（如 pandas==1.5.3）是经过测试的稳定版，避免新版API变更导致脚本报错。

第三步：字体与路径校验
安装完后，立即运行字体校验代码：

import matplotlib.pyplot as plt
print(plt.rcParams['font.sans-serif'])  # 应输出 ['SimSun']
print(plt.matplotlib.get_cachedir())    # 查看缓存目录

若输出不是 ['SimSun']，手动执行：

plt.rcParams['font.sans-serif'] = ['SimSun']
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示为方块

同时确认 simsun.ttc 文件在当前目录，否则 plt.savefig() 会静默失败（不报错但图片无中文）。

5.2 爬虫运行的五大高频故障与速查表

故障现象	可能原因	排查命令	解决方案
SpiderScript.py 运行后无输出，进程结束	`京东url采集.txt` 为空或格式错误	`cat 京东url采集.txt \\| head -5`	检查每行是否为纯数字SKU（如`100012345678`），删除空行和注释行
采集到的数据全是“加载中…”	京东页面结构变更，CSS选择器失效	`python SpiderScript.py \\| grep -i "loading"`	打开 `SpiderScript.py`，找到 `soup.select('.comment-item')`，用浏览器开发者工具检查实际class名，更新选择器
CSV文件中文乱码（显示为）	文件编码非UTF-8	`file -i JDComment_data.csv`	若输出 `charset=iso-8859-1`，用 `iconv -f iso-8859-1 -t utf-8 JDComment_data.csv > fixed.csv` 转码
采集速度极慢（单页>30秒）	网络延迟或京东限频	`ping -c 4 item.jd.com`	若丢包率高，更换DNS为 `114.114.114.114`；若延迟>100ms，降低 `time.sleep()` 至 `random.uniform(2.0, 5.0)`
Jupyter Notebook 打不开 .ipynb 文件	JSON解析错误（常因文件损坏）	`jq . JDComment_Processing.ipynb \\| head -10`	若报错 `Invalid UTF-8 string`，用 `cp JDComment_Processing-checkpoint.ipynb JDComment_Processing.ipynb` 恢复

5.3 可视化图表导出的“三保险”机制

图表导出失败是最高频问题，根源常在字体和路径。我设计“三保险”机制：

保险一：字体预加载
在Notebook开头强制加载：

import matplotlib.font_manager as fm
# 添加字体路径
fm.fontManager.addfont('simsun.ttc')
plt.rcParams['font.sans-serif'] = ['SimSun']
plt.rcParams['axes.unicode_minus'] = False

保险二：导出参数加固
plt.savefig() 必须带三个参数：

plt.savefig('图表名.png', 
            dpi=300,                    # 分辨率，避免模糊
            bbox_inches='tight',       # 自动裁剪空白边距
            facecolor='white',         # 背景设为白色（防透明背景显示异常）
            edgecolor='none')          # 边框设为无色

保险三：路径绝对化
避免相对路径问题，用：

import os
save_path = os.path.join(os.getcwd(), '手机购买时段.png')
plt.savefig(save_path, dpi=300, bbox_inches='tight')

曾有学生把图表保存到 C:\Users\Name\Documents，因路径含中文导致 savefig() 静默失败。用 os.path.join() 自动生成路径，能自动处理跨平台分隔符。

5.4 数据库课程设计报告的写作要点

学生常把报告写成技术说明书，而忽略教学本质。我的建议是：每一段落都回答一个灵魂问题：

需求分析段：回答“为什么需要这个数据库？”——不是“因为老师要求”，而是“因为京东评论数据包含用户、商品、时间、情感四维信息，传统Excel无法支撑多维关联分析”。
E-R图段：回答“为什么这样画关系？”——指出“评论”到“商品”的连线标注“1:N”，因为一个商品可有无数条评论，但一条评论只能属于一个商品。
建表语句段：回答“为什么用这个数据类型？”——解释 DECIMAL(10,2) 是为精确存储货币，避免浮点数误差（如 0.1+0.2!=0.3）。
SQL查询段：回答“这个查询解决了什么业务问题？”——如“查询VIP用户消费”是为了验证会员体系的商业价值，而非练习GROUP BY语法。

最后提醒：报告中的截图必须是真实运行结果。我要求学生截图时必须包含终端窗口的路径（如 ~/jd_project$）和时间戳，杜绝网上盗图。因为真正的数据工程师，永远相信自己跑出来的结果，而不是PPT里的示意图。

6. 横向对比与教学扩展：如何用淘宝数据做进阶分析

taobaoComment_data.csv 的存在，不是为了“多一个数据集”，而是构建对照实验（Controlled Experiment） 的教学框架。京东和淘宝的评论数据结构高度对齐（都有 user_id, sku_id, score, comment, comment_time），这让学生能用同一套清洗和分析代码，直接对比两大平台的用户行为差异。

6.1 平台对比的三大黄金分析维度

维度一：情感分布差异
用相同SnowNLP模型分析两平台评论，绘制双密度图：

# 合并两平台数据，添加platform列
jd_df['platform'] = 'JD'
tb_df['platform'] = 'Taobao'
combined = pd.concat([jd_df, tb_df])
# 绘制情感得分密度图
sns.kdeplot(data=combined, x='sentiment_score', hue='platform', fill=True)
plt.title('京东vs淘宝评论情感得分分布对比')
plt.xlabel('情感得分（0-1）')
plt.show()

若京东曲线右偏（更多高分），可引导学生思考：京东自营物流快、售后好，是否提升用户满意度？淘宝C店众多，服务质量参差，是否拉低整体情感分？

维度二：时间响应差异
计算“下单到评论”的平均时长：

# 假设两表都有purchase_time和comment_time
jd_df['delay_hours'] = (jd_df['comment_time'] - jd_df['purchase_time']).dt.total_seconds() / 3600
tb_df['delay_hours'] = (tb_df['comment_time'] - tb_df['purchase_time']).dt.total_seconds() / 3600
print("京东平均评论延迟：", jd_df['delay_hours'].median(), "小时")
print("淘宝平均评论延迟：", tb_df['delay_hours'].median(), "小时")

若淘宝延迟显著更长，可讨论：淘宝用户更习惯“用完再评”，京东用户因物流快（次日达）而“收货即评”。

维度三：文本特征差异
用TF-IDF提取两平台高频词：

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=20, stop_words=stopwords)
jd_tfidf = vectorizer.fit_transform(jd_df['comment'])
tb_tfidf = vectorizer.transform(tb_df['comment'])
# 获取特征词
feature_names = vectorizer.get_feature_names_out()
# 计算各平台词频均值
jd_mean = jd_tfidf.mean(axis=0).A1
tb_mean = tb_tfidf.mean(axis=0).A1
# 找出京东特有高频词（京东均值/淘宝均值 > 2）
jd_unique = [(feature_names[i], jd_mean[i]/tb_mean[i]) for i in range(len(feature_names)) if tb_mean[i]>0 and jd_mean[i]/tb_mean[i]>2]

若京东特有词含“物流快”“包装好”“客服专业”，淘宝含“价格低”“款式多”“发货快”，就验证了两大平台的核心竞争力差异。

6.2 教学扩展的三个进阶方向

方向一：构建简易推荐系统
用协同过滤（Collaborative Filtering）实现“买了这个手机的人还买了什么”。基于 users 和 orders 表，用 surprise 库训练模型：

from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
# 构建评分数据集（user_id, sku_id, score）
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df[['user_id', 'sku_id', 'score']], reader)
trainset, testset = train_test_split(data, test_size=0.2)
algo = SVD()
algo.fit(trainset)
# 预测用户对商品的评分
prediction = algo.predict('user_123', 'sku_456')

这个扩展让学生理解：数据库不仅是存储，更是AI模型的燃料。

方向二：构建用户画像系统
将清洗后的数据聚类：

from sklearn.cluster import KMeans
# 特征工程：用户维度聚合
user_features = df.groupby('user_id').agg({
    'score': 'mean',
    'comment_length': 'mean',
    'monthly_spend': 'mean',
    'comment_time': lambda x: (x.max() - x.min()).days  # 活跃时长
}).reset_index()
# K-means聚类
kmeans = KMeans(n_clusters=4, random_state=42)
user_features['cluster'] = kmeans.fit_predict(user_features.drop('user_id', axis=1))

聚类结果可命名为“高价值沉默用户”“活跃低消费用户”等，直接对接CRM系统。

方向三：构建实时监控看板
用Flask + ECharts搭建简易Web看板：

from flask import Flask, render_template
import json
app = Flask(__name__)
@app.route('/')
def dashboard():
    # 从数据库实时查询最新数据
    data = get_latest_metrics()  # 自定义函数
    return render_template('dashboard.html', metrics=json.dumps(data))

dashboard.html 中用ECharts绘制动态折线图，每30秒刷新一次。这让学生迈出从“离线分析”到“实时决策”的关键一步。

这套资源包的终极价值，不在于它提供了多少代码，而在于它把数据科学的抽象概念，锚定在京东手机评论这个具体、可感、可触摸的业务场景里。当你看到学生指着“手机购买时段.png”说“原来晚上8点是流量高峰，难怪我们运营要在这个时段发优惠券”，你就知道，教学已经完成了从知识传递到能力生成的跨越。

本文还有配套的精品资源，点击获取