引言
近年来,随着人工智能技术的迅猛发展,大模型(如GPT、BERT、Llama等)在自然语言处理、计算机视觉、推荐系统等领域展现出强大的能力,成为行业研究和应用的热点。企业对大模型相关人才的需求也呈现爆发式增长,岗位涵盖算法工程师、数据科学家、AI产品经理等多个方向。然而,当前市场上对大模型人才的需求分布、薪资水平、技能要求等方面的系统性分析仍然较少,企业和求职者往往缺乏直观的数据支持。
为了深入理解大模型相关岗位的市场需求,本研究基于Python对招聘数据进行爬取、清洗和分析,并借助数据可视化技术(如Matplotlib、Seaborn、WordCloud等)揭示以下关键问题:
-
大模型岗位的地域分布:哪些城市对大模型人才的需求最旺盛?
-
薪资水平分析:不同岗位、不同经验要求的薪资差异如何?
-
技能需求趋势:企业最关注哪些技术栈(如PyTorch、TensorFlow、NLP、CV等)?
-
行业分布:哪些行业(如互联网、金融、医疗等)对大模型人才的需求增长最快?
通过数据分析和可视化,本研究旨在为求职者提供就业方向参考,帮助企业优化招聘策略,同时为教育机构和政策制定者提供人才市场趋势的洞察。
数据处理
1. 数据去重
由于原始数据可能存在重复记录(如同一职位被多次爬取),我们首先进行去重处理:
df = pd.read_csv('work_data.csv')
df = df.drop_duplicates()
-
原始数据量:11,982 条
-
去重后数据量:9,644 条(去除了 2,338 条重复记录)
-
目的:避免重复数据对统计结果(如薪资均值、岗位数量)产生偏差。
2. 薪资数据标准化
薪资信息在原始数据中以文本形式存储(如"1.5-2.9万·14薪"),需转换为数值型数据以便分析:
def process_salary(salary_str):
if '-' in salary_str:
min_salary, max_salary = salary_str.replace('万/年', '').split('-')
elif '及以下' in salary_str:
max_salary = salary_str.replace('万及以下/年', '')
min_salary = 0
else:
min_salary = max_salary = salary_str.replace('万/年', '')
min_salary = float(min_salary) * 10 / 12
max_salary = float(max_salary) * 10 / 12
return min_salary, max_salary
# 对筛选出来的数据调用 process_salary 函数
result[['jobSalaryMin', 'jobSalaryMax']] = result['provide_salary_text'].apply(lambda x: pd.Series(process_salary(x)))
# 保留一位小数
result[['jobSalaryMin', 'jobSalaryMax']] = result[['jobSalaryMin', 'jobSalaryMax']].round(1)
# 将结果赋值回原 DataFrame
df.loc[result.index, ['jobSalaryMin', 'jobSalaryMax']] = result[['jobSalaryMin', 'jobSalaryMax']]
3. 工作地点提取
原始数据中的 job_area_text 列包含城市和区县信息(如"上海·浦东新区"),需提取城市名:便于后续按城市统计岗位分布和薪资水平。
df['area'] = df['job_area_text'].apply(lambda x: x.split('·')[0] if '·' in str(x) else x)
通过上述步骤,我们得到了结构清晰、可直接用于分析的数据集,包含:
-
标准化薪资(月薪,单位K)。
-
规范化工作地点(城市级)。
-
去重后的高质量记录(9,644条)。
此部分为后续的可视化分析(如薪资分布、地域热力图、技能词云)奠定了可靠的数据基础。
数据分析
一、月薪维度
- 最低月薪: 主要集中在较低区间,0 - 20K 频次高,(10 - 20K 区间 )、(0 - 10K 区间 )等数值大,说明多数岗位基础薪资不高,低薪岗位占比大;高最低月薪(如 80 - 100K )频次极少,高薪基础岗位稀缺。
- 最高月薪: 20 - 30K 区间频次最高,但 30 - 40K 、40 - 50K 等中高薪资区间也有一定占比,且存在少数超高薪岗位(如 100 - 120K 等区间有零散分布 ),说明薪资上限有拓展空间,不过整体高薪岗位占比仍不算高,薪资结构呈中间相对集中、两端少的形态 ,反映出行业薪资有梯度,但高收入群体占比有限。
# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300
# 设置中文字体
plt.rcParams['font.sans-serif']=['SimHei']
# 正常显示负号
plt.rcParams['axes.unicode_minus'] = False
# 绘制 jobSalaryMin 直方图
plt.figure(figsize=(12, 6))
plt.subpl

851

被折叠的 条评论
为什么被折叠?



