python可视化分析大模型相关岗位人才招聘需求

引言

近年来,随着人工智能技术的迅猛发展,大模型(如GPT、BERT、Llama等)在自然语言处理、计算机视觉、推荐系统等领域展现出强大的能力,成为行业研究和应用的热点。企业对大模型相关人才的需求也呈现爆发式增长,岗位涵盖算法工程师、数据科学家、AI产品经理等多个方向。然而,当前市场上对大模型人才的需求分布、薪资水平、技能要求等方面的系统性分析仍然较少,企业和求职者往往缺乏直观的数据支持。

为了深入理解大模型相关岗位的市场需求,本研究基于Python对招聘数据进行爬取、清洗和分析,并借助数据可视化技术(如Matplotlib、Seaborn、WordCloud等)揭示以下关键问题:

  1. 大模型岗位的地域分布:哪些城市对大模型人才的需求最旺盛?

  2. 薪资水平分析:不同岗位、不同经验要求的薪资差异如何?

  3. 技能需求趋势:企业最关注哪些技术栈(如PyTorch、TensorFlow、NLP、CV等)?

  4. 行业分布:哪些行业(如互联网、金融、医疗等)对大模型人才的需求增长最快?

通过数据分析和可视化,本研究旨在为求职者提供就业方向参考,帮助企业优化招聘策略,同时为教育机构和政策制定者提供人才市场趋势的洞察。

 数据处理

1. 数据去重

由于原始数据可能存在重复记录(如同一职位被多次爬取),我们首先进行去重处理:

df = pd.read_csv('work_data.csv')
df = df.drop_duplicates()
  • 原始数据量:11,982 条

  • 去重后数据量:9,644 条(去除了 2,338 条重复记录)

  • 目的:避免重复数据对统计结果(如薪资均值、岗位数量)产生偏差。

2. 薪资数据标准化

薪资信息在原始数据中以文本形式存储(如"1.5-2.9万·14薪"),需转换为数值型数据以便分析:

def process_salary(salary_str):
    if '-' in salary_str:
        min_salary, max_salary = salary_str.replace('万/年', '').split('-')
    elif '及以下' in salary_str:
        max_salary = salary_str.replace('万及以下/年', '')
        min_salary = 0
    else:
        min_salary = max_salary = salary_str.replace('万/年', '')
    min_salary = float(min_salary) * 10 / 12
    max_salary = float(max_salary) * 10 / 12
    return min_salary, max_salary


# 对筛选出来的数据调用 process_salary 函数
result[['jobSalaryMin', 'jobSalaryMax']] = result['provide_salary_text'].apply(lambda x: pd.Series(process_salary(x)))

# 保留一位小数
result[['jobSalaryMin', 'jobSalaryMax']] = result[['jobSalaryMin', 'jobSalaryMax']].round(1)

# 将结果赋值回原 DataFrame
df.loc[result.index, ['jobSalaryMin', 'jobSalaryMax']] = result[['jobSalaryMin', 'jobSalaryMax']]

3. 工作地点提取

原始数据中的 job_area_text 列包含城市和区县信息(如"上海·浦东新区"),需提取城市名:便于后续按城市统计岗位分布和薪资水平。

df['area'] = df['job_area_text'].apply(lambda x: x.split('·')[0] if '·' in str(x) else x)

通过上述步骤,我们得到了结构清晰、可直接用于分析的数据集,包含:

  1. 标准化薪资(月薪,单位K)。

  2. 规范化工作地点(城市级)。

  3. 去重后的高质量记录(9,644条)。

此部分为后续的可视化分析(如薪资分布、地域热力图、技能词云)奠定了可靠的数据基础。

数据分析 

一、月薪维度

  • 最低月薪: 主要集中在较低区间,0 - 20K 频次高,(10 - 20K 区间 )、(0 - 10K 区间 )等数值大,说明多数岗位基础薪资不高,低薪岗位占比大;高最低月薪(如 80 - 100K )频次极少,高薪基础岗位稀缺。
  • 最高月薪: 20 - 30K 区间频次最高,但 30 - 40K 、40 - 50K 等中高薪资区间也有一定占比,且存在少数超高薪岗位(如 100 - 120K 等区间有零散分布 ),说明薪资上限有拓展空间,不过整体高薪岗位占比仍不算高,薪资结构呈中间相对集中、两端少的形态 ,反映出行业薪资有梯度,但高收入群体占比有限。
# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300

# 设置中文字体
plt.rcParams['font.sans-serif']=['SimHei']
# 正常显示负号
plt.rcParams['axes.unicode_minus'] = False

# 绘制 jobSalaryMin 直方图
plt.figure(figsize=(12, 6))
plt.subpl
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不爱说话的分院帽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值