从GPT-1到GPT-3 预训练语言模型的演进与突破

最新推荐文章于 2026-06-28 17:26:09 发布

原创

最新推荐文章于 2026-06-28 17:26:09 发布 · 1.2k 阅读

标签

#gpt #gpt-3 #语言模型

收录于

本文由 ChatMoney团队出品

前言

Generative Pre-trained Transformer（GPT）系列是由OpenAI开发的预训练语言模型，它们在多种NLP任务中取得了令人瞩目的成绩，包括文章生成、代码生成、机器翻译和问答等。GPT系列模型的核心思想是通过无监督学习在大规模语料库上进行预训练，再通过少量数据进行微调以适应特定任务。随着模型容量的增加和训练数据的扩大，GPT系列模型的能力也在不断提升。

模型	发布时间	参数量	预训练数据量
GPT	2018 年 6 月	1.17 亿	约 5GB
GPT	2019 年 2 月	15 亿	40GB
GPT	2020 年 5 月	1,750 亿	45TB

GPT-1：无监督学习与通用预训练

在GPT-1问世之前，传统的自然语言处理（NLP）模型主要依赖于有监督学习，这种方法要求大量带有明确标签的数据进行任务特定的模型训练。然而，有监督学习存在两大局限性：

数据标注的挑战：高质量的标注数据往往难以获取，特别是在一些复杂场景中，如图像标注或情感分析，数据的标签可能模糊或不清晰。
模型泛化能力的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

开源李哥

关注关注

23
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GPT的前世今生：从gpt1到chatgpt的能力提升

皮皮blog

10-24

2981

从2017年google brain提出transformer模型，到2018年基于transformer模型open ai推出了gpt1模型以及google推出了bert模型，到2019-2021年open ai陆续推出gpt2和gpt3，再到2022-2023年推出chat-gpt和gpt4，大语言模型已经发展成了一个具有3个大分支的参天大树[在这里主要写写关于gpt的那些事。

GPT的全面历史和演变：从GPT-1到GPT-4

KompasAI的博客

04-25

4012

探索GPT的演变，揭秘AI如何重塑语言互动的未来。

参与评论您还未登录，请先登录后发表或查看评论

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

zenRRan的博客

03-01

2607

‍知乎：AaronWu（已获作者授权，勿随意转载）链接：https://zhuanlan.zhihu.com/p/609716668编辑：深度学习自然语言处理公众号引言近期，ChatGPT 火遍圈内外，连微博热搜都出现了它的身影。突然之间，好多许久未联系的各行各业的同学好友都发来“问候”：ChatGPT 是什么？其实，ChatGPT 的成功并非一朝一夕，而是 OpenAI 长达 4 年多持续努力...

GPT-1、GPT-2和GPT-3模型详解及其进化之路

皮皮blog

09-22

7265

原文[OpenAI gpt模型基于Transformer的语言模型，其利用Transformer的decoder结构来进行单向语言模型的训练。GPT的核心思想是先通过无标签的文本去训练生成语言模型，再根据具体的NLP任务（如文本蕴涵、QA、文本分类等），来通过有标签的数据对模型进行fine-tuning。文中所用的网络结构如下：。

GPT-1，GPT-2和GPT-3发展历程及核心思想，GTP-4展望

热门推荐

yimenren的博客

01-03

3万+

前言 Generative Pre-trained Transformer（GPT）系列是由OpenAI提出的非常强大的预训练语言模型，这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果，例如文章生成，代码生成，机器翻译，Q&A等，而完成这些任务并不需要有监督学习进行模型微调。而对于一个新的任务，GPT仅仅需要非常少的数据便可以理解这个任务的需求并达到接近或者超过state-of-the-art的方法。当然，如此强大的功能并不是一个简单的模型能搞定的，GPT模型的训练需要超大的训练语

【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

吴师兄大模型的博客

12-31

3759

本文深入介绍了生成式预训练模型（GPT）的演进历程及核心技术创新，从GPT-1到GPT-4的技术演变展示了大语言模型在自然语言处理领域的飞速发展。文章详细解析了各代模型的关键突破：GPT-1通过无监督预训练和有监督微调奠定基础；GPT-2以Zero-shot学习和架构优化提升任务迁移能力；GPT-3提出Few-shot学习，实现少样本任务泛化；ChatGPT结合人类反馈强化学习（RLHF），优化对话交互表现；GPT-4通过多模态输入扩展了任务范围和应用场景。最后，文章总结了GPT系列的技术启示与未来展望，强

ChatGPT发展历程图解析：从GPT-1到GPT-4的技术演进与关键突破

2600_94959826的博客

03-24

289

对于刚接触大语言模型（LLM）领域的开发者而言，面对ChatGPT及其背后GPT系列模型的快速迭代，常常会感到困惑：从GPT-1到GPT-4，每一代究竟改进了什么？仅仅是参数量的堆砌吗？理解这条清晰的技术演进脉络，不仅能帮助我们把握LLM发展的内在逻辑，更能为未来的技术选型和预判趋势提供坚实的历史视角。本文将通过梳理一张清晰的“发展历程图”，系统解析GPT系列模型的核心演进路径。

从GPT-1到GPT-3：大语言模型进化史与Few-Shot Learning的崛起

weixin_29164497的博客

03-14

本文系统梳理了从GPT-1到GPT-3的大语言模型进化历程，重点剖析了Few-Shot Learning能力的涌现机制。GPT-1确立了“预训练-微调”范式，GPT-2探索了零样本学习，而GPT-3凭借1750亿参数和高质量数据，实现了少次学习的质变，展示了模型规模与数据工程如何催生上下文学习等高级能力。

NLP基础 GPT和BERT

Maxwell_Newton的博客

06-27

214

但GPT-3模型是2020年发布的，到ChatGPT服务问世还过去了接近三年，这是因为此时的模型在指令遵循方面很差，类似于一个强大的野兽，不受人类控制。最终的测试效果，也证明了扩大参数规模的有效性，GPT-2不再像GPT-1一样需要对输入进行预处理，然后做微调，才能处理特定任务了，直接把在输入基础上用自然语言描述需要做的任务，就能在文本翻译，文本分类等特定任务上去的超过专用模型的效果，这就是所谓的，无需微调的“零样本（Zero-shot）”多任务能力。通过强化学习不断调整模型参数。

GPT-5.6 Ultra模式多子智能体并行架构技术解析

最新发布

weixin_44822948的博客

06-28

550

OpenAI发布GPT-5.6系列，首次将多智能体协作功能内置到模型内部，标志着AI进入"自动组队"时代。该系列包含三款模型：旗舰级Sol、均衡型Terra和轻量级Luna，分别针对不同场景需求。其中Sol的Ultra模式通过模型内部自主调度子智能体实现任务并行处理，在Terminal-Bench 2.1测试中达到91.9%的高分，比标准模式提升3.1个百分点。OpenAI投入210万美元进行红队测试，构建了四层安全架构。相比手动编排的多Agent系统，Ultra模式牺牲了过程可控性但大幅提升了自动化程度，

从 AutoGPT 到 Manus：AI Agent 的演进路径

u010528718的博客

06-23

269

从 AutoGPT 那个略显粗糙的 proof-of-concept，到如今 Manus、Claude Code 等产品级的 Agent 工具，这段演进路径清晰地展示了 AI Agent 从实验到落地的全过程。每一次迭代都在解决上一代的痛点：AutoGPT 缺稳定性，Function Calling 给了结构；单 Agent 缺效率，多 Agent 给了协作；框架缺标准，MCP 给了协议；推理缺执行，沙箱给了行动空间。对于开发者来说，现在正是进入 Agent 开发的最佳时机。

我用 GPT 从零搭了一个 AIDD 文献自动化站点：从想法、提示词到本地跑通的完整实践

step by step

06-23

377

AIDD Scholar 现在还不是一个“最终版产品”，但它已经完成了我最关心的那部分能力建设：能自动抓 AIDD 相关论文；能通过规则控制成本；能用大模型做结构化解读；能以静态内容方式沉淀结果；能在本地完成完整运行和浏览。对我来说，这就已经很有价值了。因为它让我不再只是被动地跟论文赛跑，而是开始拥有一个属于自己的、可持续迭代的文献监测工具。后面，我还会继续完善它的分类体系、期刊指标、筛选体验和页面样式。

OpenAI 发布 GPT-5.2，新增 /compact 端点支持超长上下文推理

Kimi的博客

06-22

228

经过三天的重构，我们彻底废弃了原来基于 GPT-4o 的“MapReduce”多智能体分发架构，将原有的 10 多个处理节点整合成了一个基于 GPT-5.2 +/compact的超级节点。不仅调用成本下降了约 40%，端到端的审查耗时更是缩短了 3 倍以上。💬你怎么看？看到这里的兄弟们，我想问大家一个架构问题：你们生产环境的 AI 编码/代码审查辅助工具，上下文窗口超限是怎么解决的？暴力派：直接等 GPT-5.2 满血开放，后续全量依赖/compact端点解决？保守派。

免费白嫖GPT-5.5和Claude Opus 4.8等旗舰模型

XiaoqiangClub的博客

06-23

603

本文分享一个可免费使用多家旗舰AI模型的平台，支持 GPT-5.5、Claude 4.8、Gemini 3.1 Pro 等模型对话与API调用，并分享如何通过中转接口实现标准化接入开发工具 🚀，适合开发者与AI应用爱好者参考💡

视觉领域的“GPT时刻”已经到来（THS）

技术引领业务创新

06-26

394

技术迭代升级，GPT-Image-2领跑商用生图赛道

quitezz的博客

06-24

460

当下AI生图商用场景持续爆发，电商海报、品牌视觉、新媒体配图、商用示意图等需求激增，传统生图模型普遍存在文字出错、构图混乱、分辨率不足、适配性差等商用痛点。全新迭代的GPT-Image-2打破行业瓶颈，凭借语言推理融合、高精度渲染、高适配商用属性，成为商用生图赛道的标杆级模型。

2026深度实测GPT-5.5：编程能力跃升、幻觉砍半、多模态跨入“理解”时代，开发者如何选型？

Xiaofeng3693的博客

06-25

630

GPT-5.5在多模态理解和编程能力上有显著提升，首次突破ProgramBench挑战，能盲写完整程序。测试显示，其在Go并发、TypeScript和基础算法任务中表现突出，但在工程细节如错误处理和CSS优化上仍有不足。相比Claude和Gemini，GPT-5.5更全能，Claude更严谨，Gemini性价比更高。使用时需注意提示词明确、人工审查代码、上下文限制及中文适配问题。总体而言，GPT-5.5能力全面但需结合场景选择使用。

PS 怎么把人像 p 到另一张照片上？零基础无痕合成完整教程

Chen_BING_的博客

06-25

442

本文详细介绍了Photoshop中人像迁移合成的两种方案：PS原生手动操作与AI智能插件。原生方法分纯色/复杂背景讲解精准抠图技巧（魔棒工具、选择并遮住功能），并详解人像尺寸调整、光影匹配、色调统一、投影优化四步融合法。针对手动合成效率低、效果差的痛点，推荐StartAI插件Banana修图功能，30秒实现AI自动抠图、光影适配与无痕融合，支持批量处理。文章对比两种方案适用场景，建议高频需求用户选择AI工具，同时提供插件安装指南及免费体验邀请码（K4rE3M），助力用户快速产出自然真实的合成作品。

GPT-5.6架构深度拆解 - 微元算力(weytoken)

lulu1216544078的博客

06-27

242

2026年6月26日，OpenAI发布GPT-5.6系列，三款模型Sol/Terra/Luna以天体命名，对应太阳/大地/月亮。旗舰Sol在Terminal-Bench 2.1 ultra模式拿下91.9%，一举超越Mythos 5的88.0%。更值得关注的是，GPT-5.6首次引入ultra推理模式——模型自动拆解任务、启动子智能体并行处理，将推理架构从"单线程深思"推向"多智能体协同"。