【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”

北京时间 26 号晚,除了 GPT-4o 在图像生成方面放出大招,Google 也不甘示弱的发布了新模型 Gemini 2.5 pro,并且在各大榜单实现了“屠榜”,在多模态交互,数学科学,编程方面实现“遥遥领先”,跟 Openai 打了一次漂亮的“双响炮”。

Image

目录:

1. Gemini 2.5 pro 实现屠榜?

2. Google 官方实测案例

3. 团队一手实测

    3.1 多模态能力测试

       3.1.1 微表情测试

       3.1.2 三门问题测试

    3.2 编程,科学与数学能力测试

       3.2.1 编程能力测试

       3.2.2 科学能力测试

       3.2.3 数学能力测试

4. 总结和期待

01. Gemini 2.5 pro 实现屠榜?

Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:

Image

Google 官方发布的信息中,宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”,Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃,以超过 Grox-3 模型 40 分的成绩目前位居第一名。

Image

详细的对比数据可见上表

Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩,特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。

Image

Image

详细的对比数据可见上表

Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似,比上一代 Gemini 有了巨大的飞跃。

Image

Gemini在WebDev Arena中的排名情况

那么,这次 Gemini 2.5 pro 在实践中表现如何呢?

关注我们,及时获取更多行业内容和资讯!

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。

14篇原创内容

公众号

02. 官方实测

编程与视觉理解大师?

对此,Gemini 官方给出了几个实际的案例:

首先,看看 Gemini 对任务的理解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值