王者归来!F2LLM-v2再下一城,登顶MTEB泰语、西语新榜单

就在不久前,CodeFuse 发布的 F2LLM-v2 模型家族以其在17个 MTEB 基准测试中横扫11项 SOTA 的卓越表现,赢得了社区的广泛关注和认可。

今天,我们激动地向大家宣布:F2LLM-v2 再次用实力证明了其强大的多语言能力。

全球最权威的嵌入模型评测榜单 MTEB(Massive Text Embedding Benchmark)最近推出了针对泰语和西班牙语的全新测试基准。在这两个新战场上,F2LLM-v2 不负众望,再度登顶,展现了在更多语种上的亮眼表现。

往期回顾:

横扫11项榜单SOTA:高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了

🏆 泰语新榜单:F2LLM-v2 包揽前六

在泰语排行榜上,F2LLM-v2 模型家族展现了非凡的实力,14B、8B、4B、1.7B、0.6B、330M 模型强势占据了榜首前六的位置,大幅领先于包括 12B 参数量的 KaLM-Embedding 在内的其他模型。

🏆 西班牙语新榜单:F2LLM-v2 包揽前三,稳居开源模型第一梯队

在竞争同样激烈的西班牙语榜单上,F2LLM-v2 系列模型同样表现出色,与一众顶尖模型(包括 Gemini-embedding-001 等闭源 API)同台竞技,包揽总榜前三,在开源模型中持续领跑。

路线验证:数据驱动的成果

F2LLM-v2 在泰语和西班牙语新榜单上的成功并非偶然,而是我们从一开始就坚持的“语言包容性”设计理念的必然结果。

在 F2LLM-v2 的技术报告中我们就曾提到:

“我们的数据管理流程是由真实世界的数据可用性驱动的,而不是为特定的基准测试进行优化。例如,尽管MTEB当时缺少西班牙语、阿拉伯语、意大利语等专用基准,我们的数据集中仍然包含了大量这些语言的数据。”

正是这种“先有真实世界需求,再有模型卓越能力”的研发哲学,使得 F2LLM-v2 能够在新发布的、未经过“应试”优化的语种上依然展现出 SOTA 级别的性能。这充分验证了我们训练数据的多样性和模型架构的泛化能力。

F2LLM-v2:高性能、全尺寸、超高效的多语嵌入模型

让我们再次回顾 F2LLM-v2 领先成绩背后的核心亮点:

1. 极致包容

  • 海量数据:基于6000万条高质量公开数据训练,覆盖282种自然语言和超40种编程语言。

  • 关注长尾:特别关注并增强了中、低资源语言的性能,致力于消除语言数字鸿沟。

2. 全面领先

  • SOTA收割机:在最初的17个MTEB榜单中已斩获11项第一,如今随着泰语、西语榜单的登顶,其领先地位得到进一步巩固。

  • 覆盖广泛:在代码、医疗、欧洲、斯堪的纳维亚、印度语族等多个垂直和区域性榜单上均表现卓越。

3. 高效灵活

  • 全尺寸覆盖:提供从 80M 到 14B 的8种不同尺寸模型,满足从边缘计算到企业级应用的全场景需求。

  • 前沿技术融合:结合了模型剪枝、知识蒸馏和俄罗斯套娃等技术,实现了性能与效率的最佳平衡。即使是小尺寸模型,也具备超越同级对手的强大实力。

4. 完全开源

  • 透明可复现:我们秉持开放研究的理念,已将所有模型、训练数据、代码和中间检查点完全开放,希望能为社区的研究和应用注入新的活力。

结语

F2LLM-v2在泰语和西班牙语新榜单上的卓越表现,再次印证了其作为新一代多语言嵌入模型的标杆地位。我们始终秉持着构建一个真正包容、普惠的多语言AI世界的初心,坚信 AI 的未来是多元和包容的。F2LLM-v2 将继续作为连接不同语言和文化的桥梁,赋能全球开发者和研究者。

我们诚挚地邀请您体验F2LLM-v2,共同探索多语言AI的无限可能!

传送门 🚀

关于我们

我们是蚂蚁集团的风险智能引擎团队。团队成立 4 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于大模型、Agent、强化学习、AIops、时序多模态的同学欢迎联系 wr189061@antgroup.com,期待与你一起,探索AI的无限可能!🌟

如果您想更快地获取到最新信息,欢迎加入我们的微信群。

企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

已经博主授权,源码转载自 https://pan.quark.cn/s/fb533687a163 《C++经典代码大全》是部专门针对C++入门者的重要参考资料,其核心目标在于提供易于理解的C++编程范例,旨在协助学者迅速领会C++语言的关键概念与技术要点。此压缩文件所包含的信息或许涵盖了从基础到高级的各类C++编程技巧,涉及面向对象编程中的类与对象、函数的应用、程序流程控制、数据结构设计、模板技术以及异常管理等多个关键领域。 1. **基础语法** - 变量声明与初始化:掌握如何声明并初始化不同数据类型的变量,例如整型(int)、浮点型(float)、字符型(char)等。 - 基本输入输出:学习运用`std::cin`和`std::cout`执行标准数据输入与输出操作。 - 控制流语句:熟练运用条件语句(if、if-else、switch-case)以及循环语句(for、while、do-while)来控制程序流程。 2. **类与对象** - 类的定义:学会如何构建类,包含其成员变量与成员函数的设定。 - 对象的创建与使用:掌握如何实例化对象,并经由对象访问类的成员函数。 - 封装:理解封装的理念,并学习使用private和public访问修饰符来保护数据。 - 构造函数与析构函数:掌握如何为类定义自定义的构造过程与析构过程。 3. **函数** - 函数的定义与调用:理解函数的功能与作用,以及如何进行函数的定义和调用。 - 函数参数:精通不同类型的参数传递方法,包括值传递和引用传递。 - 函数重载:学习在同作用域内定义多个具有相同名称但参数列表不同的函数。 - 函数指针:了解函数指针的运用方法,及其在回调函数和模板中的应用场景。 4. **数组与字符串** -...
内容概要:本文研究了种计及自适应预测修正的微电网模型预测控制(MPC)优化调度方法,并提供了Matlab代码实现。该方法针对微电网中风电出力等可再生能源的强不确定性,引入自适应预测修正机制,动态调整预测模型以提升短期功率预测精度,从而增强调度决策的准确性与系统运行的鲁棒性。研究构建了完整的MPC滚动优化框架,涵盖预测模型建立、多时间尺度优化求解、实时反馈校正等关键环节,实现了系统运行成本最小化、能源高效利用与功率平衡的多重目标。所提方法有效应对了负荷波动与能源出力随机性带来的调度挑战,提升了微电网能量管理系统的智能化水平。; 适合人群:具备电力系统、自动化、控制理论或相关领域基础知识的研究生、科研人员及工程技术人员,尤其适合从事微电网优化、可再生能源集成、模型预测控制研究的专业人士,熟悉Matlab编程与优化算法者更佳。; 使用场景及目标:①应用于高比例可再生能源接入的微电网能量管理系统,提升调度方案的实时性与鲁棒性;②为不确定性环境下电力系统动态优化控制策略的研究提供仿真验证平台;③支持学术论文复现、科研课题攻关及实际工程项目的前期技术验证与方案预研。; 阅读建议:建议结合Matlab代码逐模块分析算法实现细节,重点关注预测模型构建与反馈修正机制的设计逻辑,通过调整风电出力、负荷需求等场景参数进行仿真实验,深入理解MPC在微电网调度中的滚动优化特性与自适应修正能力。
代码下载链接: https://pan.quark.cn/s/a4b39357ea24 在信息技术领域中,字符编码扮演着处理文本数据的核心角色。本文着重研究在微控制器系统中,运用C语言如何将UTF-8编码格式转换为GBK编码格式,旨在处理串口通信、TF卡存储或LCD显示屏上可能出现的中文显示错误问题。我们将详细剖析UTF-8与GBK编码的运作机制,并研究基于Keil开发平台的C语言实现流程。 UTF-8是种被广泛接纳的Unicode字符编码方案,它采用可变长度的字节序列来表示字符,每个Unicode字符都对应个独无二的数字标识,即码点。UTF-8的个显著特点是对ASCII字符(英文文本)保持不变,因此在网络传输和文件存储方面展现出优秀的兼容性。 GBK编码,正式名称为“汉字内码扩展规范”,是中国大陆的标准化编码,是对GB2312编码的延伸,总共涵盖了20902个汉字及其他符号,每个字符使用两个字节来表示。GBK在GB2312的基础上扩充了许多繁体字、少数民族文字以及特殊符号,目的是满足更广泛的语言需求。 将UTF-8转换为GBK的主要难点在于GBK是种固定长度的双字节编码,而UTF-8则是可变长度的编码。转换过程中需要将UTF-8的多字节序列解析为相应的Unicode码点,然后依据GBK的编码规则查找匹配的编码。这过程通常借助查表法完成,即建立个从Unicode码点到GBK编码的映射库。 在Keil开发环境中,使用C语言实现UTF-8到GBK的转换可以遵循以下步骤: 1. **构建查表法所需的GBK编码库**:需要准备个包含所有GBK字符二进制形式的GBK编码库。这个库通常是个二进制文件,其大小大约为41KB。 2. **解析UTF-8编码**...
内容概要:本文提出种基于CNN-BiGRU-Attention混合神经网络模型的风电功率预测方法,旨在提升风力发电功率预测的精度。该模型面向多变量输入的单步预测任务,首先利用卷积神经网络(CNN)提取风速、风向、温度等气象因素的局部时空特征,再通过双向门控循环单元(BiGRU)充分捕捉时间序列数据的前后向时序依赖关系,最终引入注意力(Attention)机制对关键历史时刻的特征进行自适应加权,强化对预测结果贡献更大的时间步信息,从而显著提高预测准确性。整个模型在Matlab平台上实现,特别适用于处理风电数据固有的强随机性与剧烈波动性,能够有效应对复杂多变气象条件下的功率预测挑战,为电网调度提供高精度的数据支撑。; 适合人群:具备定机器学习和深度学习理论基础,熟悉Matlab编程语言,从事能源发电预测、电力系统调度、智能算法开发与应用等相关领域的科研人员、工程技术人员及高校研究生。; 使用场景及目标:①应用于风电场实际运行中的短期功率预测,为电网的安全稳定调度与经济运行提供可靠依据;②作为深度学习在可再生能源预测领域应用的典型案例,帮助学习者深入理解CNN、RNN变体(BiGRU)及Attention机制的协同建模原理与实现方法;③为后续研究多步预测、模型轻量化或网络结构优化等方向提供坚实的技术参考和可复用的代码基础。; 阅读建议:学习者应重点关注模型各组件的设计思路与集成方式,结合提供的Matlab代码,系统掌握数据预处理、模型搭建、训练流程及性能验证的完整环节,建议通过调整输入变量组合、优化网络超参数或替换数据集等方式,观察模型性能变化,以深入理解该混合架构的核心优势与调优策略。
内容概要:本文系统阐述了基于多种改进型灰狼优化算法(包括GWO、MP-GWO、灰狼-布谷鸟混合优化算法及CS-GWO多种群算法)实现的无人机路径规划技术,并配套提供完整的Matlab代码实现方案。研究聚焦于在复杂地形与动态环境中,利用智能优化算法模拟灰狼群体的等级结构与协作捕食机制,以高效搜索全局最优飞行路径,提升无人机避障能力与路径规划精度。相较于传统方法,所采用的混合与多策略改进算法有效缓解了早熟收敛与陷入局部最优的问题,显著增强了算法的探索与开发平衡能力。此外,文档还展示了该技术在多学科交叉领域的广泛应用前景,涵盖路径规划、机器学习、信号处理、电力系统优化等科研方向,体现了较强的技术通用性与工程实用价值。; 适合人群:具备定编程基础与Matlab使用经验,从事智能优化算法研究、无人机控制、自动导航、路径规划及相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于市密集区、山区或存在动态障碍物的复杂场景下的无人机三维路径规划与实时避障;②为科研项目提供可复现的智能优化算法实现案例,支撑算法性能对比与创改进;③服务于学术论文复现、毕业设计、课题开发等实际科研与教学需求,加速研究成果落地。; 阅读建议:建议结合Matlab代码与算法理论同步研习,重点分析各算法的参数设置、收敛特性及路径规划效果图,深入理解其优化机制差异,可进步拓展至多无人机协同规划、动态环境适应等高级应用场景进行实践验证与创研究。
已经博主授权,源码转载自 https://pan.quark.cn/s/7d6084144924 Linux系统管理员经常遭遇磁盘空间不足的挑战,这会导致磁盘读写操作受阻,同时使得应用程序无法正常运行。磁盘满载的原因多种多样,包括系统安装规划不当、日志文件急剧膨胀以及网络通信故障等。应对这问题需要对磁盘空间进行清理和优化。本文将介绍十种磁盘清理策略,旨在帮助用户解决磁盘空间不足的困境。 1. 定期对关键文件系统进行扫描,并进行对比,以分析哪些文件频繁被访问 通过执行 `#IS-IR/home > files.txt` 和 `#diff filesold.txt files.txt` 命令,对重要文件系统实施扫描和对比,识别那些经常被读取和写入的文件,从而预判空间增长趋势,并考虑对不常访问的文件实施压缩,以减少其占用的存储空间。 2. 检查文件系统的 inodes 消耗情况 使用 `#df -i /home` 命令来检查空间文件系统的 inodes 消耗情况,如果仍有大量的 inodes 可用,表明是大文件占用了空间,否则可能是许多小文件占用了空间。 3. 识别占用空间较大的目录 使用 `#du -hs /home` 命令查看 `/home` 所占用的空间,并借助 `#du /awk $1 > 2000` 命令找出 `/home` 下占用空间超过 1000m 的目录。 4. 确定占用空间较大的文件 通过 `#find /home -size +2000K` 命令来找出占用空间较大的文件。 5. 查找最近修改或创建的文件 使用 `#TOUCH -t 08190800 test` 命令为某个文件设定个特定的时间,然后运用 `#find /home -newer test -...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值