KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models

最新推荐文章于 2026-06-28 22:07:23 发布

原创最新推荐文章于 2026-06-28 22:07:23 发布 · 6 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

该研究针对当前大语言模型（LLMs）指令遵循能力评估以英语为中心、忽视其他语言 linguistic 和文化特性的问题，聚焦韩语的独特性（复杂句法、黏着结构、敬语体系、双数词系统等），提出了首个专门用于评估韩语指令遵循能力的基准测试集 KITE（Korean Instruction-following Task Evaluation）。

1. KITE 基准构成

KITE General：含 427 条指令，基于现有英语指令遵循数据集（IFEval）经自动化翻译+人工过滤（剔除英语特有场景如大小写要求）生成，确保跨语言评估的一致性，提供基础性能基准。
KITE Korean：含 100 条原创指令，针对韩语特有语言文化特性设计 4 类任务：藏头诗生成（音节约束）、助词省略（语法准确性）、敬语转换（语体适配）、数词系统切换（固有/汉字数词），每类 25 条指令。

2. 评估方法与实验

采用「自动化指标+人工评估」结合的方式，自动化评估通过分解指令为子任务、按规则评分计算准确率；人工评估由 5 名韩语母语专家完成，验证自动化评分的可靠性。
测试模型涵盖通用模型（GPT-3.5-turbo、GPT-4o、Llama 3 8B 等）和韩语专用模型（SOLAR 1 Mini Chat、HyperCLOVA X 003 等），涉及零样本、少样本（1/3/5 样本）场景。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。