文章核心总结与翻译
一、主要内容
文章提出一种名为QueRE(Follow-up Question Representation Elicitation)的黑箱方法,通过向大语言模型(LLM)发起跟进问题,提取响应中的“是” token 概率作为特征,训练线性预测器来预测模型行为。该方法可实现三大核心目标:预测LLM在问答和推理任务中的输出正确性、检测受对抗性系统提示影响的恶意模型、区分不同架构/规模的黑箱LLM。实验表明,QueRE在多个基准测试中表现优于白箱方法(如基于模型内部状态的RepE),且在无真实概率时可通过采样近似,泛化能力强、计算效率高。
二、创新点
- 提出纯黑箱特征提取范式:仅依赖LLM的输入输出,通过跟进问题获取预测特征,无需访问模型内部参数或激活状态,适用于闭源API场景。
- 多任务通用有效性:单一方法同时支持性能预测、对抗检测、模型区分三大任务,且在问答、推理、代码生成等场景中均表现优异。
- 理论与工程双重保障:证明采样近似概率的收敛性,在无API概率输出时仍能稳定工作;同时支持并行提问,计算开销低, latency-精度权衡优于现有方法。
- 强泛化能力:跨数据集、跨模型规模的迁移性能突出,且能生成紧致的泛化边界,适用于高风险场景部署。
三、关键部分翻译(Markdown格式)
Abstract
可靠预测语言模型的行为(例如其输出是否正确或是
订阅专栏 解锁全文
1799

被折叠的 条评论
为什么被折叠?



