On the Use of Large Language Models for Qualitative Synthesis

最新推荐文章于 2026-06-28 22:07:23 发布

原创最新推荐文章于 2026-06-28 22:07:23 发布 · 7 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

该研究聚焦大型语言模型（LLMs）在定性综合（QS）中的应用挑战与实践探索，核心围绕“使用LLMs进行可靠且有用的定性综合面临哪些挑战”这一研究问题展开。

背景与意义：定性综合是系统评价（SR）的关键阶段，需整合多研究的非数值结果以提炼模式、洞见，但该阶段存在报告不规范、方法应用不一致等问题。LLMs虽为SR过程提供潜在支持，但应用于流程不明确的QS阶段可能放大现有缺陷，削弱研究可信度。
研究方法：采用协作式自民族志方法，开展两项试验，分别使用不同LLM（ChatGPT-4o、ChatGPT 5 Thinking、Gemini 2.5 Pro）支持不同QS方法（主题综合、分类法+演绎内容分析）。从方法严谨性、结果实用性双维度评估，并结合LLM技术特性（如训练机制、幻觉问题）进行分析，同时提炼了“可靠QS的核心特征”作为评估标准。
核心挑战：识别出13项关键挑战，包括：难以把握QS的细微差异、对LLM能力与局限认知不足、QS结果评估难度大、LLM对提示词敏感、存在幻觉与错误输出、缺乏透明度、无法真正实现解释性分析、固有偏见（偏向WEIRD群体）、可重复性差、非为QS任务量身设计、评估需大量人力、易混淆形式与内容、因创新性导致过度使用倾向。
结论与建议：LLMs仅适用于论文摘要、描述性分类等窄任务，其支持的QS在验证成本上可能不低于人工合成；使用时需遵循6项核心建议，包括明确QS特征、深入理解QS方法、实施人机协作的风险管理、针对性解决LLM特有问题、采用预定义评估标准、强调反思

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。