On the Use of Large Language Models for Qualitative Synthesis

一、文章主要内容总结

该研究聚焦大型语言模型(LLMs)在定性综合(QS)中的应用挑战与实践探索,核心围绕“使用LLMs进行可靠且有用的定性综合面临哪些挑战”这一研究问题展开。

  1. 背景与意义:定性综合是系统评价(SR)的关键阶段,需整合多研究的非数值结果以提炼模式、洞见,但该阶段存在报告不规范、方法应用不一致等问题。LLMs虽为SR过程提供潜在支持,但应用于流程不明确的QS阶段可能放大现有缺陷,削弱研究可信度。
  2. 研究方法:采用协作式自民族志方法,开展两项试验,分别使用不同LLM(ChatGPT-4o、ChatGPT 5 Thinking、Gemini 2.5 Pro)支持不同QS方法(主题综合、分类法+演绎内容分析)。从方法严谨性、结果实用性双维度评估,并结合LLM技术特性(如训练机制、幻觉问题)进行分析,同时提炼了“可靠QS的核心特征”作为评估标准。
  3. 核心挑战:识别出13项关键挑战,包括:难以把握QS的细微差异、对LLM能力与局限认知不足、QS结果评估难度大、LLM对提示词敏感、存在幻觉与错误输出、缺乏透明度、无法真正实现解释性分析、固有偏见(偏向WEIRD群体)、可重复性差、非为QS任务量身设计、评估需大量人力、易混淆形式与内容、因创新性导致过度使用倾向。
  4. 结论与建议:LLMs仅适用于论文摘要、描述性分类等窄任务,其支持的QS在验证成本上可能不低于人工合成;使用时需遵循6项核心建议,包括明确QS特征、深入理解QS方法、实施人机协作的风险管理、针对性解决LLM特有问题、采用预定义评估标准、强调反思
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值