文献基本信息
中文标题:DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较
基金项目:教育部产学合作协同育人项目(2506193449)、北京航空航天大学虚拟现实技术与系统全国重点实验室开放课题(VRLAB2025C15)及首都医科大学附属北京天坛医院院内科研基金(管理专项,TYGL202402)
作 者:张扬子1
许婷2
高兆亚3
司振铎4
徐蔚然5
作者单位:1. 北京大学肿瘤医院暨北京市肿瘤防治研究所放射治疗科,恶性肿瘤发病机制及转化研究教育部重点实验室 北京 100142
2. 北京大学肿瘤医院暨北京市肿瘤防治研究所消化肿瘤内科,恶性肿瘤发病机制及转化研究教育部重点实验室 北京 100142
3. 北京大学首钢医院胃肠外科 北京 100144
4. 北京大学首钢医院肝胆胰外科 北京 100144
5. 首都医科大学附属北京天坛医院肿瘤内科 北京 100070
摘 要:目的 本研究旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现,评估其与MDT专家意见的一致性,为大语言模型(LLMs)的临床实践提供循证依据与优化方向。 方法 研究团队基于真实世界数据与最新指南,设计了6例涵盖不同肿瘤负荷、基因突变谱和体能状态的虚拟CRLM病例,通过结构化的提示策略,在DeepSeek-V3.1与ChatGPT-5模型中分别生成MDT治疗建议。由4名MDT专家(消化肿瘤内科、胃肠外科、肝胆外科、放疗科各1名)采用7维度5级李克特量表对模型输出进行独立评审。并通过统计学分析对两款模型在各个病例、各项维度和各个学科的表现分别进行比较。 结果 两款大语言模型在所有病例中的综合得分均≥ 4.0分(满分5分),表明其在复杂的MDT决策场景下具备可接受的临床效能。在跨维度分析中,两者在清晰度、个体化程度、抗幻觉能力和伦理安全四项上得分较高,而在准确性、全面性和前沿性方面仍有一定提升空间。DeepSeek-V3.1在整体表现(4.27 ± 0.77 vs 4.08 ± 0.86)、前沿性(3.90 ± 0.65 vs 3.42 ± 0.72)与伦理安全(4.87 ± 0.34 vs 4.58 ± 0.65)方面显著优于ChatGPT-5(P < 0.05);在放疗领域亦明显领先(4.55 ± 0.67 vs 3.38 ± 0.91,P<0.001)。ChatGPT-5则在胃肠外科领域表现优于DeepSeek-V3.1(4.48 ± 0.67 vs 4.17 ± 0.85,P = 0.02)。 结论 DeepSeek-V3.1与ChatGPT-5均表现出为CRLM-MDT决策提供可靠建议的良好能力。其中,DeepSeek-V3.1在前沿知识整合、伦理安全性及放射肿瘤学领域展现出显著优势,而ChatGPT-5则在胃肠外科方面表现更优,二者形成优势互补。本研究证实了大型语言模型作为“MDT协作者”的可行性,为缩小地域间诊疗水平差距、提升临床决策效率提供了一项便捷可靠的技术方案。然而,模型幻觉与证据等级不足仍是其当前面临的主要局限。未来,通过真实世界临床验证、证据体系追溯及人类反馈强化学习等机制,有望进一步推动LLMs成为CRLM-MDT决策中更为强大的辅助工具。