空天荟~电子科学与技术

DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较

DOI：10.11999/JEIT250849 CSTR：

文献基本信息

中文标题：DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较

英文标题：

来源期刊：电子与信息学报

基金项目：教育部产学合作协同育人项目(2506193449)、北京航空航天大学虚拟现实技术与系统全国重点实验室开放课题(VRLAB2025C15)及首都医科大学附属北京天坛医院院内科研基金(管理专项，TYGL202402)

作者：张扬子¹ 许婷² 高兆亚³ 司振铎⁴ 徐蔚然⁵

作者单位：1. 北京大学肿瘤医院暨北京市肿瘤防治研究所放射治疗科，恶性肿瘤发病机制及转化研究教育部重点实验室北京 100142
2. 北京大学肿瘤医院暨北京市肿瘤防治研究所消化肿瘤内科，恶性肿瘤发病机制及转化研究教育部重点实验室北京 100142
3. 北京大学首钢医院胃肠外科北京 100144
4. 北京大学首钢医院肝胆胰外科北京 100144
5. 首都医科大学附属北京天坛医院肿瘤内科北京 100070

摘要：目的本研究旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现，评估其与MDT专家意见的一致性，为大语言模型(LLMs)的临床实践提供循证依据与优化方向。方法研究团队基于真实世界数据与最新指南，设计了6例涵盖不同肿瘤负荷、基因突变谱和体能状态的虚拟CRLM病例，通过结构化的提示策略，在DeepSeek-V3.1与ChatGPT-5模型中分别生成MDT治疗建议。由4名MDT专家(消化肿瘤内科、胃肠外科、肝胆外科、放疗科各1名)采用7维度5级李克特量表对模型输出进行独立评审。并通过统计学分析对两款模型在各个病例、各项维度和各个学科的表现分别进行比较。结果两款大语言模型在所有病例中的综合得分均≥ 4.0分(满分5分)，表明其在复杂的MDT决策场景下具备可接受的临床效能。在跨维度分析中，两者在清晰度、个体化程度、抗幻觉能力和伦理安全四项上得分较高，而在准确性、全面性和前沿性方面仍有一定提升空间。DeepSeek-V3.1在整体表现(4.27 ± 0.77 vs 4.08 ± 0.86)、前沿性(3.90 ± 0.65 vs 3.42 ± 0.72)与伦理安全(4.87 ± 0.34 vs 4.58 ± 0.65)方面显著优于ChatGPT-5(P < 0.05)；在放疗领域亦明显领先(4.55 ± 0.67 vs 3.38 ± 0.91，P<0.001)。ChatGPT-5则在胃肠外科领域表现优于DeepSeek-V3.1(4.48 ± 0.67 vs 4.17 ± 0.85，P = 0.02)。结论 DeepSeek-V3.1与ChatGPT-5均表现出为CRLM-MDT决策提供可靠建议的良好能力。其中，DeepSeek-V3.1在前沿知识整合、伦理安全性及放射肿瘤学领域展现出显著优势，而ChatGPT-5则在胃肠外科方面表现更优，二者形成优势互补。本研究证实了大型语言模型作为“MDT协作者”的可行性，为缩小地域间诊疗水平差距、提升临床决策效率提供了一项便捷可靠的技术方案。然而，模型幻觉与证据等级不足仍是其当前面临的主要局限。未来，通过真实世界临床验证、证据体系追溯及人类反馈强化学习等机制，有望进一步推动LLMs成为CRLM-MDT决策中更为强大的辅助工具。

全文链接： https://jeit.ac.cn/cn/article/doi/10.11999/JEIT250849