食管癌生存预测：XGBoost模型如何实现精准预后评估？

基于SEER数据库9454例食管癌患者数据，本研究通过Boruta算法筛选T/N/M分期等9项核心特征，证实XGBoost模型在术后1-5年生存预测中表现最优（AUC 0.69-0.71），结合SHAP分析明确T3期、N1期转移等关键危险因素，为临床个体化治疗提供有效工具。

修正：

本研究基于 SEER 数据库 2004–2022 年的数据，筛选出 9454 例可切除食管癌患者并构建<均衡>队列。通过 Boruta 算法筛选出 T/N/M 分期、年龄、分化程度等 9 项核心预测特征，经比较 5 种机器学习算法后，证实 XGBoost 模型在术后 1、3、5 年生存预测中表现最优（AUC 分别为 0.691、0.711、0.712），且其 DCA 净效益和 Brier 评分均优于其他模型。结合 SHAP 分析进一步明确 T3 期肿瘤、N1 期淋巴结转移及年龄＞65 岁为关键危险因素；Kaplan-Meier 亚组分析显示，T1 期、N0 期及高分化患者的生存率显著更高。该具有可解释性的精准预测模型为临床个体化治疗决策与预后评估提供了有效工具。

理由：

“数据”前应加“的”，构成“……的数据”，语法更完整。
“构建均衡队列”表述不准确，“均衡队列”在流行病学或统计学中通常指通过匹配或加权使组间平衡的队列，但原文未说明如何实现“均衡”。若实际意为“用于分析的队列”或“经过筛选后的队列”，则“均衡”属误用。此处暂保留“队列”，将“均衡”加标记以提示可能存在术语误用，建议作者确认是否指“平衡处理后的队列”或仅为“研究队列”。
“核心特征”改为“核心预测特征”，语义更清晰，突出其用于预测模型构建的作用。
“对比……后，证实”句式略显口语化，调整为“经比较……后，证实”，更符合学术表达。
“DCA 净效益、Brier 分数”并列时宜用“和”连接，避免顿号造成歧义；“Brier 分数”更常用术语为“Brier 评分”（Brier Score），故修改。
“结合 SHAP 分析明确……”中，“明确”略显生硬，改为“进一步明确”增强逻辑连贯性；“为核心危险因素”前缺判断动词“为”，已补全。
“Kaplan-Meier 亚组分析验证……”中，“验证”使用不当，因 Kaplan-Meier 主要用于描述生存差异而非验证假设，应改为“显示”或“表明”更为恰当。
“该可解释性精准预测模型”语序不通，“可解释性”作为名词修饰“模型”不妥，应改为“该具有可解释性的精准预测模型”，语法正确且表达清晰。
“提供了高效工具”中“高效”搭配不当，“工具”一般不用“高效”形容，应改为“有效”更贴切。
年份范围中的短横线应使用 en dash “–” 而非连字符“-”，符合排版规范。

食管癌生存预测：XGBoost模型如何实现精准预后评估？

观星者应用

科研工具