近年来,机器学习算法凭借其强大的特征挖掘和复杂数据拟合能力,在医学预后预测领域得到广泛应用,成为当前研究的热点。已有研究采用随机森林、XGBoost、LightGBM 等算法构建食管癌生存预测模型,结果显示其预测效能优于传统的
SEER 数据库作为全球最大的肿瘤登记数据库之一,涵盖了大量肿瘤患者的人口学特征、临床病理资料、治疗方案及随访数据,为开展大样本、多中心的预后研究提供了可靠的数据支撑。然而,目前基于 SEER 数据库的食管癌生存预测研究多采用单一机器学习算法,缺乏对多种算法的系统比较和验证,且对模型的可解释性分析不足,难以明确各特征对预测结果的贡献程度,限制了模型在临床中的推广应用。
基于上述研究现状,本研究依托 SEER 数据库 2004–2022 年的大样本数据(年份间连接符应使用 en dash),整合患者人口学特征、临床病理特征及治疗方案等多维度信息,采用多种机器学习算法构建可切除食管癌患者术后 1、3、5 年生存预测模型,通过系统评估模型的区分度、校准度及临床实用性,筛选最优预测模型;同时借助 Boruta 算法及 SHAP 分析,
修正说明:
COX → Cox:统计学中“Cox proportional hazards model”是纪念 Sir David Cox,专有名词首字母大写但不全大写,“COX”为错误写法。- 年份范围“2004-2022” → “2004–2022”:中文科技论文中年份区间应使用短横线“–”(en dash),而非连字符“-”(hyphen)。
明确 → 识别:“明确”带有较强主观判断色彩,科学研究中更倾向于使用“识别”“探讨”“分析”等客观动词,避免夸大结论。- 语义补全与句式完善:原文最后一句不完整,“提”字结尾明显缺失内容。根据上下文逻辑补充为“提供科学依据”,使句子完整通顺。
- 其他语言润色:
- “例如,部分研究……”前加“但”更连贯;
- 增加逗号提升长句可读性,如“同时借助 Boruta 算法及 SHAP 分析,识别……”;
- 统一术语表达,如“临床病理资料”与后文“临床病理特征”保持一致。
最终修正版(含标签):
近年来,机器学习算法凭借其强大的特征挖掘和复杂数据拟合能力,在医学预后预测领域得到广泛应用,成为当前研究的热点。已有研究采用随机森林、XGBoost、LightGBM 等算法构建食管癌生存预测模型,结果显示其预测效能优于传统的
SEER 数据库作为全球最大的肿瘤登记数据库之一,涵盖了大量肿瘤患者的人口学特征、临床病理资料、治疗方案及随访数据,为开展大样本、多中心的预后研究提供了可靠的数据支撑。然而,目前基于 SEER 数据库的食管癌生存预测研究多采用单一机器学习算法,缺乏对多种算法的系统比较和验证,且对模型的可解释性分析不足,难以明确各特征对预测结果的贡献程度,限制了模型在临床中的推广应用。
基于上述研究现状,本研究依托 SEER 数据库 2004–2022 年的大样本数据,整合患者人口学特征、临床病理特征及治疗方案等多维度信息,采用多种机器学习算法构建可切除食管癌患者术后 1、3、5 年生存预测模型,通过系统评估模型的区分度、校准度及临床实用性,筛选最优预测模型;同时借助 Boruta 算法及 SHAP 分析,