预测模型研究样本量计算：如何应用EPV原则确保统计功效？

本文详解预测模型研究的样本量计算方法，基于EPV原则（每变量10-20个事件）确保模型稳定性。以SRS预测研究为例，展示如何从9个候选变量、25%发病率推导出360例样本量，并考虑15%脱失率调整至423例。

样本量计算本前瞻性队列研究的样本量确定遵循预测模型研究的既定方法学指导原则。与比较两组事件发生率的比较研究不同，预测模型研究需要相对候选预测变量数量有足够数量的结局事件，以确保模型的稳定性并防止过拟合。广泛接受的每变量事件数（Events Per Variable, EPV）原则建议，每候选预测变量至少需要 10 到 20 个结局事件，以开发可靠的多变量预测模型。基于临床合理性和现有的关于 SRS 危险因素的文献，我们确定了九个候选预测变量纳入多变量模型。这些包括主要暴露变量：中性粒细胞与淋巴细胞比值、血小板与淋巴细胞比值和血红蛋白，以及六个临床上相关的协变量：年龄、性别、种族、总结石负荷、手术时间和支架留置时间。这一选择在全面性和维持一个适合预期样本量的简约模型之间进行了平衡。模型开发的主要结局是严重的 SRS，定义为 USSQ 总评分超过研究人群的第 75 百分位数或预设的具有临床意义的阈值。根据已发表的文献和初步临床经验，该人群中严重 SRS 的预期发病率为约 25%。采用保守的 EPV 为 10，所需严重 SRS 事件数计算为 9 个候选变量乘以每个变量 10 个事件，得出 90 个结局事件。为了在预期发病率为 25% 的情况下达到 90 个严重 SRS 事件，所需的总样本量为 360 名参与者。考虑到预期的 15% 脱失率，目标样本量调整为 423 名参与者。此样本量计算确保有足够的统计功效来识别严重 SRS 的独立预测因子，支持多变量逻辑回归模型中回归系数的稳定估计，并允许在不同种族群体中进行计划的亚组分析。根据参与中心的年手术量，预计在计划的 12 至 18 个月研究期间内可以实现 423 名参与者的样本量目标。将使用替代的 EPV 阈值 12 和 15 进行敏感性分析，以评估在不同样本量假设下模型的稳健性。

预测模型研究样本量计算：如何应用EPV原则确保统计功效？

观星者应用

科研工具