RNA-seq 数据分析与统计方法详解

本文详细解析 RNA-seq 数据分析流程，涵盖 TCGA 基因表达数据的下载与处理、STAR 比对器的使用、DESeq2 的方差稳定化转换归一化，以及 GraphPad Prism6 的统计分析。

RNA-seq 数据分析

从 cBioPortal (69) 下载了 TCGA 基因表达数据（RSEM RNA-seq V2 的 z 分数）和生存数据。对于 ZUMA-1 数据，使用 STAR 比对器 (70) 将配对末端读段比对到人类基因组参考联盟构建 38。使用 R/Bioconductor 包 "Rsubread" (71) 中的 featureCounts 函数生成每个样本的基因计数。使用 R/Bioconductor 包 "DESeq2" 对计数数据进行了方差稳定化转换 (VST) 归一化 (72)。当一个患者有多个 RNA-seq 样本时，取 VST 归一化表达计数的平均值。使用 Wilcoxon 检验比较接受持续治疗的患者与其他患者的 FAS 和 CD19 基因表达分布。使用 R 包 "ggpubr" 生成箱线图。通过实现 "maxstat" R 包 (73) 中的 "surv_cutpoint" 函数选择用于比较生存结果的表达阈值。

统计分析

数据分析使用 GraphPad Prism6 进行。使用双尾非配对 t 检验比较两个独立组；使用单因素方差分析（Sidak 校正）比较一个自变量的多个（>2）组；使用双因素方差分析（Sidak 校正）比较两个自变量的多个（>2）组；使用单因素方差分析（Holm-Sidak 校正）比较匹配数据点的多个（>2）组。P 值 > 0.05 被认为在统计学上不显著（ns）。

数据和材料可用性

本报告中使用的 Kite Pharma 提供的人类 CAR-T 细胞产品、临床相关数据和 ZUMA-1 的 RNA-seq 数据。材料请求应直接发送给 Kite Pharma。部分结果显示基于 TCGA 研究网络（www.cancer.gov/tcga）生成的数据。其他所有支持本研究发现的数据可应合理请求向通讯作者索取。

RNA-seq 数据分析与统计方法详解

观星者应用

科研工具