RNA-seq 数据分析与统计方法详解

2025-06-08 MedSci xAi 发表于广东省
本文详细解析 RNA-seq 数据分析流程,涵盖 TCGA 基因表达数据的下载与处理、STAR 比对器的使用、DESeq2 的方差稳定化转换归一化,以及 GraphPad Prism6 的统计分析。

RNA-seq 数据分析

从 cBioPortal (69) 下载了 TCGA 基因表达数据(RSEM RNA-seq V2 的 z 分数)和生存数据。对于 ZUMA-1 数据,使用 STAR 比对器 (70) 将配对末端读段比对到人类基因组参考联盟构建 38。使用 R/Bioconductor 包 "Rsubread" (71) 中的 featureCounts 函数生成每个样本的基因计数。使用 R/Bioconductor 包 "DESeq2" 对计数数据进行了方差稳定化转换 (VST) 归一化 (72)。当一个患者有多个 RNA-seq 样本时,取 VST 归一化表达计数的平均值。使用 Wilcoxon 检验比较接受持续治疗的患者与其他患者的 FAS 和 CD19 基因表达分布。使用 R 包 "ggpubr" 生成箱线图。通过实现 "maxstat" R 包 (73) 中的 "surv_cutpoint" 函数选择用于比较生存结果的表达阈值。

统计分析

数据分析使用 GraphPad Prism6 进行。使用双尾非配对 t 检验比较两个独立组;使用单因素方差分析(Sidak 校正)比较一个自变量的多个(>2)组;使用双因素方差分析(Sidak 校正)比较两个自变量的多个(>2)组;使用单因素方差分析(Holm-Sidak 校正)比较匹配数据点的多个(>2)组。P 值 > 0.05 被认为在统计学上不显著(ns)。

数据和材料可用性

本报告中使用的 Kite Pharma 提供的人类 CAR-T 细胞产品、临床相关数据和 ZUMA-1 的 RNA-seq 数据。材料请求应直接发送给 Kite Pharma。部分结果显示基于 TCGA 研究网络(www.cancer.gov/tcga)生成的数据。其他所有支持本研究发现的数据可应合理请求向通讯作者索取。

AI
与梅斯小智对话

观星者应用

MedSearch MedSearch 医路规划 医路规划 数据挖掘 数据挖掘 文献综述 文献综述 文稿评审 文稿评审 课题设计 课题设计

科研工具

AI疑难疾病诊断 AI疑难疾病诊断 AI调研 AI调研 AI选刊 AI选刊 ICD-11智能查询 ICD-11智能查询 PUBMED文献推荐 PUBMED文献推荐 专业翻译 专业翻译 体检报告解读 体检报告解读 化验单智能识别 化验单智能识别 文本润色 文本润色 文献综述创作 文献综述创作 智能纠错 智能纠错 海外邮件智能回复 海外邮件智能回复 皮肤病自测 皮肤病自测 肌肤女神 肌肤女神 论文大纲 论文大纲 论文选题 论文选题