发布网友 发布时间:2024-10-23 22:37
共1个回答
热心网友 时间:7小时前
TCGA,美国癌症和肿瘤基因图谱项目,通过大规模基因组测序,为癌症研究提供了海量数据,包括超过一万的样本和三十多种癌症类型,尤其值得称赞的是其详尽的预后随访信息。该项目由NCI主导,投入大量资源,提供了多种类型的测序数据,如RNA-Seq、WXS、miRNA-Seq等,以及临床样本和基因表达、甲基化、拷贝数变异等多维度数据。以下是TCGA数据的详细介绍:
1. 临床样本和测序数据:包括Biospecimen和Clinical信息,以及五种测序方式(RNA-Seq、WXS、miRNA-Seq、GenotypingArray和MethylationArray)的数据,根据分析程度分为四层,level3和level4通常可公开下载,而level1和level2需要申请。
- RNA-Seq提供了全转录组数据,包括lncRNA、mRNA等,公开数据有三种形式:HT-Seq-FPKM、HT-Seq-UQ-FPKM和HT-Seq-Counts。
- miRNA-Seq涉及pre-miRNA和成熟miRNA,与靶基因的调控关系。
- DNA甲基化数据主要关注CpG位点的甲基化水平,如Beta-Value和基因启动子区域的影响。
- CNV数据反映了基因拷贝数变异,对肿瘤基因组学有重要影响。
- WXS和WGS数据用于检测体细胞突变。
2. 临床随访信息包括一百多项指标,如年龄、性别、TNM分期和生存期等,以XML格式存储,需手动处理。
3. 数据可以通过官方提供的gdc_client工具下载,以及第三方工具如TCGAbiolinks、生信人简易下载工具或GDAC Firehose、UCSC Cancer browser等。下载难度和灵活性各有不同。
每个样本都有独特的TCGA ID(如TCGA-02-0001),用于跨数据库搜索患者信息。样本编码规则包括组织部位、组分、分子类型、孔板顺序和检测中心等。
总的来说,TCGA数据库是一个丰富的癌症研究宝库,为科研人员提供了大量珍贵的癌症基因组和临床信息。