真核无参转录组测序
产品介绍
案例解析
结果展示
送样建议
常见问题

1、技术简介

真核无参转录组测序是指对真核生物特定组织或细胞在某个特定状态下转录的所有RNA进行测序拼接出最长的转录本为unigeneunigene为参考序列进行后续分析,为研究无参考基因组物种的转录水平变化提供有力的技术手段。

2、技术路线

真核无参转录组测序



3、分析内容     

分析内容

分析条款

备注

数据质控

1、对原始数据进行去除接头、污染序列及低质量reads的处理


2、数据产出统计及测序数据的碱基含量和质量评估

标准分析

1、组装结果分析:组装结果统计及转录本长度分布


2、组装结果评估


2.1、比对率分析、均一性分析


2.2、组装结果评估、核心蛋白比率评估(需提供近缘物种的蛋白序列及CDS序列,否则无法进行)


3、预测编码蛋白框(CDS


4SSR分析


5SNP /InDel分析


6Unigene功能注释(GO分类、eggNOGKEGG   pathway


7Unigene表达量分析:Unigene的表达量估计及其分布统计,实验样品的聚类


8Unigene表达差异分析(GO分类和KEGG Pathway


9、差异表达基因蛋白质互作网络分析(需要蛋白互作数据库STRING中包含该物种的注释信息,如果STRING数据库中没有该物种的注释信息,则选用近缘物种的注释信息来进行该项分析)


4、方案设计

建库类型

链特异性文库

测序类型

NovaseqPE150测序

测序数据量建议

6-8G


5、项目周期

样本数量

正常周期(天)

极致周期(天)

X≤24

45

25


 案例解析 

Liu MH, Yang BR,et al., Transcriptome analysis of leaves, roots and flowers of Panaxnotoginseng identifies genes involved in ginsenoside and alkaloid biosynthesis.BMC Genomics. 2015;16:265.

研究背景

三七是世界上最有价值的药用植物之一。主要的生物活性分子是三萜皂甙,也称为人参皂苷。然而,它庞大的基因组大小阻碍了整个基因组测序。因此,关于三七的基因组和转录组的细节,特别是其在植物不同部位的生物合成途径和基因表达,至今仍鲜为人知。材料和方法     

取材:三七的叶片、根、花文库:转录组文库

测序:HiSeq2000   PE100   

测序覆盖度≥130X

1、通过对三七的不同组织(叶片、根、花)分别进行转录组测序,每个样品的测序数据量为5-8Gb

2、三个样本的reads 混合一起组装得到 205,000 contigs,107,340 unigenes,他们的长度分别为781bp1,039bp

3616unigenes 参与了多种次生代谢物的合成,其中参与苯丙素的合成和unigenes 是最多的,其次是萜类化合物骨架的生物合成

4、另外研究发现,3 pathways 参与了生物碱的合成,并且根相对于叶片和花来说处于较低的水平,测序结果和 RT-PCR 的结果一致         


 结果展示 

转录本拼接

获得CleanReads后,我们使用Trinity(版本:v2.5.1,参数设置:minimum contiglength 200 bp, min glue 3, group pair distance 280, path reinforcement distance85, and min kmercovage 3,其余参数采用默认参数)进行转录本拼接,拼接的基本过程如下图所示:

Trinity组装流程图

图7 Trinity组装流程图

拼接得到的转录本序列信息以FASTA格式储存,如下所示:

图8转录本序列

其中大于号>后紧跟转录本序列的ID号,len=转录本长度,即该转录本的碱基数目,path为从deBruijn GraphsubComponent中经历的路径。其后为该转录本的序列。

样品基因表达量总体分布

通过所有基因的FPKM分布图和箱线图可以对不同实验条件下的样品表达水平进行比较。

FPKM密度分布图

图14 FPKM密度分布图

注:图中不同颜色的曲线代表不同的样品,曲线上点的横坐标表示对应样品FPKM的对数值,点的纵坐标表示概率密度。


我们可以从箱线图查看到单个样品基因表达水平分布的离散程度,也可以直观的比较不同样品的整体基因表达水平。该项目各样品的FPKM分布箱线图如下:

FPKM箱线图

图15 FPKM箱线图

注:图中横坐标代表不同的样品;纵坐标表示样品表达量FPKM的对数值的排序结果。

此外针对样品的表达量数据也进行了主成分分析。PCA聚类图如下:

PCA聚类图

图16 PCA聚类图

差异表达作图

火山图可以直观的体现基因在两个样品(组)间表达水平的差异和及显著性。C-1_vs_B-1差异表达基因火山图如下:


差异表达基因volcano图

图21 差异表达基因volcano图

图中每一点代表一个基因,横坐标为基因在样品间表达量差异倍数的对数值,纵坐标为基因表达量变化的统计学显著性的负对数值。横坐标绝对值越大,差异倍数越大;纵坐标值越大,差异表达筛选越可靠。图中红色方形点代表上调差异表达基因,蓝色圆形点表示下调差异表达基因,黑色三角形点表示非差异表达基因。

MA图可以直接体现基因在两个样品(组)间表达水平和差异倍数的整体分布。C-1_vs_B-1差异表达基因MA图如下:

差异表达基因MA图


图22 差异表达基因MA图

图中每一点代表一个基因,横坐标为log2(FPKM),为两样品表达均值的对数值;纵坐标是基因在样品间表达量差异倍数的对数值,用于衡量差异大小。图中红色方形点代表上调差异表达基因,蓝色圆形点表示下调差异表达基因,黑色三角形点表示非差异表达基因。

对差异表达基因进行层次聚类分析,将具有相似或相同表达模式的基因进行聚类。差异表达基因聚类热图如下:

差异表达基因聚类热图

图23 差异表达基因聚类热图

横坐标代表样品名称及其聚类结果,纵坐标代表的差异基因及其聚类结果。图中不同的列代表不同的样品,不同的行代表不同的基因。颜色代表了基因在样品中的表达量水平。

差异表达基因数目统计

差异表达基因数目统计见下表:

表13 差异基因数目统计表

DEG

total

up

down

C-1_vs_B-1

145

58

87

C-2_vs_B-2

165

98

67

C-3_vs_B-3

173

142

31

DEG: 差异组合;

total: 总的差异基因数目;

up: 上调差异基因数目;

down: 下调差异基因数目。


差异组合(差异组合数目:2~5组)韦恩图如下:

差异组合间venn图

图24 差异组合间venn图

差异表达基因GO分析

差异表达基因GO功能分类统计图如下:

差异表达基因GO分类统计图


图25 差异表达基因GO分类统计图

注:横坐标为GO分类,纵坐标为基因数目.

根据实验目的筛选差异基因后,富集分析研究差异基因在GO中的分布情形以阐述实验中样本差异在基因功能上的体现。使用topGO[16]行富集分析,富集分析结果展示如下:

差异表达基因topGO有向无环图(分子功能)

图26 差异表达基因topGO有向无环图(分子功能)

对每个GO节点进行富集,最显著的10个节点在图中用方框表示,图中还包含其各层对应关系。每个方框(或椭圆)内给出了该GO节点的内容描述和富集显著性值。不同颜色代表不同的富集显著性,颜色越深,显著性越高。对应于图25的富集结果(xls格式)如下:

表14 topGO富集结果(分子功能,部分)

GO.ID

Term

Annotated

Significant

Expected

KS

GO:0035145

exon-exon junction complex

15

0

0.11

0.0038

GO:0043197

dendritic spine

76

1

0.56

0.0045

GO:0045180

basal cortex

9

0

0.07

0.0047

GO:0005802

trans-Golgi network

159

1

1.16

0.0048

GO:1905368

peptidase complex

97

1

0.71

0.007

GO:0016324

apical plasma membrane

302

2

2.21

0.0096

GO:0070847

core mediator complex

5

0

0.04

0.0105

GO:0031265

CD95 death-inducing signaling complex

3

2

0.02

0.013

GO:0098553

lumenal side of endoplasmic reticulum membrane

12

0

0.09

0.0137

GO.ID: GOTerm ID;

Term: GO Term名称;

Annotated: 注释到该GO Term的基因数目;

Significant: 注释到该GO Term的差异基因数目;

Expected: 注释到该GO Term的差异基因数目的期望值;

KS: Term富集显著性,值越小,表示富集越显著

差异表达基因KEGG pathway注释统计

在生物体内,不同的基因产物相互协调来行使生物学功能,对差异表达基因的通路(Pathway)

注释分析有助于进一步解读基因的功能。KEGG(Kyoto Encyclopediaof Genes and Genomes)数据库是关于代谢通路的主要公共数据库。

差异表达基因的通路注释结果示意见下图:

差异表达基因的KEGG通路注释图

图28 差异表达基因的KEGG通路注释图

图中红色框标注的酶与上调差异基因有关;图中蓝色框标注的酶与上调和下调基因均有关;图中绿色框标注的酶与下调差异基因有关。

对C-1_vs_B-1差异表达基因KEGG的注释结果按照KEGG中通路类型进行分类,分类图如下图所示:

差异表达基因KEGG分类图

图29 差异表达基因KEGG分类图

注:纵坐标为KEGG代谢通路的名称,横坐标为注释到该通路下的基因个数。

差异表达基因蛋白网络互作

STRING[17]是收录多个物种预测的和实验验证的蛋白质-蛋白质互作的数据库,包括直接的物理互作和间接的功能相关。结合差异表达分析结果和数据库收录的互作关系对,构建差异表达基因互作网络。对于数据库中包含的物种,可直接从数据库中提取出目标基因集��互作关系对构建互作网络;对于数据库中未收录信息的物种,使用BLAST软件,将目的基因与数据库中的蛋白质进行序列比对,寻找同源蛋白,根据同源蛋白的互作关系对构建互作网络。构建完成的蛋白质互作网络可导入Cytoscape[18]软件进行可视化。Cytoscape可视化的差异表达基因蛋白质互作网络如下图:

差异表达基因蛋白网络互作图

图32 差异表达基因蛋白网络互作图

图中红色代表上调差异表达基因,天蓝色代表下调差异表达基因。


 样本要求 

样品

具体要求

样品类型

去蛋白并进行 DNAase 处理后的完整总 RNA

样品需求量

植物和真菌样品:总量 ≥5μg

人、大鼠、小鼠样品:总量 ≥2μg

其他类型动物:总量 ≥2μg

样品浓度

植物和真菌样品:浓度 ≥250ng/μl

人、大鼠、小鼠样品:浓度 ≥65ng/μl

其他类型动物:浓度 ≥150ng/μl

样品纯度

纯度:OD260/280=1.8~2.2OD260/230=1.8~2.2

完整性:动物样品 RIN≥7.0,植物样品 RIN≥6.528S:18S≥1.0,昆虫样本无此指标


1.RNA样品检测,是否可以提供检测的胶图?

RNA样品检测是用Agilent4200进行检测的,不进行跑胶,所以无胶图提供。

2.无参转录组与有参转录组的区别?

无参转录组需要首先对测序reads进行拼接,拼接后识别拼接结果中的可能转录本,最后对转录本进行功能注释,得到的注释基因多少与所研究的物种直接相关,如一些已有研究的物种,其功能较为清晰,得到的基因就会多;反之则会比较少。

3.无参转录组测序一般需要测多大的数据量?

测多少数据量需要结合研究目的和基因组大小来看,对绝大多数动植物来说8G的数据可以进行正常的生物信息分析。如果需要研究低丰度的转录本,或者想拼出一套比较完整的转录组,建议选10G 或更高的数据量。


客户留言

客户留言

Customer Message

联系我们
Contact Us
联系邮箱:nanqing@magiltd.com 公司电话:0551-82311173 公司地址:
北京:北京市朝阳区惠河南街高碑店村一区33号楼
合肥:安徽省合肥市巢湖经济开发区未名生物医药园区C栋3楼
website qrcode

微分科服

website qrcode

微分健康