真核有参转录组测序
产品介绍
案例解析
结果展示
送样建议
常见问题

1、技术简介

真核有参转录组测序:即对真核生物特定组织或细胞在某个特定状态下转录的所有mRNA 进行测序,与参考基因组比对,既可全面快速分析mRNA 序列和丰度信息、又可对基因结构和产生的新转录本进行分析。

2、技术路线

真核有参转录组测序



3、分析内容

4、方案设计

建库类型

链特异性文库

测序类型

NovaseqPE150测序

测序数据量建议

6-8G

5、项目周期 

样本数量

正常周期(天)

极致周期(天)

X≤24

40

25


 案例解析 

Yan Zhu,Longxian Chen, et al., Global transcriptome analysis reveals extensive generemodeling, alternative splicing and differential transcription profiles innon-seed vascular plant Selaginella moellendorffii. BMC Genomics. 2017;18(Suppl 1):1042.

背景介绍

江南卷柏,是一种石松类植物,也是研究维管植物早期演化与发育的模式植物。作为迄今为止唯一的测序石松类植物。江南卷柏的基因组揭示了许多保守的基因和途径,以及不同于开花植物的特殊基因。但对于江南卷柏的长链非编码RNA(lncRNA) 和编码基因的选择性剪接 (AS),我们知之甚少。它的编码基因模型还没有经过转录组数据的充分验证。此外,了解是否使用类似开花植物的调节机制,以及它们如何在非种子原始维管植物中运作,仍然是重要的。

材料和方法

取材:江南卷柏根茎叶

文库:链特异性文库

测序:HiSeq2500   PE125

1、获得44Gb raw data39Gb clean data,在江南卷柏基因组中,鉴定20,882 个新转录本,12,841 个转录本被预测有编码潜力。

2、在江南卷柏中,总的编码基因是30,215 个,7930 个新转录本被认定是高可信新编码基因,剩下的121个转录本是rRNA/tRNA microRNA 前体。7930 个新基因被注释,2699个新基因与拟南芥有同源关系。

3GO分析表明新编码基因(7930) 占据几乎所有的植物生长功能,发育,代谢和应激反应。


 结果展示 

差异表达作图

火山图可以直观的体现基因在两个样品()间表达水平的差异和及显著性。C-1_vs_B-1差异表达基因火山图如下:


差异表达基因volcano图

21 差异表达基因volcano

图中每一点代表一个基因,横坐标为基因在样品间表达量差异倍数的对数值,纵坐标为基因表达量变化的统计学显著性的负对数值。横坐标绝对值越大,差异倍数越大;纵坐标值越大,差异表达筛选越可靠。图中红色方形点代表上调差异表达基因,蓝色圆形点表示下调差异表达基因,黑色三角形点表示非差异表达基因。

MA图可以直接体现基因在两个样品()间表达水平和差异倍数的整体分布。C-1_vs_B-1差异表达基因MA图如下:

差异表达基因MA图

22 差异表达基因MA

图中每一点代表一个基因,横坐标为log2(FPKM),为两样品表达均值的对数值;纵坐标是基因在样品间表达量差异倍数的对数值,用于衡量差异大小。图中红色方形点代表上调差异表达基因,蓝色圆形点表示下调差异表达基因,黑色三角形点表示非差异表达基因。

对差异表达基因进行层次聚类分析,将具有相似或相同表达模式的基因进行聚类。差异表达基因聚类热图如下:

差异表达基因聚类热图

23 差异表达基因聚类热图

横坐标代表样品名称及其聚类结果,纵坐标代表的差异基因及其聚类结果。图中不同的列代表不同的样品,不同的行代表不同的基因。颜色代表了基因在样品中的表达量水平。

差异表达基因数目统计

差异表达基因数目统计见下表:

13 差异基因数目统计表

DEG

total

up

down

C-1_vs_B-1

145

58

87

C-2_vs_B-2

165

98

67

C-3_vs_B-3

173

142

31

DEG: 差异组合;

total: 总的差异基因数目;

up: 上调差异基因数目;

down: 下调差异基因数目。

差异组合(差异组合数目:2~5组)韦恩图如下:

差异组合间venn图

24 差异组合间venn

差异表达基因GO分析

差异表达基因GO功能分类统计图如下:

差异表达基因GO分类统计图

25 差异表达基因GO分类统计图

注:横坐标为GO分类,纵坐标为基因数目.

根据实验目的筛选差异基因后,富集分析研究差异基因在GO中的分布情形以阐述实验中样本差异在基因功能上的体现。使用topGO[16]行富集分析,富集分析结果展示如下:

差异表达基因topGO有向无环图(分子功能)

26 差异表达基因topGO有向无环图(分子功能)

对每个GO节点进行富集,最显著的10个节点在图中用方框表示,图中还包含其各层对应关系。每个方框(或椭圆)内给出了该GO节点的内容描述和富集显著性值。不同颜色代表不同的富集显著性,颜色越深,显著性越高。对应于图25的富集结果(xls格式)如下:

                                                        14 topGO富集结果(分子功能,部分)

GO.ID

Term

Annotated

Significant

Expected

KS

GO:0035145

exon-exon junction complex

15

0

0.11

0.0038

GO:0043197

dendritic spine

76

1

0.56

0.0045

GO:0045180

basal cortex

9

0

0.07

0.0047

GO:0005802

trans-Golgi network

159

1

1.16

0.0048

GO:1905368

peptidase complex

97

1

0.71

0.007

GO:0016324

apical plasma membrane

302

2

2.21

0.0096

GO:0070847

core mediator complex

5

0

0.04

0.0105

GO:0031265

CD95 death-inducing signaling complex

3

2

0.02

0.013

GO:0098553

lumenal side of endoplasmic reticulum membrane

12

0

0.09

0.0137

GO.ID: GOTerm ID

Term: GO Term名称;

Annotated: 注释到该GO Term的基因数目;

Significant: 注释到该GO Term的差异基因数目;

Expected: 注释到该GO Term的差异基因数目的期望值;

KS: Term富集显著性,值越小,表示富集越显著

差异表达基因KEGG pathway注释统计

在生物体内,不同的基因产物相互协调来行使生物学功能,对差异表达基因的通路(Pathway

注释分析有助于进一步解读基因的功能。KEGGKyoto Encyclopediaof Genes and Genomes)数据库是关于代谢通路的主要公共数据库。

差异表达基因的通路注释结果示意见下图:

差异表达基因的KEGG通路注释图

28 差异表达基因的KEGG通路注释图

图中红色框标注的酶与上调差异基因有关;图中蓝色框标注的酶与上调和下调基因均有关;图中绿色框标注的酶与下调差异基因有关。

C-1_vs_B-1差异表达基因KEGG的注释结果按照KEGG中通路类型进行分类,分类图如下图所示:


差异表达基因KEGG分类图


29 差异表达基因KEGG分类图

注:纵坐标为KEGG代谢通路的名称,横坐标为注释到该通路下的基因个数。

差异表达基因蛋白网络互作

STRING[17]是收录多个物种预测的和实验验证的蛋白质-蛋白质互作的数据库,包括直接的物理互作和间接的功能相关。结合差异表达分析结果和数据库收录的互作关系对,构建差异表达基因互作网络。对于数据库中包含的物种,可直接从数据库中提取出目标基因集的互作关系对构建互作网络;对于数据库中未收录信息的物种,使用BLAST软件,将目的基因与数据库中的蛋白质进行序列比对,寻找同源蛋白,根据同源蛋白的互作关系对构建互作网络。构建完成的蛋白质互作网络可导入Cytoscape[18]软件进行可视化。Cytoscape可视化的差异表达基因蛋白质互作网络如下图

差异表达基因蛋白网络互作图

32 差异表达基因蛋白网络互作图

图中红色代表上调差异表达基因,天蓝色代表下调差异表达基因。


 样本要求 

样品

具体要求

样品类型

去蛋白并进行 DNAase 处理后的完整总 RNA

样品需求量

植物和真菌样品:总量 ≥5μg

人、大鼠、小鼠样品:总量 ≥2μg

其他类型动物:总量 ≥2μg

样品浓度

植物和真菌样品:浓度 ≥250ng/μl

人、大鼠、小鼠样品:浓度≥65ng/μl

其他类型动物:浓度 ≥150ng/μl

样品纯度

纯度:OD260/280=1.8~2.2OD260/230=1.8~2.2

完整性:动物样品 RIN≥7.0,植物样品 RIN≥6.528S:18S≥1.0,昆虫样本无此指标

1.生物学重复如何来设定?

(1)区分生物学重复与技术重复

① 生物学重复:指样本重复,比如 3 只小鼠,同时做一种处理,就是三个生物学重复。

② 技术重复:一般是三次实验,比如对一块组织,提了三次 RNA。

(2)设置生物学重复的意义

能够消除组内误差:生物学重复可以测量变异程度
增强结果的可靠性:测序的样本数越多,越能够降低背景差异
检测离群样本:异常样本的存在,会严重影响测序结果的准确性,通过计算样本间的相关性可以发现异常样本,将其排除。

(3)生物学重复设置几个合适?

推荐生物学重复≥3。目前没有生物学重复的实验发文章比较困难,尤其是 IF≥5 的杂志。

注: 3 个生物学重复,不等同于将 3 个样品的 RNA 等量混合后测序。 3 个样品等量混合测序,相当于将 3 个样本的基因表达量取了平均值,其实就是相当于取了一个样本,不能反应群体生物学现象。

2.植物样本RIN值没有达到7,可以做实验吗?

RIN值(RNA integrity number)通常代表着RNA质量的高低,从0~10,值越大就说明RNA的质量越高,完整性越好。 一般要求RIN≥7,可以达到建库标准。RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,导致测序结果出现明显的3‘-和5’-偏向RIN值低会影响建库效果和后续分析效果,RIN大于6.3的时候,mapping率较好,而且样本间的pca关系相近;低于6.3的时候,则有较大差异。

3.样本比对率低是为什么?

如果比对率低,一般存在两种情况:

(1)、存在外源污染,会先确保整个实验过程是否有问题,简单的排查一遍,如确保我们没有问题则,可能情况送错样品、样品本身被侵染,如寄生虫、宿主的关系。

(2)、没有外源污染:多数是参考基因组与样品不符,有可能是亲缘关系比较远,也可能是参考基因组本身注释不完全导致,寻找新的参考基因组,如没有换为无参,即需要从样品和参考基因组两方面进行考虑

4.生物学重复聚类不好怎么处理?

针对此类问题,首先会对所有聚类不好的样本查看质控数据,比如样本 RIN 值,均一性,dup率,数据饱和度等。如果数据质控点没问题,采取下述的步骤进行排除:

① 人为失误排查—样本是否弄错,信息分析数据是否有误, gtf 注释文件是否有误;

② 查看比对率—多重比对率是否很高,比对率是否很低;

③ 组内与组间相关性系数的计算比较;

④ 若是 dup 率或者部分低丰度基因定量不饱和导致的—剔除样本中极高表达和极低表达量的基因再次聚类;

⑤ 将部分离群的样本跟客户沟通后删除掉再做聚类;

5.如何对得到的数目较多的差异基因进行后期验证?

① 根据GO富集结果,选取有代表性的进行qRT-PCR验证。

② 根据RPKM值,选择RPKM值差异成倍数的基因进行qRT-PCR验证。


客户留言

客户留言

Customer Message

联系我们
Contact Us
联系邮箱:nanqing@magiltd.com 公司电话:0551-82311173 公司地址:
北京:北京市朝阳区惠河南街高碑店村一区33号楼
合肥:安徽省合肥市巢湖经济开发区未名生物医药园区C栋3楼
website qrcode

微分科服

website qrcode

微分健康