中科治白癜风疗效更显著 http://www.wzqsyl.com/m/近年来,随着测序技术的发展,对微生物群(微生物组)的研究逐渐加深,研究热点越来越多集中于环境和生物体相互作用的微生物群。加之测序成本降低,分析技术不断提升,都使得宏基因组测序技术得到广泛应用。
为什么要做宏基因组
宏基因组相对16S来说其物种分辨率会更高,随着物种测序完成越来越多,数据库更加完善,在肠道菌群方面基本能实现97%以上的菌都能鉴定到种,90%以上到菌株层面。
而且可以同时获得除RNA病毒外的所有物种的分布。此外包括菌基因组CNV等方法的出现,可以直接通过大规模宏基因组测序不仅找到可能的菌,进一步还能鉴定出特定候选基因区段。
对16s而言,宏基因组可挖掘的空间更大,如果想提高文章深度,发更高分的文章,宏基因组是个不错的选择。
有人说,宏基因组虽然有深度,但相应也更加复杂化。比如同样是做某类疾病,别人通过实验测序分析可以得出结论写出文章,到自己去研究怎么就遇到各种困难?完全没差异?出不了结果?
......
而等到所有分析完重新回头去找问题,也很难发现问题所在,一遍遍重新做耗时耗力...
其实这类文章并不只是测序而已,重点在于理解这个过程,研究方向的思考,分析策略的选择,包括其中要注意的因素等。
本文将从一个例子开始,为你打开研究思路,绕过某些易踩的坑,让你的数据更有利用价值,处理具体的问题也更加得心应手。
宏基因组文章解析
下面是利用已发表的宏基因组文章中的数据,用我们自己的流程进行一次全面的分析。在这个过程中,我们发现很多有意思的点,分享给大家。
这是一篇做精神分裂症患者粪便菌群宏基因组的文章。文中分析了90名未经药物治疗的精神分裂症患者和81名健康对照者的粪便菌群,确定了一种能够区分患者和对照者的微生物物种分类器。
研究发现与精神分裂症相关的功能代谢方面的差异主要体现在短链脂肪酸合成、色氨酸代谢以及神经递质的合成/降解。还发现了一种在精神分裂症中比较富集的物种Streptococcusvestibularis,在小鼠的粪移植实验中,它引起了小鼠的社交行为缺陷,并改变了小鼠外周组织中神经递质的水平。
我们对这篇文章中的肠-脑模块(GBM)部分的分析比较感兴趣。为此,下载了文中使用的宏基因组原始数据,原计个样本,但有一个无法下载成功(所以结果方面可能会与原作有细微的差异)。
元数据的收集
在宏基因组分析之前通常要先收集元数据,那么什么是元数据?
元数据
元数据主要是对数据的属性进行描述的数据,也是实验数据的重要组成部分。
人体样本:主要包括个人基本生理信息(例如身高、体重、年龄、性别等)、生活行为方式、地理位置、膳食结构、营养状况、既往病史、抗生素使用情况等信息。
环境样本:指样本获取过程中的信息,例如采集地点、大气、水文、温度、pH值、压力、季节、运输方法、存储媒介等。
在数据分析之前我们首先对这批样本的群体构成和一些已有的元数据进行统计和特征分析:
其中,SCZ是精神分裂症患者,HC是健康对照。
一共例样本,其中精神病患者90例。
年龄、性别以及BMI还有食物构成的分布情况如下:
从上图中可以看出有些元信息在分组间就存在明显差异,如年龄,血清素指标,而有些元信息如性别没有明显差异。
进一步对这些元信息做统计分析,发现健康组(HC)和精神病患者(SCZ)存在显著差异(如下图的年龄信息,P值为0.)。在我们的宏基因组分析流程中,分析前会将客户提供的所有样本元信息做统计分析,作为进一步分析的基础。
其中除了性别数据,其他几个主要因素还是存在差异的,这就要求后续分析的时候需要考虑这些因素的影响,这个在后面会提到。
研究中同时检测了血清中主要神经递质的水平,可以从中看出精神病患者的神经递质差异特征,其中多项神经递质存在极其明显的差异:
上图中框出的色氨酸、谷氨酸、酪氨酸、苯丙氨酸都存在显著差异。
数据库的选择和完善程度
我们使用的是kraken2以及谷禾自建的基于Reseq99版本的微生物基因组数据库。需要注意的是Kraken2自带的物种数据库,其中肠道菌群中非常重要的Prevotellacopri由于不在Refseq的完整测序基因组中,数据库没有包括,直接使用这个自带数据库会导致肠道菌群分析存在严重偏差,个别样本甚至95%以上都是该菌,如下面的这个样本:
可以看到红色箭头指向的Prevotellacopri菌占比很高;假如数据库没有包含该菌注释,那么在后续分析的时候会错过一些重要信息。
谷禾数据分析使用了包括RefSeq最近的99版本基因组数据,涵盖细菌、病毒、古菌、原生动物,不仅是完成的基因组还涵盖了基因组框架的物种。另外加入了IMG的真菌和细菌的基因组数据,以及真核寄生生物的数据库。
数据比对和统计分析结果如下,报告使用Pavian展示:
可以看到图中的红色框内,结果中能比对上数据库的比例大部分在90%以上,不能比上的只有不到10%的比例。
对应的物种构成表:
红色箭头指向的Max列,是后面列出样本reads数的总和。点击可以排序,简单方便。这个在线软件在谷禾报告中会给出相应的使用说明。
对应的每一个样的物种构成丰度:
以上的两张桑基图能将菌属构成,层级关系展示出来,更加直观。
接着看分析,下图是统计检验结果,共找到85个显著差异的菌,结果如下:
菌株部分发现42个差异菌株:
基于差异物种,使用spearmanCC,我们同样构建了精神病患者与健康对照两组差异菌的网络构成。
接着进一步分析了功能代谢,重点