收藏本站
《内蒙古大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

验证酵母基因组序列中8-mer的独立进化规律和生物学功能

郑燕  
【摘要】:全基因组序列k-mer的使用是非随机的,不同种类的k-mer具有不同的生物学功能,发掘k-mer使用规律以及k-mer的生物学功能对于基因组结构进化和系统理解功能片段非常重要。上百个物种的k-mer频谱研究发现四足动物的k-mer频谱是多峰分布,其他生物的k-mer频谱是单峰分布。K-mer多峰谱产生的原因众说纷纭,有研究指出不同类型的功能或结构元件是产生多峰谱的主要原因,也有研究认为多峰谱是以G+C含量和CpG抑制为特征,还有研究认为多峰是由两类稀有k-mer形成的。所以基因组k-mer频谱产生的原因仍待研究。论文运用统计分析和生物信息学等方法,结合人类k-mer频谱的分布规律,研究了酵母基因组序列k-mer频谱的规律,探讨了 CG类8-mer子集的独立进化机制,对CG类模体的生物学功能给出理论猜测和验证。主要研究内容如下:(1)计算得到人类1号染色体序列的8-mer相对模体数随频次的分布(简称8-mer频谱),发现8-mer频谱是三峰分布。将全部8-mer按照16种XY二核苷分类分成三个子集后,发现仅有CG二核苷分类下的三个子集CG0(不包含CG二核苷的8-mer)、CG_1(包含一个CG的8-mer)和CG_2(包含两个或两个以上CG的8-mer)各自形成独立的单峰分布,称之为CG类模体的独立进化规律。三个CG模体子集的分布位置与总体8-mer分布的三个峰严格对应。由此得出三个CG子集分布距离的远近是决定单峰分布还是多峰分布的直接原因。与随机序列的8-mer频谱比较,发现CG0模体的频谱位于随机中心附近,CG_1和CG_2模体的频谱远离随机中心。表明包含CG二核苷的8-mer是定向进化,不包含CG二核苷的8-mer是随机进化。CG三个子集的分布具有两个特征:(i)CG_2和CG_1分布的最概然频次明显低于CG0分布;(ii)CG_2和CG_1分布的宽度明显窄于CG0分布。这两特征表明CG_2和CG_1子集中的8-mer使用是保守的。分析三个CG子集、核小体中心序列(NCSs)和CpG岛(CGIs)的序列特征后,提出两个理论猜想:CG_1模体是核小体结合模体;CG_2模体是CGIs的模体单元。(2)酵母基因组序列的8-mer频谱为单峰分布。计算酵母中16种二核苷分类下8-mer相对模体数随频次的分布,发现只有CG子集分布具备人类CG子集分布的两个特征,表明酵母中CG_2和CG_1子集中的8-mer使用也是保守的,以及酵母的单峰分布是三个CG子集分布太近叠加后的结果。因此得到这样的结论:CG模体使用的进化独立规律从最简单的真核生物酵母就开始了。由于CG子集模体数目众多,用三个CG子集中m-mer(m=2,3,4)的频率来表征CG子集的模体信息。首先分析发现三个CG子集模体信息偏离总体8-mer的程度各不相同。然后考察了酵母基因组序列在16种XY1分类下m-mer使用的总偏离(新对称相对熵NSRE),发现CG分类下的模体使用偏离最大。得出CG二核苷在从简单到复杂的基因组进化中是功能元件产生和进化"核心"的结论。(3)为了验证CG_1模体是否是核小体结合模体,分别将CG0、CG_1和CG_2子集的模体信息赋值到酵母的核小体中心序列和连接序列上做二分类评估。结果指出基于CG_1模体信息得到的平均ROC面积(AUC)最大,说明CG_1模体比起CG0和CG_2模体更偏好核小体中心序列。然后基于CG_1子集模体信息得到核小体中心序列上的NSRE分布,该分布与已出版的结果一致。结果显示富含模体决定核小体的基本框架,稀有模体决定核小体的精细结构。将标准组蛋白八聚体沿着DNA双链展开成一维排列后,NSRE分布的极大值区域与八个组蛋白位置存在极好的一一对应关系。这两个结果共同验证了 CG_1模体是核小体结合模体的猜想。(4)统计分析单碱基精度核小体位置数据,发现一些核小体处于挤压状态。根据挤压的位置将核小体分为四类:标准核小体;上游挤压核小体;下游挤压核小体;两端挤压核小体。基于CG_1模体是核小体结合模体的结论,分析了四类核小体中心序列上NSRE的分布特征,发现挤压核小体随着挤压端和非挤压端序列结构的变化而变化,而且核小体受挤压的区域其序列的组织性更强。随后,核小体连接序列按长度增长的方式分类为11个长度组,利用MEME在线软件搜索了 11个长度组中的保守模体,发现有四类保守模体,意味着连接序列的多样性。(5)为了验证CG_2模体是否是CGIs的模体单元,分别将CG_2、CG_1和CG0模体信息赋值到酵母的CGIs和相应的非CpG岛序列上做ROC分析,得到的平均AUC值分别为0.95,0.80和0.02,显示CG_2模体信息与CGIs的构成信息非常符合。在ROC曲线上选取最佳临界值,计算该临界值下的总精度(AAC)和相关系数(MCC),该结果进一步确认了 CG_2模体信息可以表征CGIs序列,从而验证了 CG_2模体是CGIs的结构单元。
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q78

【参考文献】
中国期刊全文数据库 前1条
1 尼玛达瓦;李宏;周德良;郑燕;杨小希;;酵母核小体中心序列与连接序列的差异分析[J];内蒙古大学学报(自然科学版);2015年02期
【相似文献】
中国期刊全文数据库 前10条
1 冯立芹,李宏;酵母基因组数据库的比较研究[J];内蒙古大学学报(自然科学版);2003年06期
2 赵宏宇;李珺;赵玥;王馨;蔡禄;;4种酵母基因组提取方法的比较[J];食品科学;2011年09期
3 唐巧玲;付鹏飞;王旭静;王志兴;;一种简便高效的酵母基因组提取方法[J];生物技术进展;2012年04期
4 高向东,李育阳;从酵母基因组测序得到的启示[J];生命的化学(中国生物化学会通讯);1997年02期
5 徐绍颖;;欧洲共同体的酵母基因组序列鉴定计划[J];国际科技交流;1989年08期
6 禾子;欧洲生物工程公司支持酵母基因组序列测定[J];生物工程进展;1991年02期
7 冯立芹;李宏;王耘涛;;预测酵母基因组中基因数目的一种方法[J];内蒙古民族大学学报(自然科学版);2005年06期
8 陈伟;罗辽复;;酵母基因组中核小体偏好序列的识别[J];生物信息学;2009年02期
9 李潇;酵母基因组测序完成[J];生命的化学(中国生物化学会通讯);1996年04期
10 阳辛凤;高秋芳;李锡敏;郭安平;孔华;贺立卡;;菌落PCR快速扩增工业酿酒酵母基因组DNA片段[J];生物技术通报;2010年09期
中国重要会议论文全文数据库 前3条
1 潘贤;雷秉坤;冯碧薇;周楠;余垚;吕红;;模式酵母基因组稳定性维持的分子机制[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
2 郑家顺;张松;夏雪峰;吴加金;孙之荣;;在酵母基因组中寻找条件特异性的调控序列特征[A];第十次中国生物物理学术大会论文摘要集[C];2006年
3 汤晓颖;秦浚川;王敖全;;β-内切葡聚糖酶基因(eg1)在工业啤酒酵母基因组的整入及其表达[A];首届中国青年学者微生物遗传学学术研讨会论文摘要集[C];2002年
中国重要报纸全文数据库 前2条
1 记者陈欣然 通讯员朱宝琳 刘永静;联手进军合成生物新兴科学领域[N];天津教育报;2011年
2 星辰 编译;基因修补改变物种种类[N];大众科技报;2003年
中国博士学位论文全文数据库 前1条
1 郑燕;验证酵母基因组序列中8-mer的独立进化规律和生物学功能[D];内蒙古大学;2017年
中国硕士学位论文全文数据库 前4条
1 王聪;耐盐酵母基因组学的研究[D];天津科技大学;2015年
2 于娜;酵母基因组序列分析[D];河北工业大学;2010年
3 徐伟;酵母基因组减数分裂重组的生物信息学分析[D];东南大学;2004年
4 刘婷;树干毕赤酵母基因组规模代谢网络模型构建及应用[D];江南大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026