研究生网络课程学习——约翰·霍普金斯大学基因组学课程

刘新鹏、秦婉婷、林国亮

2021-01-21

 

2021119日和21日,实验室张子杰老师为全体师生分享了约翰·霍普金斯大学基因组学课程,该课程由Steven SalzbergJeff Leek主讲。课程主要分为四大部分:


第一部分主要介绍基因组学整体概况。该课程主要是围绕中心法则来展开讲述的。一个编码基因通过转录和翻译,最终编码出蛋白质,影响了个体的表型。①由于外显子和内含子交错排列,在剪切去除内含子的过程中,由于剪切位置不同,最终会得到不同长度的mRNA,因此,可变剪切这一机制的存在,一个基因可以编码不同的蛋白,这极大提高了基因对空间的利用率。②在该部分中还学习到,从基因型到表型的对应关系也发生了很大变化:孟德尔只能用“遗传因子”来解释表型的变化,但是随着分子生物学的发展,现在已经可以在全基因组范围内将一些单基因控制的表型关联到基因中某几个碱基变化,以此来解释表型的改变。③在这一部分最后,张子杰老师还用一段视频为实验室师生展示了在细胞内染色质的结构,这些结构和细胞内的蛋白质时如何调控转录,影响基因的表达。

第二部分介绍了在基因组学中测序技术的应用。该部分介绍了现代分子生物学中一个重要的技术——PCR技术以及以该技术为基础衍生出的测序技术,如Sanger测序、二代高通量测序技术等。同时,还介绍了人类基因组计划,借此直观地展示了技术革新对基因组学研究所带来的巨大便利。在与实验室老师和同学们的讨论中,张子杰老师提出了我国要有“我们自己的研究发展”这一观点,由于人类基因组计划最初是以欧洲人(白人)为样本的计划,基于该人类基因组的一些研究并不完全适用于差异显著的不同人群,因此认为,我们应该拥有我们自己的研究体系为我们自己的研究服务。在课程中,实验室的老师和同学们积极提出问题,尤其对RNA测序技术如何分辨真正的RNA链与互补链,张子杰老师介绍了dUTP链特异性建库。通过这一问题的讨论,同学们更加深入地了解了测序的原理和过程。


第三部分介绍了计算机技术在基因组学研究中的应用。该部分从Linux系统的应用开始,详细地介绍了数据的存储和分析过程中需要注意的问题。对软件的开发和使用过程中,计算所需要时间和占用的资源问题进行了讨论,这一问题在分析数据时,对软件的选择有重要参考价值。

第四部分主要介绍了数据科学在现代基因组学研究中的应用。①在这一部分的学习中,强调了对于数据的保存、管理和分享方面,形成良好的习惯极为重要,这利于对研究的追溯和他人对自己研究的重复。在此,张子杰老师将自己记录分析流程的方式介绍给了大家。②课程还介绍到,在作图时应将原始数据显示在图中,避免使用绚烂但无信息的图。③除了以上的内容,该部分还着重介绍了在做数据分析时需要注意的问题:所作的分析要具有可重复性,这样才能使自己的研究更加可信;要对各项误差考虑周全,这些误差包括实验材料带来的误差、实验技术带来的误差、分析方法带来的误差等,对于这些误差,能避免则避免,如果实在无法避免,尽量使误差的存在没有倾向性,以此来减少误差对后续分析的影响。④最后,课程介绍了统计学思想在生物领域中的应用。

统计学方法是基因组分析的重要工具。通过统计学的方法,对基因组数据进行分析和检验,为基因组数据的解读提供了重要的理论基础。该部分中主要介绍了生物学重复和统计检验在实验设计和数据分析中的必要性。生物学重复有效降低了各类误差对最终结果的影响,统计检验揭示了最终结果的可信度。在与老师和同学的讨论中,张子杰老师详细介绍了如何通过预实验的方法确定一个合适的生物学重复;统计检验中的P-value本质上是一种“信-噪”比,即信息和噪音的比例。并强调了,取样是统计学中的关键一步,而包括测序技术在内的许多生物学分析也是在不停地取样,因此以统计学的思路考据生物学实验的设计是非常必要的。

整个课程进行过程中,每进行完一个小节,张子杰老师都会与现场师生进行交流,为与会师生提供提问时间,第一时间进行答疑,巩固所学内容。课程结束后,罗静老师进行了发言,鼓励同学们要将所学的知识进行串联,认真全面地思考所面对的科学问题,无论是在课题设计的前瞻性、科学性和可行性,还是后期数据分析方面均需要认真和深入地思考。本次课程完满结束,参与的实验室师生都获得了相当大收获。

 

课程组织和答疑老师:

张子杰 研究员

张子杰,1991年出生于云南昭通,本科曾就读于复旦大学生物科学专业,后转入美国凯斯西储大学(Case Western Reserve University)取得系统生物学理学学士。其后进入芝加哥大学(University of Chicago)遗传,基因组和系统生物学项目攻读博士,师从著名化学生物学家何川教授以及统计遗传学家陈梦洁、贺信和 Matthew Stephens 教授。其间研究内容主要涉及运用分子生物学、基因组学和统计遗传学等交叉学科的方法研究RNA甲基化调控基因表达的机制及其在疾病中的贡献。他的工作包括开发了首个支持复杂实验设计的 m6A-MeRIP-seq统计分析工具,并将其运用于糖尿病等疾病样品的表观转录组分析,解析了RNA修饰变异对相关疾病的贡献。此外,他首次将遗传学数量性状定位(molecular QTL)的方法用于m6A调控基因表达机制的研究,不仅开辟了全新的研究RNA修饰的方法,也为解析全基因组关联分析(GWAS)结果的分子机制提供了新的角度。

张子杰于2021年加入云南大学生物资源保护与利用国家重点实验室,任研究员,课题组长。目前已在Nature Genetics Nature MetabolismGenome Biology 等期刊发表论文16篇;其中一作或共同一作论文5篇(累计影响因子=90), 合作者论文11篇(累计影响因子=182)。其工作解答了一系列围绕mRNAm6A修饰的基础科学问题,并且开发了一系列可用于大规模RNA甲基化组分析的统计分析工具,为研究RNA表观遗传在复杂形状中的作用奠定了基础。

研究方向和兴趣:利用功能基因组前沿测序方法结合生物信息和统计遗传学分析,研究动物复杂形状的基因调控机制以及解析遗传差异、表观遗传差异介导的基因调控在疾病中的作用。同时利用遗传、表观遗传分析、改造改进高原特色农作物的农艺性状,培育良种。

 

课程主讲人:

Steven Salzberg  教授

Steven Salzberg是一位杰出的计算生物学家,他正在开发新一代技术用于DNARNA测序分析的新方法。Salzberg的工作旨在找到将大量基因组数据转化为生物学和临床有用信息的方法。

他的实验室目前专注于三个不同但相关的研究项目领域:使用最新的测序技术创建组装整个基因组的算法;开发排列和组装RNA测序数据的程序,以重建组织中表达的所有基因和基因变体的详细图像;以及使用宏基因组测序来诊断感染。他的软件被世界各地数以千计的实验室用于解决生物和医学研究领域中出现的广泛问题。例如,最近的一个项目使用直接DNA测序来诊断大脑感染,证明了测序作为一种临床诊断工具的力量。

1989年,Salzberg在约翰·霍普金斯大学(Johns Hopkins University)开始了他的职业生涯,担任计算机科学助理教授,并于1997年离开,领导基因组研究所(Institute of Genomic Research)的生物信息学部门。2005年,他搬到了马里兰大学(University of Maryland) 2011年回到约翰·霍普金斯大学(Johns Hopkins)2014年,他被任命为彭博社杰出教授。

 

Jeff Leek 教授

 Jeff Leek是约翰·霍普金斯大学(Johns Hopkins University)生物统计学和肿瘤学教授,同时担任约翰·霍普金斯大学数据科学实验室联席主任。他的团队开发统计方法、软件、数据资源和数据分析,帮助人们理解大规模基因组和生物医学数据。作为约翰·霍普金斯大学数据科学实验室的联合主任,他帮助开发了大规模的在线开放程序,该项目已招募了800多万人,并与社区的非营利组织合作进行数据科学教育,用于对经济和公共卫生的干预。

已经开发的软件有: ballgown(有助于更加灵活的分析RNA的差异表达)、Rail-RNA(用于联合比对多个RNA-seq样本)、derfinder(基于碱基对的RNA-seq数据快速差异表达分析)、Myrna(云计算工具,用于计算大型RNA-seq数据集的差异基因表达)等。

              (撰写人:刘新鹏、秦婉婷、林国亮

云南省昆明市五华区翠湖北路2号  云南大学校本部  生物馆东楼  联系人:朱启顺  生物馆东楼209  qshzhu@ynu.edu.cn
云南省昆明市五华区翠湖北路2号  云南大学校本部   生物馆西楼  联系人:沙涛  生物馆西楼208  0871-65033362