生命是数字化的,由四进制代码(基因)决定

要理解基因大数据,首先要弄清楚基因和基因病的概念。

在当今的信息时代,我们几乎人人都离不开“数字化”生活,比如我们天天用的智能手机有着丰富的功能,这其实是由二进制的数字化程序代码决定的。而人的生命功能,本质上也是数字化的,也是由一种数字化代码决定的,这种代码就是由ATCG四种碱基排列组成的四进制基因序列。

基因序列决定着我们生命的功能,也可以通过遗传给下一代,从而影响下一代的生命功能。

如果这个生命的代码出现了错误,产生了基因突变,就会导致生命功能的异常,那就是基因病。

基因病主要有两大类,一类是遗传类疾病,导致这类疾病的基因突变大多是可以遗传给下一代的,称为胚系突变;另一类是肿瘤,这类疾病的基因突变大多是后天产生的,成为体细胞突变。

遗传类疾病中,单基因病诊断类NGS检测的需求最成熟、最刚性

借助近几年高速发展的高通量基因测序(NGS)技术,我们可以把绝大多数基因变异检测出来,从而揭示基因变异和基因病之间的关系。

遗传类疾病又可分为单基因病和多基因病两类。多基因病即我们常说的慢性病,诸如家族性帕金森病、高血压等。多基因病的患病原因比较复杂,即需要多个基因决定是否发病,且要结合环境才有可能发病,故基因检测很难有确定性的诊断意义,更多是用于患病风险评估,就是易感基因检测,但这类检测没有诊断意义,不能说测出某个基因有问题,就肯定会得某种病。

另一类疾病是单基因病(或孟德尔遗传病,在这里都统称为“遗传病”),即单个基因功能异常就能导致疾病。单基因病其实是多基因病的极端表现。对这类疾病,基因检测可以直接用于辅助诊断。

目前人类已经明确致病基因的遗传病有大约五千种,而且大多为罕见病,一个医生从业几十年能见过的也只是其中很少的一部分,因此仅仅凭着临床经验来诊断这类疾病是非常困难的,所以在过去很多这类疾病因为诊断不清而被叫做“疑难杂症”。这类疾病大多是在很小的年龄就发病了,而且危害非常严重,会给患儿一家人都带来极大的痛苦。

基因检测对于这类遗传病有两个非常重大的意义。

一是用于诊断。在过去,这类疾病的患者家属往往辗转很多医院,甚至散尽家财,都无法确诊。而现在有了NGS技术,只需要花万把块钱甚至几千元钱,就有可能让疾病得到确诊,具体说是可以精准诊断出来患者的病究竟是这五千种病当中的哪一种。有些遗传病一旦诊断出来是可以治疗的,但不确诊就不知道是哪种病,也就谈不上治疗。

另一个重大意义是遗传咨询。尽管有很多严重的遗传病目前还没有很好的治疗办法,但精准诊断对于这个家庭要下一个孩子至关重要。有太多不幸的家庭,连续生了几个孩子都是同样的严重的遗传病。如果家系中第一个患儿能够借助NGS得到精准诊断,那么这个基因分析结果就可以指导患儿父母再生育的时候如何生出健康的孩子,避免再次出生缺陷。

因此基因大数据诊断技术可以让很多这类遗传病的家庭直接获益。

遗传病大多是罕见病,每一种病的发病率都不高,所以遗传病诊断是个很容易被忽视的细分领域。然而人类已知疾病有五千种,疾病之间的表型很容易混淆,单纯依靠临床特征很难精准诊断,必须借助基因检测。但医生在临床工作中,无法预判患者的病是五千种病中的哪一种,所以通常会把五千种病一次全部测遍(最常见的检测项目是全外显子组测序)。而五千种病的合计发病率就很高了,全中国的患者、疑似患者及家属就有数千万人,构成庞大的存量检测需求。

除此之外还有增量需求。中国每年出生缺陷患儿近100万人,再加上晚发的病患,估计每年新增近200万需要检测的病例,而且对这些患儿的检测的需求非常刚性。

遗传病基因检测:测序不难,数据分析难,需要借助大数据

遗传病诊断类基因检测的技术门槛非常高。整个检测过程分为前面的基因测序和后面的测序数据解读两部分。基因测序并不难,买一台测序仪就可以测了,更难、也更关键的是后续临床级数据分析。

与标准序列相比,每个人的基因组都有上百万个变异,但致病基因突变可能只有一个,要想把它找出来,无异于大海捞针,难度非常大。传统的数据分析需要专业人员团队进行多达一个多月的分析才能出具报告,成本高且周期长。

要想判断变异致病性,终极解决方案是依靠患者大数据。累积大量患者的结构化的详细临床表型数据和全外显子组测序数据,就是患者大数据。对于任何一个变异,当常规分析手段或算法无法预测分析的时候,可以看一下该变异在患者大数据以及正常人大数据中出现的频率,如果患者携带这个变异的频率显著高于正常人携带这个变异的频率,这就是一个强致病证据。

如果进一步观察到在患者大数据中,携带这个变异的患者的临床表型都高度相似,那这个致病证据就非常明确了。这种来自“真实世界”的证据,是大数据给出的事实,胜过任何权威推断和预测算法。大数据的意义在于它可以让不明诊断变得明确。

中国有人口优势,在大数据的采集方面反而会比其他国家更有优势,比如智因东方就构建了目前最大的中国人遗传病表型和基因数据库。应用这个大数据库,并且结合人工智能算法,可以更好地帮助我们去诊断疾病。

未来遗传病患者大数据还可以用于指导预防遗传病或出生缺陷,即在孕前、产前、新生儿三个阶段指导数千种遗传病的预防与早筛,为人类最终攻克遗传病而做出重要贡献。

肿瘤也是基因病,未来趋势将从"局部精准"走向"整体全景"

肿瘤是另一类基因病,它和遗传病最大的不同在于,肿瘤的基因突变大多是后天产生的,只是发生在身体某个局部,并且会随着病程而演变。

由于肿瘤本质上也是基因病,因此可以针对肿瘤的某种特定的基因异常来应用特定的靶向药物进行治疗,所以一般需要在用药之前进行基因检测,看看有没有药物靶点相关的基因型。然而靶向药检测只是NGS在肿瘤领域非常局限的一种应用,姑且称之为“局部精准”。

有了NGS技术之后,我们可以发现肿瘤可以有多达成百上千的变异,而且还在不断演变。绝大多数变异没有对应靶向药,对于携带这类变异的肿瘤细胞,靶向药就难以对治了。对于仅以靶向药指征为目的的检测,NGS测到的绝大多数基因突变其实是没有临床意义的,反而会有相反的提示意义,即靶向药的耐药机制已然存在。

近些年肿瘤免疫治疗有了突飞猛进的进展。我们人体最重要的免疫细胞——T细胞有一定的识别肿瘤突变的能力。肿瘤突变越多,也就是肿瘤突变负荷(TMB)越高,被T细胞识别的概率就越高,故突变数量检测(TMB评估)成为对免疫治疗,尤其是PD1/PDL1单抗药物疗效的重要预测指标。

如果借助基因测序及数据分析,把重要的多个肿瘤突变的产物合成出来,做成疫苗,把能识别这些肿瘤突变抗原的T细胞激活起来,这样就可以利用自身T细胞去更好的杀灭肿瘤,这种技术叫做靶向肿瘤新抗原(neoantigen)的免疫治疗技术。这种技术理论上安全、高效,可以适用于很多种癌种,近年来黑色素瘤、脑胶质瘤、肺癌、乳腺癌等多个领域都有成功的临床试验的报道。新抗原疗法有可能是未来肿瘤免疫治疗的非常重要的新方向。新抗原疗法对于NGS应用的重大影响在于,肿瘤基因测序测出的众多基因突变,原本在靶向治疗时代看起来毫无意义,但在新抗原疗法时代都变成了潜在免疫治疗靶点,故新抗原靶点检测未来将成为必需品。

因此在肿瘤治疗的新时代,将靶向药检测、TMB评估、肿瘤新抗原靶点检测(全外显子组测序、全转录组测序、HLA分型、新抗原预测算法等),新抗原特异性T细胞检测(免疫组测序、单细胞测序等)融为一炉的全景基因测序将成为新趋势。

关于智因东方 

智因东方是中国NGS精准诊断领域领先企业,曾获达晨、复星、雅惠等知名机构投资。

智因东方是遗传病NGS领域的龙头公司,构建了全球最大的中国人遗传病表型全外显子组数据库,并开发了基于大数据的全自动AI诊断云平台,检测服务具有准、快、高性价比的特点,已成为该细分领域的隐形冠军。

在肿瘤NGS领域,智因东方率先全面自主开发肿瘤新抗原免疫靶点测序、免疫组测序、单细胞测序技术,引领肿瘤全景测序的新趋势。