科学家如何利用“大数据”助力人类疾病研究?

1】Front Immunol:大数据帮助设计更好的流感疫苗

doi:10.3389/fimmu.2019.02616

每年,成千上万的美国人因流感而生病,成千上万的人住院或死亡。注射流感疫苗可以减少感染的机会。但是,根据疾病预防控制中心的说法,这种疫苗充其量只能在40%到60%的时间内有效。近日,来自密歇根州立大学的研究人员拥有的数据表明,感染或接种疫苗后细胞RNA水平如何变化。他们的工作可以帮助使未来的流感疫苗更好地发挥作用,甚至有助于通用疫苗的设计。

研究者表示,了解这些差异可能有助于我们确定构建更好的疫苗的新目标,并帮助我们找到更好的方法来治疗这种疾病。研究人员分析了先前发表的18项研究的数据,其中科学家从流感患者和疫苗接种者那里采集了血液样本,并对这些样本的基因表达进行了研究,合并不同数据的动机是通常较小的数据在统计上将不足以检测重大差异。

【2】JACC:50万人大数据:睡眠过多或过少都会增加心脏病发作的风险!

doi:10.1016/j.jacc.2019.07.022

美国科罗拉多大学博尔德分校(University of Colorado Boulder)对近50万人进行的一项最新研究显示,即使你不吸烟,经常锻炼,也没有心血管疾病的遗传易感,睡眠不足或睡眠过多也会增加你患心脏病的风险,这项研究发表在Journal of The American College of Cardiology杂志上,研究还发现,对于那些有高心脏病遗传风险的人来说,每晚睡6至9小时可以抵消这种风险。

研究者表示,这提供了一些最有力的证据,证明睡眠时间是影响心脏健康的关键因素,这对每个人都适用,研究人员分析了46.1万名年龄在40岁至69岁之间、从未心脏病发作的英国生物银行(Biobank)参与者的基因信息、自我报告的睡眠习惯和医疗记录,然后对他们进行了7年的跟踪调查。与每晚睡眠6至9小时的人相比,睡眠不足6小时的人在研究期间心脏病发作的几率要高出20%。那些睡眠时间超过9小时的人有34%的可能性。

【3】Nat Commun:大数据助力科学家阐明乳腺癌扩散的分子机制

doi:10.1038/s41467-019-10148-6

如今科学家们能够利用大量基因组数据来及早发现患者的疾病状况,但同时这也能帮助研究人员更好地研究疾病发生的分子机制。近日,一项刊登在国际杂志Nature Communications上的研究报告中,来自密歇根州立大学的科学家们通过进行大数据分析,确定了一种更好的模型来对抗乳腺癌的扩散并能帮助测试有潜力的药物。实验室当前所使用的方法通常会利用细胞系或在平板上培养细胞,来模拟患者机体中肿瘤的生长;扩散是最常见的癌症相关死亡的原因,大约与90%的癌症患者死亡直接相关,截至目前,很少有药物能够治疗患者的癌症转移,而且研究人员也并不清楚在药物开发的过程中到底哪个环节出错了。

研究者Bin Chen说道,细胞系和肿瘤样本之间的差异或许就提出了很多关键的问题,比如细胞系能在多大程度上捕获肿瘤的构成;为了回答这个问题,研究人员对来自多个基因组数据库中的数据进行了大型整合分析,这些数据库包括人类癌症基因组图谱计划、癌症细胞系百科全书、基因表达综合和基因型及表型数据库等。利用这些基因组数据发现新型癌症疗法是研究人员最终的目标,在研究人员将大量成本投入到实验之前,我们就需要评估早期的研究模型,并基于基因组特征选择最合适的药物检测手段。

【4】JAMA Inter Med:30万余人大数据表明遵循健康的植物性饮食可以降低2型糖尿病的风险

doi:10.1001/jamainternmed.2019.2195

近日,一项刊登在国际杂志JAMA Internal Medicine上的研究报告中,来自哈佛大学陈曾熙公共卫生学院的研究人员通过进行一项新荟萃分析发现,坚持以植物为主的饮食的人比没有坚持以植物为主的饮食的人患2型糖尿病的风险更低。研究人员还发现,对于那些饮食强调健康植物性食物的人来说,这种联系更强。

植物性饮食模式近年来越来越流行,所以我们认为量化它们与糖尿病风险之间的整体联系是至关重要的,尤其是这些饮食差异显着的食品成分,虽然之前的研究表明,植物性饮食模式可能有助于降低2型糖尿病的风险,但缺乏对流行病学证据进行整体分析的研究。据研究人员称,目前的研究为坚持健康的植物性饮食和降低2型糖尿病风险之间的关系提供了迄今为止最全面的证据。

【5】Nat Genetics:大数据揭示影响阿尔兹海默症发生的5个遗传位点

doi:10.1038/s41588-019-0358-2

来自超过94,000名个体的遗传数据分析显示,阿尔茨海默病有五个新的风险基因,并确认了其他已知的20个基因。这些新发现支持开发证据,证明与特定生物过程相关的基因组,如细胞运输,脂质转运,炎症和免疫反应,是“遗传中心”,是疾病过程的重要组成部分,该研究发表在Nature Genetics期刊上。

研究者表示,这项对阿尔茨海默氏症遗传基础的持续合作研究使我们能够深入研究这种破坏性疾病的复杂性,随着我们继续更好地了解和针对治疗和预防老年痴呆症的方法,本研究的规模为优先排序的基因提供了额外的清晰度。文章中,研究人员分析了94,437名晚发性阿尔茨海默病患者的罕见和常见基因变异,阿尔茨海默病是老年人中最常见的痴呆症。 IGAP由美国和欧洲的四个联盟组成,这些联盟自2011年以来一直在合作进行全基因组关联研究(GWAS),涉及数千个DNA样本和共享数据集。 GWAS旨在检测与阿尔茨海默氏症相关的基因组变异。了解遗传变异正在帮助研究人员确定影响疾病发生和发展的分子机制。

图片来源:University of Utah Health

【6】PLoS One:大数据帮助科学家快速检测新生儿的脓血症

doi:10.1371/journal.pone.0212665

自通过使用电子健康记录(EHR)中常规收集的数据,研究人员和医生科学家在新生儿重症监护病房(NICU)人群中测试机器学习模型。研究表明:自动化程序可以在出现临床症状之前快速识别新生儿重症监护病房(NICU)中的哪些患病婴儿患有脓毒症,相关结果最近发表在PLoS One杂志上。

败血症始于细菌侵入血液,它是婴儿死亡率和发病率的全球主要原因。不幸的是,攻击性免疫反应会导致脓毒性发展以及休克的发生,进而导致多个器官衰竭,有时甚至致命。虽然在健康的婴儿中相对罕见,但早产儿或慢性住院婴儿的败血症发生率要高200倍。婴儿败血症的幸存者可能会产生后遗症,如慢性肺病,神经发育障碍等。

【7】Nat Commun:科学家成功利用大数据分析来鉴别新型的癌症风险基因

doi:10.1038/s41467-018-04900-7

诱发癌症有很多遗传原因,比如有些突变会遗传自父母,而其它则是后天获得性的突变,比如因外界因素或DNA复制的错误导致等,大规模的基因组测序在识别因体细胞突变所诱发的癌症上取得了一系列研究成果,但这种技术却无法有效识别因遗传性突变所诱发的癌症,而且识别这些遗传突变的主要来源仍然是基于家族性的研究。

近日,一项刊登在国际杂志Nature Communications上的研究报告中,来自巴塞罗那基因组研究中心的科学家们通过研究开发了一种新型的统计学方法,其能够从肿瘤测序数据中鉴别出癌症易感性基因;该方法使用了一种古老的想法,即癌基因通常需要“两次击打”(two hits)才能够致癌,研究者表示,这种方法能帮助他们从当前癌症基因组数据库中系统性地鉴别出相关的基因。

【8】Nat Genet:大数据揭示疾病的基因关联

doi:10.1038/s41588-018-0294-6

想象一下,雨水落在人行道上的场景。虽然雨滴落地似乎是随机发生的,但随着时间的推移,人行道仍然会有一片区域保持干燥。这个类比类似于犹他大学健康研究所的研究人员设计的一种新方法。他们探索了超过100,000名健康人,以确定我们不容易改变的基因区域。他们认为,这些“受限制”区域的DNA突变可能会导致严重的儿科疾病。

研究者表示,我们不是专注于DNA变化的地方,而是寻找DNA维持不变的基因部分,我们的模型在这个庞大的数据集中搜索密集遗传变异规则的例外情况,以揭示缺乏变异的基因的受限区域。我们相信这些区域可能是致命的,或者在突变时会导致疾病的极端表型。虽然这种方法在概念上很简单,但直到最近才有足够的人类基因组来实现它。这些新的,不变的延伸可能揭示新的致病基因,并可用于帮助确定发育障碍患者的疾病原因,相关研究结果发表在国际杂志Nature Genetics上。研究者指出,之前未与疾病相关的基因通常包含一个或多个高度受限的区域,这些地区的突变可能导致疾病。

【9】Cancer Immunol Res:科学家有望利用大数据分析来预测癌症患者对免疫疗法的反应

doi:10.1158/2326-6066.CIR-18-0129

如今在大数据时代,癌症研究人员开始寻找多种新方法来监测癌症免疫疗法的有效性;近日,一项刊登在国际杂志Cancer Immunology Research上的研究报告中,来自约翰霍普金斯大学医学院的研究人员通过研究开发出了一种利用生物信息学的新方法,该方法或能作为一种新型工具帮助确定患者的免疫系统如何对癌症免疫疗法产生反应,以及如何有效识别机体自身的肿瘤。

研究者Kellie Smith博士表示,我们希望能够得到足够的数据,通过利用一种名为MANAFEST的技术来帮助临床研究人员确定癌症患者的最佳治疗方案;一旦某个人被诊断为癌症,我们就希望能利用该技术为其制定最佳的治疗手段,以前研究人员并没有开发出MANAFEST技术,在过去几年里,研究人员通过对这项技术进行不断改善,如今其能够对多项数据进行分析来帮助有效治疗癌症患者。

【10】Cell Systems:大数据分析或能鉴别出指示机体健康和疾病发生的特殊脂质分子

doi:10.1016/j.cels.2018.05.016

日前,两篇刊登在国际杂志Cell Systems上的研究报告中,来自瑞士洛桑联邦理工学院的科学家们通过进行大数据分析鉴别出了特殊的脂质或能作为机体健康和疾病的标记。尽管脂质非常重要,但从传统角度上来讲其是科学家们最难进行研究的生物分子,因为脂质分子结构具有一定的多样性,通过已经定义好的标准结构和指导DNA、RNA和蛋白质的简单规则似乎并不能确定脂质分子的结构,脂质分子的多样性也就意味着,并不像建立和分析基因组及转录组数据库,针对脂质分子需要更为个性化的分析步骤。

这项研究中,研究人员通过研究对小鼠血液和肝脏中将近150种脂质分子进行了测定,随后研究人员还鉴别出了每一种脂质分子的遗传调节子以及其相应的生理学功能。研究者利用系统遗传学的方法将脂质组学数据库同来自小鼠机体其它的“组学”数据库相结合,包括表型组、转录组和蛋白质组数据库等,这种方法就能够有效识别出不同血脂类的血浆和血脂,并以此作为指示机体健康状态的标志物。