AI如何抗击新冠?WHO的这篇论文说明白了
在这场全球抗疫战中,除了医护人员们和科学家们,还有一只“隐形的大军”——人工智能同样扮演着重要的角色。据媒体报道,根据公开信息追溯,人工智能发出了第一条疫情警告,2019年12月31日,加拿大人工智能健康监测平台BlueDot,就向其客户发出了第一条疫情的消息。这一时间早于2020年1月9日世卫组织通报的中国的“类流感暴发”。
除预警外,人工智能还在诊断、防控和治疗等研究上,正在成为医生和科学家们的左膀右臂,为帮助医生和科学家了解新冠病毒起源和传播,助力开发疫苗和治疗方法,发挥着越来越不容忽视的力量。正如艾伦AI研究所所长Oren Etzioni所说,人工智能本身不能解决问题,但能帮助人们更快速地发掘问题的答案。
这篇综述的目的不是评估所描述技术的影响,也不是推荐它们的使用,而是向读者展示现有应用的范围,并提供有关AI如何帮助全球发展的初步图片和路线图。
Ø AI建模已在流行病学研究的多个领域中应用,其中包括根据不同的公共政策选择来预测新确诊病例的数量,以预测无症状病例的比率。
Ø 鉴于正在生成和共享的大量信息,人工智能可以帮助调查“信息流行病”的规模和传播,并帮助遏制错误信息的传播。
Ø 无论从医学层面,分子层面,还是科学的数据和模型,加快数据和模型的AI开发和运营,对应对COVID-19大流行的反应都至关重要。
Ø 基于多学科的AI研究和开放科学的国际合作可以帮助应对疫情在世界各地的蔓延。
Ø 医学影像诊断
逆转录聚合酶链反应(RT-PCR) 测试是诊断COVID-19的关键方法,但这种方法仍存在样本采集、分析时间等局限性,因此人们越来越关注使用医学成像技术进行COVID-19诊断。COVID-19具有特殊的放射学特征和图像模式,这些特征均可通过CT扫描的方式观察到,但即使对于放射学科的医务人员来说,识别这些图像仍颇为费时,因此在CT扫描诊断过程中使用机器学习方法是一种较为理想的选择。
多项研究已经将诊断定为二元分类问题,即“健康”与“新冠病毒阳性”。
Wang等人使用改进过的Inception神经网络架构,对放射科医生确定过的区域进行训练,从而对健康患者和新冠患者进行二元分类。基于259位患者的约1000个图像切片的数据集,研究者训练出了能够识别疑似COVID- 19的模型,然后将结果提供给医生作进一步验证。
同样的Chen等人的研究也发现,在经由专业放射医生标记过的6000多张CT图像切片数据上训练UNet++神经网络,其性能可实现接近专业医生的诊断水平。该研究的训练模型随后被部署到武汉大学人民医院,以帮助放射科医生加快对新病例的分析,并在互联网上开源以快速查看新图像。
其他机器学习方法将诊断归结为 3 种分类任务:健康、COVID-19患者及其他类型肺炎患者。
在Xu和Song的研究中,经典的ResNet架构可用于特征提取。Xu等人添加了几个用于分类的全连接层,Song等人则添加了特征金字塔网络(Feature Pyramid Network)和注意力模块,使网络更加复杂,但在图像细粒度方面表现更好。
这两项研究均表明,即使在诊断过程中可能存在多个疑似结果(包括非COVID-19的病例类型),这种方法也能够准确地将其区分开来。
此外,还有一些研究采用了混合方法:将现有的软件与特定机器学习方法相结合,以实现更高的准确性。
在Gozes等人的研究中,商业医学影像程序可用来进行原始图像的处理,然后与一个 ML Pipeline 结合使用。这种两步式方法包含在肺异常医学影像数据上训练过的U-Net架构,以及在ImagetNet上训练过的Resnet-50,其中图像分类已微调为“冠状病毒”或“健康”。
Shan等人的研究采用了“human- in-the-loop”的方法减少机器学习架构所需的标记时间。研究者使用少量人工标记的数据来训练基于 V-Net 架构的初始模型。
该模型建议对新的CT扫描影像进行分割,之后经由专业放射科医生校正,然后在迭代过程中不断反馈到模型中。这种方法支持开发基于深度学习的系统,用于自动分割和计数感染区域,以及评估COVID-19的严重程度,例如整个肺部的感染百分比。
研究表明,该模型的性能逐步提升,经过200个带注释的示例数据训练之后,将新图像分析所需的人工时间从开始的30分钟以上减少到5分钟以上。这个方法将机器学习的优势与人类的专业知识相结合,是一个前途广阔的研究方向。
Ø 疾病跟踪的非侵入式测量
另外一种不需要特殊医疗成像设备的原创性方法是,是使用Kinect深度相机来识别病人的呼吸模式。该方法是基于最近对COVID-19 患者症状的临床发现,即COVID-19患者的呼吸模式不同于其他流感或普通感冒,其较明显地表现出呼吸急促症状。
基于这些信息,研究人员开发出一种具有注意力机制的双向GRU神经网络,并使用它来识别异常的呼吸模式。
研究者使用20名参与者的真实数据以及基于真实记录产生的大量仿真数据来训练该模型。虽然这些反常的呼吸模式并不一定与真实的COVID-19诊断相关,但对这些呼吸急促症状的预测可作为首要诊断特征,为大范围监控潜在患者提供了帮助。
还有一些方案是使用手机来检测COVID-19,有使用嵌入式传感器来识别 COVID-19 症状的,也有通过回答在手机调查问卷中的一些关键问题来排查高风险病人的。虽然以上方法都是在移动技术方面的重要尝试,但目前的研究并不足以评估这些方法的可行性与性能表现。
Ø 患者预测
Yan等人提出一种基于患者临床数据与血样检测中特征的预测方法,该方法能够帮助临床医生尽早地识别出高风险患者,希望以此提高患者的预后以及减少重症患者的死亡率。
与此研究相类似的方法有,基于XGBoost 算法的预测模型,其用于预测死亡风险和识别能够在医院中进行检测的关键测量特征。基于375名患者的数据,作者从300多个输入特征中筛选出三个关键临床指标,为预测患者死亡率提供了一种临床启发式的依据。该方法的一大优势是其具有良好的可解释性,因为筛选出的这三个指标与COVID-19病理学进展中的几个最重要因素相关,即细胞损伤、细胞免疫与发炎。
一个与此互补的研究是,在半自动标记的CT影像上训练一个U-Net变种,该方法旨在预测COVID-19 患者是否需要长时间住院观察。这意味着一旦完成初期诊断,我们仍然可使用机器学习的方法来预测患者病情的严重程度以及是否需要长期住院。
这两种方法可以帮助确定可能需要重症和长期护理的患者,从而帮助医院更有效地管理其资源。最后,尽管这两项研究的范围和数据都受到限制,但它们构成了重要的研究途径,可以用来自世界各地传入病例的临床数据进行补充和扩展。
Ø 蛋白质结构预测
蛋白质具有的3D结构由它们的基因序列决定,并且该结构会影响蛋白质的功能与作用。一般而言,蛋白质结构通过 X 光晶体衍射图谱法等实验研究法来确定,但这些方法花费昂贵、耗费时间。
最近,计算模型已经被用来进行蛋白质结构的预测,主要有两种方式:一种是模板建模,它的原理是利用相似蛋白作为模板序列进而预测蛋白质结构;另一种是无模板建模,它主要预测那些无已知相似结构的蛋白质的结构。
2018 年底,谷歌DeepMind重磅推出AlphaFold,它能够利用基因序列预测蛋白质结构。目前,AlphaFold可以预测与SARS-Cov-2相关的6种蛋白质的结构,分别为SARS-Cov-2 膜蛋白、蛋白3a、Nsp2、Nsp4、Nsp6和papain-like蛋白酶。
Ø 改进病毒DNA测试
当前,机器学习和新型基因组技术也用来提升PT-PCR的测试效果。Metsky等人利用CRISPR来进行检验分析设计,用以检测包括SARS-CoV-2在内的67种呼吸道病毒。此外,对于那些被预测为敏感性和特异性并且涵盖多种基因组的检测分析,有些机器学习模型可以加速它们的设计。
Ø 老药新用
发现当前药物可以用来治疗COVID-19的一种方法是生物医学知识图谱。生物医学知识图谱网络可以捕捉蛋白质与药物等不同实体之间的联系,从而可以进一步了解它们彼此之间的关联。
Richardson等人利用生物医学知识图谱识别出了Baricitinib,这是一种通常用于治疗关节炎的药物,但由于它能够抑制AP2相关的蛋白激酶 1(AAK1),使得病毒很难进入宿主细胞,所以该药物可能适用于COVID-19的治疗。
Ge等人也提出一种类似方法来构建关联人体蛋白、病毒蛋白和药物的知识图谱,它所使用的数据集捕捉了这些实体之间的关系。这种知识图谱用来预测可能有效的候选药物。作者已经识别出了多聚腺苷酸聚合酶抑制剂CVL218,目前正处在临床试验阶段。
其他一些研究也利用创建的模型来预测蛋白配体的复合物亲和性,以解决老药新用的难题。Hu等人使用多任务神经网络对亲和性进行广义预测。作者已经识别出了一系列SARS-Cov-2相关的蛋白质,如RNA依赖的核糖核酸聚合酶、3C-like蛋白酶、解旋酶以及包膜蛋白等等,从而借助于4895种药物的数据集展开靶向治疗。他们推荐了10种可能有效果的药物以及这些药物的靶蛋白和复合物亲和性评分。为了提升模型的可解释性,他们还对每个靶蛋白可能出现结合的精确位置进行预测。
同样地,Beck等人利用他们提出的Molecule Transformer-Drug Target Interaction(MT-DTI)复合物亲和性模型,识别出美国食品及药物管理局(FDA)批准抗病毒药物中可能对6种冠状病毒蛋白质(分别为 3C-like 蛋白酶、RNA 依赖的核糖核酸聚合酶、解旋酶、3』-to-5』核酸外切酶、endoRNAse 和 2』-O-ribose 甲基转移酶)有效的药物。MT-DTI模型以 SMILES数据和氨基酸序列的形式输入串数据,并运用一种借鉴BERT算法的文本建模方法。此外,该模型识别的药物可能对上述蛋白具有靶向效果。
最后,Zhang等人利用密集全连接神经网络,它在PDBBind数据集上被训练用于预测复合物亲和性,从而识别3C-like蛋白酶的潜在抑制剂。他们利用SARS病毒变体创建了靶蛋白同源(模板)模型,并探索现有复合物(如ChemDiv和TargetMol)和三肽的数据集,从而找出对蛋白质具有靶向效果的治疗手段。
Ø 药物发现
也有一些研究试图发现用于靶向SARS-Cov-2的新型化合物。Zhavoronkov et al. (2020a) 等就使用了一个专有管道,寻找类 3C 的水解酶抑制剂。他们的模型使用了三种输入:蛋白质晶体结构、类晶体的例子,以及蛋白质模型本身。对于每个输入类型,研究者拟合了 28 种不同的模型,包括生成自编码器和生成对抗网络。研究者使用强化学习探索潜在的候选药物,其中有一个奖励函数和一些标准——药物相似性、新颖性、和多样性相联系。同时,他们确认识别出的候选化合物和已有的化合物不同,说明它们确实找到了不同的药物。
Tang et al. (2020) 也使用了强化学习来发现药物。研究者整理了284种已知的分子——能够抑制SARS类病毒。他们将这些蛋白质打碎成316个片段,然后使用高级深度Q-learning 来组合,进行药物设计。这种强化学习的奖励函数有三个评价角度:药物相似性分数、加入的预定义「倾向使用的」片段和出现的已知药效集团(和化合物的功效有关的特定结构)。
结果,有4922个结果通过启发式搜索被过滤。最终有排名最前的47个化合物在分子模拟中进行评估。研究者会选择最可能有效的化合物,并进行生产和测试。
Ø 流行病学
流行病学研究覆盖领域极其广泛,其流行的规模和相关性,以及数据的实时更新等多方面因素导致了研究工作必须进行多种类建模。但此次研究将专注于用机器学习去完成流行病学建模的案例。
鉴于流行病感染速度迅速,所以短期实时预测是作为提供信息的重要来源之一,同时模型必须兼备灵活性,以适应各种不断变化的协议或是程序。
Hu et al. (2020b)†收集了WHO以及其他预测参与者于2020年1月11日至2月27日期间收集的数据,用以开发创建一个新的关于中国国内累积或是新增确诊病例的数据集。这些信息主要用于训练调整后的自动编码器(MAE),以便实时预测新病例,并估计流行病的严重程度以及持续时间。
类似的,Al-qaness et al. (2020) 提供了一种新的预测模型,可以使用历史数据并提前十天预测确诊病例的总数。作者的模型是基于neuro-fuzzy inference system (ANFIS) (Jang, 1993),flower pollination algorithm (FPA) (Yang, 2012) 以及 salp swarm algorithm (SSA)(Mirjalili et al., 2017) ,进而最优化模型里的参数。
Mizumoto et al. (2020) 通过机器学习的方法利用从钻石公主号游轮上所收集的感染数据来了解无症状病例的发生率。作者利用这些数据通过贝叶斯分析对时间序列进行建模,并使用了 Hamiltonian Monte Carlo (HMC) 以及 No-U-Turn- Sampler (Homan & Gelman, 2014) 进行调整模型参数,从而预估无症状感染者的比例。尽管在这种封闭式环境中进行分析是非常重要的,但是否值得对外适用于更广泛的人群还尚待观察。
Ø 信息学
当下社交媒体以及在线平台已成为疫情相关信息的主要传播渠道,尽管很多国家和国际组织已使用这些平台与公众进行建设性的交流,但我们也看到一种“信息流行病”,如错误信息或是谣言会越传越广,正确的信息却会被淹没。
在一项广泛研究中,Cinelli et al. (2020)†分析了与COVID- 19相关的社交媒体的内容,作者从Twitter, Instagram, YouTube, Reddit, 以及Gab中收集的800万条于2020年1月1日至 2月14日间使用COVID- 19关键字的评论或帖子。作者预估了对COVID- 19话题的参与度,并横向比较了各平台间话题的发展进度。互动参与度是通过使用累积的贴子数以及 45 天内对帖子的反馈来反应的(如评论,点赞等)。作者采用 phenomenological (Fisman et al., 2013) 以及经典SIR模型来表示信息传播或复制的数量。
类似的,Mejova & Kalimeri (2020)† 研究对象是使用带有病毒相关内容的Facebook广告,通过使用“冠状病毒”以及“COVID- 19”等关键字去搜索所有广告,其范围覆盖了34个国家及地区,并收集了923余条结果。大部分位于美国和欧盟,而其中5%的广告是具有较强的误导信息。
此外,也有研究着手于新冠病毒特定新闻内容的整理,并进行了人工和自动的真实性验证和相关性分析。Pandey et al. (2020)†开发了一个评估每日新闻头条和WHO建议之间相似度的渠道。如果相似度高于某个阈值,则这篇新文章就会在用户的时间线上出现,同时附有WHO 的相关建议。其中相似度的阈值由人工审核确定,依据用户反馈不断更新。针对相互矛盾的信息,这种方法可以帮助大众识别准确可信赖的新闻报道,也能促使重要的指导性文章产生更广泛的影像,推动官方的关注与采纳建议。
Ø 数据集和其他资源
使用AI技术解决COVID-19大流行的全球努力的成功取决于对数据的充分访问。众所周知,机器学习,尤其是深度学习,需要大量的数据和计算能力,以开发和训练新的算法和神经网络架构。在本节中,我们描述了当前存在的一些数据集和数据收集工作。
Ø 案例数据
案例数据是指病例的数量和地域分布,这种数据对于追踪COVID19疫情的蔓延具有重要作用。
Ø 文本数据
NLP方法在这次疫情研究中发挥了重要作用,利用该技术解读的大量文本信息可以帮助我们了解当前有哪些信息是已知的(如病毒传播、环境稳定性、风险因素等)。
Ø 生物医学数据
目前,用于诊断的开源数据集和模型还不是很多。上文中提到的一些CT扫描方法可以找到,但用于训练系统的方法并没有系统地开源。
在论文的最后,研究者进行了三个呼吁:首先,使用开放式存储库进行数据共享的可伸缩方法将极大地加快新模型的开发并为公众利益解锁数据,但是对医学数据的研究必须服从严格的法规要求和隐私保护机制;其次,在像新冠疫情这种特殊情况下,部署AI系统所需的研究具有多学科性质,因此需要创建极其多样化的互补团队和长期合作伙伴关系;最后,在应对新冠这种大流行病的情况下,要加强开放式科学与国际合作,通过国际社区的力量共同对抗疫情。
在这场抗疫战中,国内外很多人工智能公司踊跃发挥自己的技术优势,贡献自己的一份力量,如上文提到的加拿大人工智能公司发出了第一条新冠疫情预警。据《连线》杂志网站3月17日报道,美国白宫联合微软、谷歌等公司汇编了“新冠肺炎开放研究数据集”,这一数据集是迄今可用于数据和文本挖掘研究的最广泛的机器可读冠状病毒文献合集,将用于医学和机器学习等相关领域研究,帮助人们更快更好地应对新冠疫情。
国内的话雷锋网曾盘点了一篇包括零氪科技、连心医疗、深睿医疗、数坤科技、依图科技等在内的二十几家AI企业也都研发了相应的产品和应用,积极加入抗击疫情的大战中。
当然我们相信,加入抗疫的AI企业应该比这个还要多很多,在这里仅列举部分知名公司所做的部分事情,为大家提供一些AI抗疫应用场景的部分掠影。
国外篇
IBM:3月22日,据美国有线电视新闻网报道,世界排名第一的IBM超级电脑“顶点”(Summit)已运用其强大运算能力,对8000多种已知药物化合物进行模拟运算,并从中找出77种有望阻止新冠肺炎病毒的物质。
DeepMind: 此前DeepMind在已发表的一篇文章中称,已经将AlphaFold系统用于新冠病毒的蛋白质结构,这种“自由建模”的机器学习技术能够在没有相似蛋白质结构的先验知识时,提供准确的预测。DeepMind表示,虽然这些预测尚未得到验证,但能够帮助研究人员更充分地理解新冠病毒,这可能在开发疫苗或治疗时有用。
微软:除了上文提到的跟美国政府等合作新冠肺炎研究数据文集之外,微软日前还宣布与合作伙伴自适应生物技术公司(Adaptive Biotechnologies)研究人类免疫系统是如何对新型冠状病毒做出反应的。
国内篇
百度:3月11日,《麻省理工科技评论》发表了题为“百度如何运用人工智能抗击疫情”的报道,从病毒分析、实时筛查、辅助诊疗、大数据分析等几个方面的分析和展现了百度在抗击新冠疫情中的应用成果。此外,据悉早在1月30日,百度向从事抗疫工作的全球科研医疗团队免费开放了线性时间算法 LinearFold 以及世界上现有最快的 RNA 结构预测网站,可将新型冠状病毒 RNA 二级结构预测提速120倍。
腾讯:今年2月,搭载腾讯AI医学影像和腾讯云技术的人工智能CT设备驰援湖北多家医院,只要数秒,AI即可帮助前线医生识别新冠肺炎。同样依托AI技术,腾讯联合中华预防医学会发布“新冠肺炎症状AI辅助自查工具”,帮助发热、咳嗽的用户快速自我评估病情。
2月27日,钟南山院士团队与腾讯公司宣布成立联合实验室,双方将利用大数据及人工智能围绕流行病筛查、人工智能医学影像、流行病疫情预测预警等三个方面展开科研合作。
阿里:针对此次疫情阿里联合全球健康药物研发中心,开发AI药物研发和大数据平台,实时公布。此外,阿里云宣布向全球公共科研机构免费开放一切AI算力,用以加速新药和疫苗的研发。
文章评论(0)