TIBCAS联合亚马逊云科技针对微生物领域真实业务场景提出新框架

时间:2022-06-17 10:21:24       来源:榕城网

自2019年中科院天津工业生物技术研究所(TIBCAS)就开始和亚马逊云科技共同探索如何利用云计算助力创新。TIBCAS通过亚马逊云科技提供的多项创新的托管服务,极大的简化了行业应用创新与发展的难度,加速了通过数字化能力对合成生物学的推动。

图是存储和分析高连接性数据的有效形式,适合用于异质性数据的管理和处理复杂查询。图数据库也已经被广泛应用在社会网络、金融服务和市场营销等复杂关系的领域。近几年,图数据库也在生物领域有了一定应用,如Reactome和CKG数据库等。

然而这些工具都有一个共同的问题,用户需要使用专门开发的图形查询语言来编写查询语句以进行复杂的分析,且人机交互不够便捷,这使得它们对大多数不熟悉编程语言的生物学家来说是遥不可及的。

Amazon Neptune作为主流图数据库之一,能够高效存储和导航图形数据,同时有着非常好的高性能和扩展性的特点,允许用户在毫秒级查询数十亿关系数据,可以使用流行的图形查询语言Apache TinkerPop Gremlin和W3C的SPARQL执行高效的查询,这类查询易于编写并且能够针对互连数据实现很好的执行效果。

在这项研究中,TIBCAS联合亚马逊云科技针对生物领域真实业务场景需求,提出了一个存储和分析高连接性数据的新框架,实现了有效的交互式导航和可视化,该框架同时具有通用性和扩展性,可以非常方便地扩展延伸到生物学的其他应用领域和其他物种研究中。

利用该框架开发了目前第一个基于图数据库的大肠杆菌调控知识图谱ERMer,该知识图谱中包含了4类实体(基因、反应、代谢物和途径)和9类边(包括反应-途径,反应-产物,底物-反应,基因-反应,转录因子-基因,化合物-蛋白,Sigma因子-基因和蛋白-蛋白互作)。

基于图数据库对于图存储、图计算以及图神经网络的支持和优化,ERMer不仅让科研人员能够以交互式、可视化、无需编程的方法探索完整的大肠杆菌调控图谱,还充分利用Amazon Neptune对Gremlin的优化设计,实现了多步查询、最短路径等复杂搜索场景下的搜索,实现了生物调控级联检索,允许用户通过指定搜索方法(特定的关系、最大搜索长度、最短路径或最全搜索等),快速得到所有调控链路,有助于用户发现新的调控模式以及一些潜在的代谢工程靶点(调控策略)。

通过将典型的生物学问题转化为图的路径遍历问题(如:给定两个途径间的关键调控代谢物是什么),科研人员只需要输入所关注的途径名称,即可获得所有调控代谢物的可视化结果,提升了科研工作效率。为了进一步发挥知识图谱的价值,TIBCAS还采用了Amazon Neptune ML来训练模型,通过使用图谱神经网络技术,实现了转录因子预测和转录因子靶点预测等功能。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关键词: