新一代测序技术在成本、速度、准确性和通量方面的发展,使高维基因组大数据的生成呈指数级增长。
即使我们正在应对数据洪流带来的计算和可扩展性挑战,在传统生物信息学系统的边界之外仍然存在着大量潜在的知识。
以生物医学文献为例,它 玻利维亚手机数据 是向全球研究界传播和交流有关实验、调查和发现的专业知识的重要媒介。生物医学文献的数量正在激增。据估计,每天在生物医学期刊上发表的文章超过 3,000 篇。
最近对CORD-19(冠状病毒学术文章的开放获取数据集)中与 COVID-19 相关的出版物进行的分析发现,平均每周发表990 篇文章。
如今,我们可以使用公共搜索引擎(例如 PubMed 和 Google Scholar)对相关生物医学研究文章进行基于关键词的文献检索。然而,从检索到的文献中提取知识仍然是一个手动过程。知识生成和提取之间的巨大差距可以通过先进的生物医学文献挖掘(BLM) 技术有效解决。
生物医学文本挖掘和自然语言处理 ( BioNLP ) 是一个专业领域,不仅处理来自研究文章和科学期刊的文本数据,还处理来自医疗记录和其他生物医学文档的文本数据。
从大量文本数据中提取知识的能力开辟了一系列新的可能性,包括有可能识别不同文献来源中详述的概念之间的联系,以产生新的假设。
例如,使用高通量代谢组学分析观察与特定疾病相关的代谢物变化,可以对疾病的病因、进展和治疗提供有价值的见解。然而,在心脏骤停等情况下,了解潜在的生化过程可能极其复杂且耗时。
但研究表明,将代谢组学与 LBD 技术相结合显著丰富了假设生成过程,使研究人员能够推断与疾病相关的新代谢途径并确定新的可用药靶点。
因此,文本数据在增强传统组学研究过程方面显然具有巨大潜力。但为了最大限度地发挥文本数据的价值,BioNLP 必须成为现代生物信息学和多组学研究分析框架的固有组成部分。重点必须放在无缝融合基于文献的发现和序列级数据和元数据,为真正集成的多组学分析创建单一事实来源。
真正集成的文本+序列组学分析框架将需要一个生物医学领域特定的 NLP 解决方案,该解决方案可以有机地链接所有数据,包括序列、文本和医疗/健康记录。