一种基于核磁谱图自动确定化合物结构的方法、系统、存储介质及终端与流程

未命名 09-21 阅读:65 评论:0


1.本发明涉及生物化学领域,尤其涉及一种基于核磁谱图自动确定化合物结构的方法、系统、存储介质及终端。


背景技术:

2.计算机辅助化合物结构解析是信息学、化学和数学交叉领域的经典问题之一。核磁共振是表征有机分子结构最广泛使用的技术,它表征了组成分子的原子的局部环境,提供了分子的“指纹”,化学家们可以用来推断化合物的结构。然而,即使是相对较小的分子也可能有大量具有复杂分裂模式的氢核磁共振峰,因此人工核磁数据解析往往耗时,容易出错,而且需要化学科研工作者大量的经验和积累的化学知识才能完成。由于分子结构空间的巨大,从其核磁共振光谱中自动确定分子结构的过程具有很大的挑战性。因此,根据核磁谱图自动确定化合物结构可以帮助研究人员加速化学发现。
3.目前,已经有结构解析的辅助程序被开发出来,以解析有机小分子的化学结构,这通常需要输入元素组成、核磁数据、质谱数据。通过这些条件会生成大量的候选结构,为进一步缩小范围,通常还需规定某些特定子结构的信息,以缩小范围,需要多种数据结合,而且运行时间较长。因此,有必要开发一种自动的、数据种类需求少的、快速解析分子结构的方法。


技术实现要素:

4.本发明的目的在于克服现有化合物结构解析存在的问题,提供了一种基于核磁谱图自动确定化合物结构的方法、系统、存储介质及终端。
5.本发明的目的是通过以下技术方案来实现的:
6.第一方面,提供一种基于核磁谱图自动确定化合物结构的方法,所述方法包括以下步骤:
7.s1、构建核磁共振化学位移数据库;
8.s2、将数据库中的13c核磁数据转换为长400的特征向量;
9.s3、将待预测化合物使用步骤s2中的方法转换为长400的特征向量,计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;
10.s4、根据余弦相似性的计算结果预测出待预测化合物的结构。
11.作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,所述构建核磁共振化学位移数据库,包括:
12.收集核磁共振化学位移数据,包括化合物的结构编码、化合物的13c核磁数据。
13.作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,所述将数据库中的13c核磁数据转换为长400的特征向量,包括:
14.s21、将13c核磁数据进行去重,仅保留唯一不重复的数据;
15.s22、对13c核磁数据进行四舍五入取整;
16.s23、取整后的核磁数据加100;
17.s24、生成一个长为400的向量,索引从0开始,核磁数据所在的索引位置设置为1,其余位置设置为0。
18.作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,所述将数据库中的13c核磁数据转换为长400的特征向量,还包括:
19.s25、将核磁数据所在位置的1往两边扩散;若存在重叠的位置,则数值相加。
20.作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,所述计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性,包括:
21.计算公式如下:
[0022][0023]
其中a、b分别为待预测化合物的特征向量以及数据库中任意一个特征向量。
[0024]
作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,所述根据余弦相似性的计算结果预测出待预测化合物的结构,包括:
[0025]
对所有的计算结果按从大到小的顺序排序,选取前20个最相似的特征谱图对应的化合物作为与待测核磁数据的候选化合物;
[0026]
若前20个的特征谱图中,有相似度为1的核磁谱图,则认为其对应的化合物即为待测核磁数据的化合物结构;
[0027]
若前20个最相似的特征谱图中,没有相似度为1的核磁谱图,则把前20个特征谱图所对应的化合物的结构进行拆分,得到官能团的片段,然后将所述片段重新组合;对重新组合的化合物进行化学位移的预测,再根据预测的核磁数据进行相似性计算,取相似度最大值对应的化合物结构为待测核磁数据的化合物结构。
[0028]
作为一优选项,一种基于核磁谱图自动确定化合物结构的方法,若已知待预测化合物中可能的元素和不可能的元素,则根据元素进行筛选,去除不可能存在的化合物。
[0029]
第二方面,提供一种基于核磁谱图自动确定化合物结构的系统,所述系统包括:
[0030]
核磁共振化学位移数据库;
[0031]
特征向量计算模块,配置为将核磁共振化学位移数据库中的13c核磁数据转换为长400的特征向量;
[0032]
相似度计算模块,配置为计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;
[0033]
化合物结构预测模块,配置为根据余弦相似性的计算结果预测出待预测化合物的结构。
[0034]
第三方面,提供一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。
[0035]
第四方面,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。
[0036]
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组
合或替换构成新的技术方案。
[0037]
与现有技术相比,本发明有益效果是:
[0038]
(1)本发明基于大量核磁谱图数据,构建核磁共振化学位移数据库,并通过计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性,进而自动预测出待预测化合物的结构,数据需求少,实现了仅根据核磁谱图数据到分子结构快速的自动预测。
[0039]
(2)在一个示例中,若已知化合物中可能的元素和不可能的元素,可以根据元素进行筛选,去除不可能存在的化合物,进一步缩小范围,加快结构预测速度。
附图说明
[0040]
图1为本发明实施例示出的一种基于核磁谱图自动确定化合物结构的方法流程图;
[0041]
图2为本发明实施例示出的根据相似度确定化合物结构的具体过程;
[0042]
图3为本发明实施例示出的二甲苯的mol码示意图;
[0043]
图4为本发明实施例示出的一个待预测化合物的13c核磁数据;
[0044]
图5和图6为本发明实施例示出的前20个最相似的特征谱图对应的化合物;
[0045]
图7为本发明实施例示出的根据已知化合物中不含有f元素和s元素,筛选掉化合物中包含f或s元素的化合物示意;
[0046]
图8为本发明实施例示出的拆分为基本的官能团并将这些基本的官能团按其频次进行降序排列的示意图。
具体实施方式
[0047]
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048]
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0049]
在一示例性实施例中,参照图1,提供一种基于核磁谱图自动确定化合物结构的方法,所述方法包括以下步骤:
[0050]
s1、构建核磁共振化学位移数据库;
[0051]
s2、将数据库中的13c核磁数据转换为长400的特征向量;
[0052]
s3、将待预测化合物使用步骤s2中的方法转换为长400的特征向量,计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;
[0053]
s4、根据余弦相似性的计算结果预测出待预测化合物的结构。
[0054]
其中,所述构建核磁共振化学位移数据库,包括:
[0055]
a)收集核磁共振化学位移数据,所述数据主要包括化合物的结构编码(mol码和smiles码)、化合物的13c核磁数据;
[0056]
b)所述数据主要以以下形式存入数据库,以下是以二甲苯为例生成的一条数据;
[0057][0058]
一条数据包括化合物的mol码、smiles码、13c核磁化学位移、以及与化学位移相对应原子编码index、核磁数据测试的溶剂solvent和频率frequency,其中,二甲苯的mol码如图3所示。
[0059]
c)所述数据是以分子为单位的;
[0060]
d)将所有收集的核磁共振化学位移数据以上述所述的数据形式存入数据库,即完成数据库的构建。
[0061]
进一步地,进行数据预处理,所述将数据库中的13c核磁数据转换为长400的特征向量,包括:
[0062]
s21、将13c核磁数据进行去重,仅保留唯一不重复的数据,以二甲苯为例,去重后的数据即为[136.42,129.63,125.85,19.66];
[0063]
s22、对13c核磁数据进行四舍五入取整,以二甲苯为例,取整后的数据即为[136,130,126,20];
[0064]
s23、取整后的核磁数据加100,即为[236,230,226,120];
[0065]
s24、生成一个长为400的向量,索引从0开始,核磁数据所在的索引位置设置为1,其余位置设置为0,即为:
[0066][0067]
s25、考虑到核磁数据测试的误差,需要将核磁数据所在位置的1往两边扩散,即把1替换为0.5,在0.5的两边依次递减0.1填充数字,即0.1、0.2、0.3、0.4、0.5、0.4、0.3、0.2、0.1,考虑测试误差后的向量如下:
[0068][0069]
s26、若存在重叠的位置,则数值相加,相加后得到如下特征向量:
[0070]

[0071]
s27、将所述的特征向量存入到数据库中,与化合物对应起来。
[0072]
进一步地,所述计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性,包括:
[0073]
a)输入化合物的13c核磁谱图的数据;
[0074]
b)对输入的核磁谱图数据进行峰位提取,得到化学位移的列表;
[0075]
c)将得到的化学位移数据列表按上所述的数据预处理模块进行预处理,得到一个长为400的特征向量;
[0076]
d)将该特征向量与数据库中所有的特征向量进行余弦相似性计算,计算公式如下:
[0077][0078]
其中a、b分别为待预测化合物的特征向量以及数据库中任意一个特征向量,|a|、|b|分别为两个向量的模长,分子为两个向量的点积,分母为两个向量摸长度乘积。它的取值区间为[-1,1],当两个向量方向相同时,取值最大为1,表示两个向量完全相同;当两个向量方向相反时,取值为-1,表示两个向量完全不同。
[0079]
进一步地,参照图2,所述根据余弦相似性的计算结果预测出待预测化合物的结构,包括:
[0080]
完成余弦相似性计算后,对所有的计算结果按从大到小的顺序排序,选取前20个最相似的特征谱图对应的化合物作为与待测核磁数据的候选化合物;
[0081]
若前20个的特征谱图中,有相似度为1的核磁谱图,则认为其对应的化合物即为待测核磁数据的化合物结构;
[0082]
若前20个最相似的特征谱图中,没有相似度等于1的核磁数据,则需要把前20个特征谱图所对应的化合物的结构进行拆分,得到官能团的片段,然后将这些片段重新组合,对重新组合的化合物进行化学位移的预测,再根据预测的核磁数据进行如上所述的相似性计算,再按相似性进行排序,取相似度最大值对应的化合物结构为待测核磁数据的化合物结构。
[0083]
进一步地,若已知待预测化合物中可能的元素和不可能的元素,则根据元素进行筛选,去除不可能存在的化合物,进一步缩小范围。
[0084]
在一个示例中,以图4所示化合物的13c核磁数据为例,对其结构进行预测:
[0085]
1、对输入的核磁谱图进行峰位提取,得到化学位移的列表,即为:[166.32,156.68,135.29,129.08,126.51,124.2,98.39,35.39,12.9];
[0086]
2、对核磁数据进行四舍五入取整,取整后的数据为[166,157,135,129,127,124,98,35,13];
[0087]
3、取整后的核磁数据加100,即为[266,257,235,229,227,224,198,135,113];
[0088]
4、将上述处理后的核磁数据转换为一个长为400的向量,即为:
[0089]
5、将该特征向量与数据库中所有的特征向量进行余弦相似性计算,对所有的计算结果按从大到小的顺序排序,选取前20个最相似的特征谱图对应的化合物作为与待测核磁数据的候选化合物,如图5和图6所示,其中,图片的图注为化合物的编号及其与待测核磁谱图的相似性。
[0090]
6、进一步地,如果明确已知化合物中不含有f元素和s元素,则筛选掉化合物中包含f或s元素的化合物,进一步缩小化合物确定的范围。如图7所示。
[0091]
7、如图7可知,没有相似度为1的化合物匹配,因此需要将这些化合物拆分为基本的官能团将这些基本的官能团按其频次进行降序排列,如图8所示。
[0092]
8、然后将这些官能团重新组合成新的化合物,对组合的化合物的化学位移进行预测,根据预测得到核磁化学位移数据重复步骤2-5,根据相似性排序后,找到与待测化合物最相似的结构,从而得到根据核磁数据预测得到的结构。
[0093]
在另一示例性实施例中,提供一种基于核磁谱图自动确定化合物结构的系统,所述系统包括:
[0094]
核磁共振化学位移数据库;
[0095]
特征向量计算模块,配置为将核磁共振化学位移数据库中的13c核磁数据转换为长400的特征向量;
[0096]
相似度计算模块,配置为计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;
[0097]
化合物结构预测模块,配置为根据余弦相似性的计算结果预测出待预测化合物的结构。
[0098]
在另一示例性实施例中,本发明提供一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。
[0099]
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0100]
在另一示例性实施例中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。
[0101]
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
[0102]
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
[0103]
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如fpga(现场可编程门阵列)或asic(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
[0104]
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏操纵台、全球定位系统(gps)接收机、或例如通用串行总线(usb)闪存驱动器的便携式存储设备,仅举几例。
[0105]
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所
要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
[0106]
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
[0107]
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

技术特征:
1.一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述方法包括以下步骤:s1、构建核磁共振化学位移数据库;s2、将数据库中的13c核磁数据转换为长400的特征向量;s3、将待预测化合物使用步骤s2中的方法转换为长400的特征向量,计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;s4、根据余弦相似性的计算结果预测出待预测化合物的结构。2.根据权利要求1所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述构建核磁共振化学位移数据库,包括:收集核磁共振化学位移数据,包括化合物的结构编码、化合物的13c核磁数据。3.根据权利要求1所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述将数据库中的13c核磁数据转换为长400的特征向量,包括:s21、将13c核磁数据进行去重,仅保留唯一不重复的数据;s22、对13c核磁数据进行四舍五入取整;s23、取整后的核磁数据加100;s24、生成一个长为400的向量,索引从0开始,核磁数据所在的索引位置设置为1,其余位置设置为0。4.根据权利要求3所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述将数据库中的13c核磁数据转换为长400的特征向量,还包括:s25、将核磁数据所在位置的1往两边扩散;若存在重叠的位置,则数值相加。5.根据权利要求1所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性,包括:计算公式如下:其中a、b分别为待预测化合物的特征向量以及数据库中任意一个特征向量。6.根据权利要求1所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,所述根据余弦相似性的计算结果预测出待预测化合物的结构,包括:对所有的计算结果按从大到小的顺序排序,选取前20个最相似的特征谱图对应的化合物作为与待测核磁数据的候选化合物;若前20个的特征谱图中,有相似度为1的核磁谱图,则认为其对应的化合物即为待测核磁数据的化合物结构;若前20个最相似的特征谱图中,没有相似度为1的核磁谱图,则把前20个特征谱图所对应的化合物的结构进行拆分,得到官能团的片段,然后将所述片段重新组合;对重新组合的化合物进行化学位移的预测,再根据预测的核磁数据进行相似性计算,取相似度最大值对应的化合物结构为待测核磁数据的化合物结构。7.根据权利要求1所述的一种基于核磁谱图自动确定化合物结构的方法,其特征在于,若已知待预测化合物中可能的元素和不可能的元素,则根据元素进行筛选,去除不可能存在的化合物。
8.一种基于核磁谱图自动确定化合物结构的系统,其特征在于,所述系统包括:核磁共振化学位移数据库;特征向量计算模块,配置为将核磁共振化学位移数据库中的13c核磁数据转换为长400的特征向量;相似度计算模块,配置为计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;化合物结构预测模块,配置为根据余弦相似性的计算结果预测出待预测化合物的结构。9.一种计算机存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任意一项所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。10.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述一种基于核磁谱图自动确定化合物结构的方法中相关内容。

技术总结
本发明公开了一种基于核磁谱图自动确定化合物结构的方法、系统、存储介质及终端,属于生物化学领域,包括:构建核磁共振化学位移数据库;将数据库中的13C核磁数据转换为长400的特征向量;将待预测化合物使转换为长400的特征向量,计算待预测化合物的特征向量与数据库中所有特征向量的余弦相似性;根据余弦相似性的计算结果预测出待预测化合物的结构。本发明基于大量核磁谱图数据,实现了仅根据核磁谱图数据到分子结构快速的自动预测。数据到分子结构快速的自动预测。数据到分子结构快速的自动预测。


技术研发人员:冯有增 杨柳青 王薇 王中健
受保护的技术使用者:药融云数字科技(成都)有限公司
技术研发日:2023.06.21
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐