一种panel内引物兼容性筛选方法、系统及存储介质与流程

未命名 09-29 阅读:183 评论:0


1.本发明属于生物医药技术领域,涉及一种panel内引物兼容性筛选方法、系统及存储介质。


背景技术:

2.高通量测序技术(high-throughput sequencing)又称为“下一代”测序技术(“next-generation”sequencing technology),具有速度快、检测范围广、准确度高和灵敏度高等优势。例如,宏基因组测序技术采用鸟枪法的方式,将临床标本内的核酸全部打断成长度为500bp的小片段以测序,并对结果进行组装注释;dna芯片技术采用杂交技术,将事先设计好的探针固定在芯片上孵育,使目标片段和探针结合,进而对目标序列识别或测序。
3.然而,由于人类基因组污染和环境微生物污染的压倒性影响,进行宏基因组测序或是dna芯片杂交需要大量临床样本,且数据产出极多,解读难度也大。靶向测序(target region sequencing,tngs)也称目标区域测序,是利用pcr或探针杂交的方法对基因组区域进行捕获和富集并进行高通量测序的一种技术手段,能够针对目的基因组区域进行遗传变异位点检测,获得指定目标区域的变异信息。与一代测序、全基因组测序和全外显子测序相比,靶向测序能够获得更深的覆盖度和更高的数据准确性,提高了对目标区域的检测效率,缩短了研究周期,降低了测序成本,适合对大量样本进行研究,有助于发现和验证疾病相关的候选基因或相关位点,在临床诊断和药物开发方面有巨大的应用潜力。
4.panel是指在检测中不只是检测一个位5261点、一个基因,而是同时检测多个位点、多个基因,这些位点和基因需要按照一个标准进行选择和组合,从而构成一个检测panel。panel是靶向测序在诊断中的应用。panel的优势在于其高效性、准确性和快速性。相比传统的体检测方法,如培养和血清学检测,panel可以在更短的时间内提供更准确的结果。panel仅需极少量的样品即可给出精确检验,所需数据量少,这不仅减轻了数据解读的困难,还对数据产出的数量级有了较低要求,其所需数据量最低仅需10m左右,是宏基因的百分之一。
5.然而,panel制作的难点在于所使用的引物池,一个好的引物池不仅可以减少操作次数,而且应该对靶序列有着高度准确和特异的检出。目前有相当数量的引物设计软件如:primer3等,但是在如何构建引物池方面却少有研究,大多数引物池的兼容性分析仍基于经验主义,例如引物末端是否匹配,匹配长度为多长等,无法有效指导研发人员。


技术实现要素:

6.为解决上述问题,本发明提供了一种panel内引物兼容性筛选方法、系统及存储介质,通过大量实验量化引物二聚体各个重要参数而形成打分机制,通过本软件能够实现快速批量的二聚体过滤,1000对引物的二聚体过滤仅需2s。
7.为实现本发明的技术目的,一方面,本发明提供一种panel内引物兼容性筛选的方法,包括:对包含多个引物池的panel进行合并得到待排序的引物池;将待排序的引物池转
换为基于文本用于表示核酸序列的格式后排序得到已排序的引物池;对已排序的引物池采用多进程滑窗式对比的方式进行引物对比,评估引物对兼容性,计算加权得分。
8.所述评估引物对兼容性的因素包括互补配对长度、配对区域gc含量、自由能和互补配对所需的退火温度;根据兼容性评估结果,记录引物二聚体信息,并输出结果。
9.本发明对所述多个引物池的来源不做具体限定,本领域技术人员可采用常规软件设计、直接使用保守区域、用户偏好等方式获得。
10.进一步,本发明提供的方法中,以尽可能多的捕获目标序列为依据将多个引物池合并,合并后的引物池中的引物根据fasta格式对所述待排序的引物池按照引物长度与兼并度进行排序,获得已排序的引物池。
11.进一步,本发明提供的方法中,多进程滑窗对比首先定义一个进程池,进程池中进程个数为n个,本发明对n不做具体限定,本领域技术人员可根据需要调整。挑选已排序的引物池中的前n个引物,每个引物与自身及排序在其身后的引物进行对比。完成一个对比后,按照顺序向进程池中补充引物,直至所有引物对比结束。
12.进一步,本发明提供的方法中,多进程滑窗对比中引入哈希算法,记录出现过的k-mers,如果新补充的引物包含记录过的k-mer,那么直接提取记录结果并跳过对比。
13.进一步,本发明提供的方法中,引物对的兼容性评估因素包括:互补配对长度、配对区域gc含量、配对区域结合所释放的能量以及互补配对所需的退火温度等。本发明通过对上述兼容性评估因素进行引物对兼容性评估,以各因素对应的阈值为指标确定引物对是否兼容,任一因素不兼容则确定引物对不兼容,不兼容的引物对记录后跳过,非不兼容的引物对赋予权重和权重得分后计算加权得分,超过加权得分阈值的引物对认为兼容并输出。
14.具体地,本发明提供的方法中,互补配对长度由正则匹配确定,权重得分为互补配对长度的平方,权重为1;配对区域gc含量的权重得分为配对区域gc含量的平方,权重为1;设置第一阈值,互补配对长度和配对区域gc含量的乘积与第一阈值做对比,超过第一阈值认为不兼容。
15.具体地,本发明提供的方法中,自由能计算采用碱基配对和碱基堆叠对双链形成的贡献模型,该模型基于大量实验数据得出与实际更加一致的结果。自由能越大,兼容性越低;设置第二阈值,计算得到的自由能与第二阈值做对比,低于第二阈值则认为不兼容;超过第二阈值,其权重为-1,权重得分为根据模型计算得到的自由能数值。
16.具体地,本发明提供的方法中,互补配对所需的退火温度的计算模型为:
17.δg=δh-t
×
δs
×
lnc
18.公式中,δg为吉布斯自由能变;δh为焓变;δs为熵变;t为互补配对所需的退火温度;c为引物浓度。
19.互补配对所需的退火温度越高不兼容性就越高;设置第三阈值,计算得到的互补配对所需的退火温度与第三阈值做对比,超过第三阈值则认为不兼容;低于第三阈值,权重为1,权重得分为通过退火温度的计算模型得到的互补配对所需的退火温度数值。
20.进一步,本发明提供的方法中,加权得分的计算方式为:
21.加权得分=互补配对长度的平方值
×
配对区域gc含量的平方值/(-1
×
自由能
×
互补配对所需的退火温度),设置加权得分的阈值,加权得分低于阈值则不兼容,超过阈值则输出为高风险引物对。
22.本发明对第一阈值、第二阈值、第三阈值以及加权得分的阈值不做具体限定,本领域技术人员可根据需要自由设置。
23.进一步,本发明提供的方法中,findimer软件会输出所有记录的不兼容引物对,即引物二聚体,便于研究人员进行替换或排除。
24.进一步,本发明提供的方法能够快速、准确地过滤掉不兼容的引物对,提高引物池设计的效率和精度。
25.另一方面,本发明请求保护一种panel内引物兼容性筛选的系统,包括:引物池合并模块,用于将多个引物池合并为待排序的引物池;引物排序模块,用于将待排序的引物池转换为基于文本用于表示核酸序列的格式,然后按照引物长度与兼并度进行排序,得到已排序的引物池;引物对比模块,用于将待对比的引物序列通过多进程程滑窗对比,加入哈希算法进一步加快对比速度,以互补配对长度、配对区域gc含量、自由能和互补配对所需的退火温度评估引物对的兼容性,判断引物对兼容性,加权得分计算后,记录引物二聚体信息,即不兼容的引物对;结果输出模块,用于输出记录的不兼容引物对和输出高风险引物对。
26.还有,本发明请求保护panel内引物兼容性筛选的方法在高通量测序技术中的应用,具体为靶向测序技术。
27.与现有技术相比,本发明提供的技术方案至少具备下述的有益效果或优点:
28.本发明提供的检测疾病panel内引物兼容性的方法能够快速准确评估引物对之间的兼容性,以便过滤掉不兼容的引物对,提高了引物池的效率和精度。findimer与现有软件mfeprimer相比,运行时间低于现有软件的1%,通过findimer软件对1000对引物的二聚体过滤仅需2s,能够实现快速批量的二聚体过滤;优化后的引物池仅剩余17对引物,极大减小了引物兼容性判定误差,并且输出的引物对风险更高。本发明通过多进程滑窗对比,简化了对比的复杂度,并且能够实现快速对比;同时在多进程滑窗对比中引入哈希算法,记录出现过的k-mers,一旦新的对比物中包含记录过的k-mer就可以直接提取记录结果并跳过,进一步提高对比速度。
29.本发明提供的检测疾病panel内引物兼容性的方法对靶序列有高度准确性,经过实验验证,在二代文库中引物池二聚体含量约为5%,表明结果的准确度高。引物的兼容性评估包括采用碱基配对和碱基堆叠对双链形成的贡献模型为自由能计算模型,相比于primer3使用的临近碱基模型,本发明得到的实验数据与实际更加一致。引物的兼容性评估包括采用由吉布斯自由能变、焓变和熵变根据互补配对所需的退火温度计算模型反推得到互补配对所需的退火温度,其中自由能采用准确度更高的计算模型,焓变和熵变由试验得出,因此得出的互补配对所需的退火温度也更加准确。
30.本发明提供的检测疾病panel内引物兼容性的方法保留引物对更多,现有软件的结果几乎排除了所有引物对,对实验端非常不友好,而findimer则尽可能的保留引物对,方便研究人员进行替换或排除。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
32.图1为findimer软件制作疾病panel的流程示意图。
33.图2为findimer软件与现有软件mfeprimer制作疾病panel的对比图。a为findimer软件与现有软件mfeprimer制作疾病panel的运行时间对比图;b为findimer软件与现有软件mfeprimer制作疾病panel检测到的不兼容引物数量的对比图。
具体实施方式
34.下面,结合实施例对本发明的技术方案进行说明,但是,本发明并不限于下述的实施例。各实施例中所述实验方法和检测方法,如无特殊说明,均为常规方法;所述试剂和材料,如无特殊说明,均可在市场上购买得到。
35.实施例1
36.本实施例提供了一种panel内引物兼容性筛选的方法,具体包括以下步骤:
37.将通过常规软件设计得到的多个引物池合并,根据fasta格式对合并后的引物池进行排序,以引物长度和兼并度为排序依据。引物长度越短,兼并度越高,排序越靠前。
38.多进程滑窗式对比:定义一个20个进程的进程池,挑选经过排序的引物池中前20个引物,每个引物只与自身及排序在其身后的引物进行对比评估兼容性。每完成一个对比,就按照顺序向进程池内补充引物。在引物对比的过程中引入哈希算法记录出现过的k-mers,若新的对比物中包含记录过的k-mer就可以直接提取记录结果并跳过。以互补配对长度、配对区域gc含量、自由能以及互补配对所需的退火温度为评估引物对兼容性的因素。
39.其中,互补配对长度由正则匹配确定,权重得分为互补配对长度的平方,权重为1;配对区域gc含量权重得分为配对区域gc含量的平方,权重为1;第一阈值为1000,互补配对长度与配对区域gc含量的乘积与第一阈值做对比,超过1000则认为不兼容。其中,自由能的计算模型采用碱基配对和碱基堆叠对双链形成的贡献模型,自由能越大,权重得分越高;第二阈值设置为-5,,自由能计算结果与第二阈值做对比,低于-5则认为不兼容,高于-5则权重为-1,权重得分为自由能计算结果。其中,互补配对所需的退火温度的计算模型采用:δg=δh-t
×
δs
×
lnc,互补配对所需的退火温度与引物浓度正相关,互补配对所需的退火温度越高,不兼容性也就越高;第三阈值设置为15℃,计算得到的互补配对所需的退火温度与第三阈值做对比,超过15℃则认为不兼容,低于15℃则权重为1,权重得分为计算得到的互补配对所需的退火温度。
40.上述兼容性评估因素中任一项为不兼容时,记录引物对信息并跳过,非不兼容引物对计算加权得分,所述加权得分=互补配对长度的平方值
×
配对区域gc含量的平方值/(-1
×
自由能
×
互补配对所需的退火温度),所述加权得分的阈值为3,低于阈值则不兼容,超过阈值则输出为高风险引物对。
41.输出所有记录的引物二聚体信息即不兼容引物对,并输出高风险引物对。
42.本实施例提供的panel内引物兼容性筛选方法的流程示意图如图1所示。
43.实施例2
44.本实施例提供了panel内引物兼容性筛选的软件与现有软件mfeprimer和primer3制作疾病panel的对比。
45.对流感a、肠病毒、艾滋病毒、副流感病毒、诺如病毒等共计30个病毒引物池内引物进行兼容性筛选,具体通过findimer软件和mfeprimer软件进行兼容性筛选,本实施例共得
到1000对引物的兼容性筛选结果。
46.findimer软件与现有软件mfeprimer的对比结果如图2所示;findimer软件输出的高风险引物对如表1和表2所示;
47.在10个批次实验中findimer软件与现有软件mfeprimer得到的引物二聚体含量如表3所示;
48.本技术通过findimer软件和现有软件primer3分别得到1000对引物互补配对所需的退火温度,其中二十对引物互补配对所需的退火温度如表4所示。
49.表1:findimer输出的高风险引物对
[0050][0051][0052]
表2:findimer输出的高风险引物对
[0053][0054][0055]
表3:10个批次实验得到的二聚体含量结果
[0056][0057]
注:jk为实验批次。
[0058]
表4:二十种引物采用findimer软件和现有软件primer3得到的互补配对所需的退火温度结果
[0059][0060][0061]
由表1和表2可知,findimer软件输出的引物对加权得分均高于3,输出的引物对风险较高。
[0062]
由表3可知,findimer得到的二代文库中引物池二聚体含量约为5%,表明findimer的结果更加准确。
[0063]
由表4可知,通过findimer计算得到的互补配对所需的退火温度与primer3计算得到的互补配对所需的退火温度的差值为3~5℃,findimer根据互补配对所需的退火温度计算模型得到互补配对所需的退火温度,计算模型中自由能采用准确度更高的计算模型、焓变和熵变由试验得出,因此findimer得到的互补配对所需的退火温度更准确。
[0064]
由图2可知,本发明提供的软件findimer制作疾病panel花费的时间更少,检测到的不兼容引物数量更少。findimer花费的时间不足现有软件的1%,1000对引物的二聚体过滤仅需2s;现有软件所筛选到的潜在不兼容引物对数量为findimer筛选到的潜在不兼容引物对数量的80余倍,极大的增加了引物兼容性判定误差。现有软件mfeprimer对引物池优化后剩余815对风险引物对,如完全替换并不现实且其中仍可能包含实际有效引物对。但是findimer优化后仅剩余17对风险引物对,方便研究人员进行替换或排除。
[0065]
由上述试验结果可知,相比于现有软件mfeprimer本发明提供的软件findimer制作疾病panel花费的时间更少,且优化后仅剩余17对风险引物对,相比于现有软件mfeprimer优化后剩余815对风险引物对而言,本发明提供的软件findimer极大减小了引物兼容性判定误差,输出的引物对风险更高,且实验发现findimer所获得的引物池内二聚体含量仅占5%左右,精确度更高。
[0066]
如上所述,较好的描述了本发明的基本原理、主要特征和优点。上述实施例和说明书仅仅是对本发明的优选实施方式进行描述,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下,本领域普通技术人员对本发明的技术方案做出的各种改变和改
进,均应落入本发明确定的保护范围内。

技术特征:
1.一种panel内引物兼容性筛选方法,所述panel包含多个引物池,其特征在于,所述引物兼容性筛选的方法包括:将所述多个引物池合并,获得待排序的引物池;将所述待排序的引物池中的引物转换为基于文本用于表示核酸序列的格式,然后按照引物长度与兼并度进行排序,获得已排序的引物池;对所述已排序的引物池采用多进程滑窗式对比的方式进行引物对比,评估引物对兼容性,计算加权得分;所述评估引物对兼容性的因素包括互补配对长度、配对区域gc含量、自由能和互补配对所需的退火温度;根据兼容性评估结果,记录引物二聚体信息,并输出结果。2.根据权利要求1所述的panel内引物兼容性筛选方法,其特征在于,所述多进程滑窗对比中加入哈希算法,所述哈希算法用于记录每次引物的对比,输出记录k-mers;所述多进程滑窗对比的进程中对比的引物对包含记录过的k-mer,直接提取记录结果并跳过对比。3.根据权利要求1所述的panel内引物兼容性筛选方法,其特征在于,所述互补配对长度由正则匹配确定,所述互补配对长度的权重得分为所述互补配对长度的平方,所述互补配对长度的权重为1;所述配对区域gc含量的权重得分为所述配对区域gc含量的平方,所述配对区域gc含量的权重为1。4.根据权利要求1所述的panel内引物兼容性筛选方法,其特征在于,所述自由能的计算模型为碱基配对和碱基堆叠对双链形成的贡献模型;所述自由能的权重得分为通过所述自由能的计算模型得出的自由能数值;所述自由能的权重为-1。5.根据权利要求1所述的方法,其特征在于,所述互补配对所需的退火温度的计算模型为:δg=δh-t
×
δs
×
lnc;δg为吉布斯自由能变,δh为焓变,δs为熵变,t为互补配对所需的退火温度,c为引物浓度;所述互补配对所需的退火温度的权重得分为经过所述互补配对所需的退火温度的计算模型得到的互补配对所需的退火温度数值;所述互补配对所需的退火温度的权重为1。6.根据权利要求1所述的方法,其特征在于,所述加权得分的计算公式为:互补配对长度的平方值
×
配对区域gc含量的平方值/(-1
×
自由能
×
互补配对所需的退火温度)。7.根据权利要求1所述的方法,其特征在于,所述输出结果包括:输出记录的引物二聚体信息和输出高风险引物对。8.一种panel内引物兼容性筛选的系统,其特征在于,包括:引物池合并模块,用于将多个引物池合并为待排序的引物池;引物排序模块,用于将待排序的引物池转换为基于文本用于表示核酸序列的格式,然后按照引物长度与兼并度进行排序,得到已排序的引物池;引物对比模块,用于将待对比的引物序列通过多进程程滑窗对比,加入哈希算法进一步加快对比速度,并结合引物对的兼容性评估因素,所述兼容性评估因素包括:互补配对长
度、配对区域gc含量、自由能和互补配对所需的退火温度,判断引物对兼容性,计算加权得分,记录引物二聚体信息;结果输出模块,用于输出记录的不兼容引物对和高风险引物对。9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1~7任一项所述的方法。10.权利要求1~7任一项所述方法在制作病毒panel中的应用。

技术总结
本发明公开了一种panel内引物兼容性筛选方法、系统及存储介质,方法包括:将多个引物池合并为待排序的引物池,将引物池按照引物长度与兼并度排序;采用多进程滑窗式对比的方式进行引物对比,为了加快对比进程,加入了哈希算法,以互补配对长度、配对区域GC含量、自由能和互补配对所需的退火温度为兼容性评估因素,计算各因素的加权得分,记录引物二聚体信息后结果输出。相较于现有的引物兼容性筛选方法,随着引物池规模的扩大,对比所需时间和内存会以指数级增长,且过于依赖研发人员手动比较,本发明能够在较短时间内精确地输出高风险的引物对。本发明为制作病毒panel提供另外一种途径。径。径。


技术研发人员:詹庆元 夏涵 吴小静 官远林
受保护的技术使用者:予果生物科技(北京)有限公司
技术研发日:2023.06.21
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐