一种应用非重叠滑动窗口法准确进行CNV覆盖筛查的方法与流程
未命名
08-22
阅读:185
评论:0
一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法
技术领域
1.本发明涉及妊娠期诊断技术领域,具体涉及一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法。
背景技术:
2.妊娠期又称孕期,是一种特殊的生理状态,女性在怀孕期间由于胎儿位于子宫以内,所以会对女性的身体状态造成影响,容易出现妊娠期疾病,如妊娠期糖尿病、妊娠期高血压和子痫前期等,在影响母亲健康的同时,容易增加后代患长期代谢疾病和心血管疾病的风险。
3.中国专利申请号为cn110527719a公开了一种建立妊娠糖尿病风险评估的早期筛查量表的方法,包括如下步骤:通过对国内外权威的科研文献的查阅,确定易感基因snp选择标准,找到候选基因位点;设计对每个snp位点进行核酸质谱分析的引物,进行pcr扩增及基因检测;建立复杂疾病的风险评估模型,计算个体的遗传风险值;结合遗传风险值和外因风险因素建立妊娠糖尿病风险评估的早期筛查量表。
4.现有技术中,相关研究证明拷贝数缺陷(cnv)可以作为妊娠早期诊断和筛查的一个可能的生物标志物,但现有技术还未完全解决使用极低覆盖率(0.2x)测序数据识别cnv的困难。
5.综上所述,研发一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,仍是妊娠期诊断技术领域中急需解决的关键问题。
技术实现要素:
6.针对现有技术所存在的问题,本发明的目的在于提供一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,本发明中,该方法主要由以下几个部分组成:筛选样本、构建窗口覆盖矩阵、设计窗口修剪规则和覆盖矩阵插补,该方法应用非重叠滑动窗口法和矩阵插补进行准确的cnv覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别cnv的困难,同时为推动研究基于cnv标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。
7.为实现上述目的,本发明提供了如下技术方案:
8.一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,包括以下步骤:
9.s1、筛选样本;
10.s2、构建窗口覆盖矩阵;
11.s3、设计窗口修剪规则;
12.s4、覆盖矩阵插补。
13.本发明进一步设置为:在步骤s1中,所述筛选样本,包括以下步骤:
14.s11、收集18950名怀孕6-13周孕妇的血液样本,在进行相关处理后,样本间的平均测序覆盖率为0.19倍;
15.s12、筛选出平均覆盖率低于0.15倍的样本,615个样品被过滤掉;
16.s13、通过不同窗口大小的非重叠滑动窗口方法进一步划分基因组参考。
17.本发明进一步设置为:在步骤s12中,所述615个样品包括194个gdm样品和421个正常样品。
18.本发明进一步设置为:在步骤s13中,所述窗口大小分别设置为50k、20k、10k和5k。
19.本发明进一步设置为:在步骤s2中,所述构建窗口覆盖矩阵,包括以下步骤:
20.s21、对于每个窗口大小,通过对窗口内碱基对的覆盖率求和来计算参照的覆盖率;
21.s22、形成窗口覆盖矩阵,每行代表一个样本,每列代表一个窗口,矩阵中的元素是窗口覆盖。
22.本发明进一步设置为:在步骤s3中,所述设计窗口修剪规则,包括以下步骤:
23.s31、用每行样本的平均覆盖率来标准化元素;
24.s32、通过以下规则来修剪窗口:丢弃超过80%的归一化覆盖率低于0.1的样本的窗口;丢弃正常和gdm样本中相似平均覆盖范围(差异小于0.01)的窗口。
25.本发明进一步设置为:在步骤s32中,所述窗口修剪规则可以降低后续检测gdm的复杂度。
26.本发明进一步设置为:在步骤s4中,所述覆盖矩阵插补,包括以下步骤:
27.s41、进一步通过scoit进行了矩阵插补,避免读漏(无法测序的区域)和低测序覆盖率导致的测序错误的影响;
28.s42、在生成具有每个窗口中对齐的读取的数量的覆盖矩阵之后,对覆盖矩阵执行样本过滤和窗口修剪;
29.s43、615个样品被过滤掉,因为它们的测序覆盖率低于0.15倍;
30.s44、非重叠滑动窗口方法最初为窗口大小5k、10k、20k和50k产生了617,689、308,861、154,447和61,799个窗口,在窗口修剪过程遵循该方法中提到的规则之后,对于不同的窗口大小,分别留下20,637、11,288、4,520和2,114个窗口;
31.s45、然后将处理过的覆盖矩阵输入进行矩阵插补。
32.有益效果
33.采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
34.本发明中,一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,该方法主要由以下几个部分组成:筛选样本、构建窗口覆盖矩阵、设计窗口修剪规则和覆盖矩阵插补;该方法应用非重叠滑动窗口法和矩阵插补进行准确的cnv覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别cnv的困难,同时为推动研究基于cnv标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。
附图说明
35.图1为一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法的流程图;
36.图2为一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法的窗口覆盖矩阵图。
具体实施方式
37.为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.下面结合实施例对本发明作进一步的描述。
39.请参照图1和图2所示,一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,包括以下步骤:
40.步骤一、筛选样本:
41.11)收集18950名怀孕6-13周孕妇的血液样本,在进行相关处理后,样本间的平均测序覆盖率为0.19倍;
42.12)筛选出平均覆盖率低于0.15倍的样本,615个样品被过滤掉,615个样品包括194个gdm样品和421个正常样品;
43.13)通过不同窗口大小的非重叠滑动窗口方法进一步划分基因组参考,窗口大小分别设置为50k、20k、10k和5k。
44.步骤二、构建窗口覆盖矩阵:
45.21)对于每个窗口大小,通过对窗口内碱基对的覆盖率求和来计算参照的覆盖率;
46.22)形成窗口覆盖矩阵,每行代表一个样本,每列代表一个窗口,矩阵中的元素是窗口覆盖。
47.步骤三、设计窗口修剪规则:
48.31)用每行样本的平均覆盖率来标准化元素;
49.32)通过以下规则来修剪窗口:丢弃超过80%的归一化覆盖率低于0.1的样本的窗口;丢弃正常和gdm样本中相似平均覆盖范围(差异小于0.01)的窗口,窗口修剪规则可以降低后续检测gdm的复杂度。
50.步骤四、覆盖矩阵插补:
51.41)进一步通过scoit进行了矩阵插补,避免读漏(无法测序的区域)和低测序覆盖率导致的测序错误的影响;
52.42)在生成具有每个窗口中对齐的读取的数量的覆盖矩阵之后,对覆盖矩阵执行样本过滤和窗口修剪;
53.43)615个样品被过滤掉,因为它们的测序覆盖率低于0.15倍;
54.44)非重叠滑动窗口方法最初为窗口大小5k、10k、20k和50k产生了617,689、308,861、154,447和61,799个窗口,在窗口修剪过程遵循该方法中提到的规则之后,对于不同的窗口大小,分别留下20,637、11,288、4,520和2,114个窗口;
55.45)然后将处理过的覆盖矩阵输入进行矩阵插补。
56.本发明中,一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,该方法主要由以下几个部分组成:
57.筛选样本:收集18950名怀孕6-13周孕妇的血液样本,在进行相关处理后,样本间的平均测序覆盖率为0.19倍,再筛选出平均覆盖率低于0.15倍的样本,并通过不同窗口大小的非重叠滑动窗口方法进一步划分基因组参考;
58.构建窗口覆盖矩阵:对于每个窗口大小,通过对窗口内碱基对的覆盖率求和来计算参照的覆盖率,如图2所示,形成窗口覆盖矩阵,每行代表一个样本,每列代表一个窗口,矩阵中的元素是窗口覆盖;
59.设计窗口修剪规则:用每行样本的平均覆盖率来标准化元素,通过以下规则来修剪窗口:丢弃超过80%的归一化覆盖率低于0.1的样本的窗口;丢弃正常和gdm样本中相似平均覆盖范围(差异小于0.01)的窗口,降低后续检测gdm的复杂度;
60.覆盖矩阵插补:进一步通过scoit进行了矩阵插补,避免读漏(无法测序的区域)和低测序覆盖率导致的测序错误的影响,在生成具有每个窗口中对齐的读取的数量的覆盖矩阵之后,对覆盖矩阵执行样本过滤和窗口修剪,615个样品被过滤掉,因为它们的测序覆盖率低于0.15倍,非重叠滑动窗口方法最初为窗口大小5k、10k、20k和50k产生了617,689、308,861、154,447和61,799个窗口,在窗口修剪过程遵循该方法中提到的规则之后,对于不同的窗口大小,分别留下20,637、11,288、4,520和2,114个窗口,然后将处理过的覆盖矩阵输入进行矩阵插补;
61.该方法应用非重叠滑动窗口法和矩阵插补进行准确的cnv覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别cnv的困难,同时为推动研究基于cnv标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。
62.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,包括以下步骤:s1、筛选样本;s2、构建窗口覆盖矩阵;s3、设计窗口修剪规则;s4、覆盖矩阵插补。2.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s1中,所述筛选样本,包括以下步骤:s11、收集18950名怀孕6-13周孕妇的血液样本,在进行相关处理后,样本间的平均测序覆盖率为0.19倍;s12、筛选出平均覆盖率低于0.15倍的样本,615个样品被过滤掉;s13、通过不同窗口大小的非重叠滑动窗口方法进一步划分基因组参考。3.根据权利要求2所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s12中,所述615个样品包括194个gdm样品和421个正常样品。4.根据权利要求2所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s13中,所述窗口大小分别设置为50k、20k、10k和5k。5.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s2中,所述构建窗口覆盖矩阵,包括以下步骤:s21、对于每个窗口大小,通过对窗口内碱基对的覆盖率求和来计算参照的覆盖率;s22、形成窗口覆盖矩阵,每行代表一个样本,每列代表一个窗口,矩阵中的元素是窗口覆盖。6.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s3中,所述设计窗口修剪规则,包括以下步骤:s31、用每行样本的平均覆盖率来标准化元素;s32、通过以下规则来修剪窗口:丢弃超过80%的归一化覆盖率低于0.1的样本的窗口;丢弃正常和gdm样本中相似平均覆盖范围(差异小于0.01)的窗口。7.根据权利要求6所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s32中,所述窗口修剪规则可以降低后续检测gdm的复杂度。8.根据权利要求4所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s4中,所述覆盖矩阵插补,包括以下步骤:s41、进一步通过scoit进行了矩阵插补,避免读漏(无法测序的区域)和低测序覆盖率导致的测序错误的影响;s42、在生成具有每个窗口中对齐的读取的数量的覆盖矩阵之后,对覆盖矩阵执行样本过滤和窗口修剪;s43、615个样品被过滤掉,因为它们的测序覆盖率低于0.15倍;s44、非重叠滑动窗口方法最初为窗口大小5k、10k、20k和50k产生了617,689、308,861、154,447和61,799个窗口,在窗口修剪过程遵循该方法中提到的规则之后,对于不同的窗口大小,分别留下20,637、11,288、4,520和2,114个窗口;s45、然后将处理过的覆盖矩阵输入进行矩阵插补。
技术总结
本发明涉及妊娠期诊断技术领域,具体涉及一种应用非重叠滑动窗口法准确进行CNV覆盖筛查的方法;S1、筛选样本,S2、构建窗口覆盖矩阵,S3、设计窗口修剪规则,S4、覆盖矩阵插补。本发明中,应用非重叠滑动窗口法准确进行CNV覆盖筛查的方法,该方法主要由以下几个部分组成:筛选样本、构建窗口覆盖矩阵、设计窗口修剪规则和覆盖矩阵插补,该方法应用非重叠滑动窗口法和矩阵插补进行准确的CNV覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别CNV的困难,同时为推动研究基于CNV标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。妊娠期疾病的新方法打下坚实的基础。妊娠期疾病的新方法打下坚实的基础。
技术研发人员:赵梓丞
受保护的技术使用者:奥迈(深圳)科技有限公司
技术研发日:2023.06.05
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
