用于选择治疗和确定预期治疗结果的基于树的模型的制作方法
未命名
08-18
阅读:117
评论:0
用于选择治疗和确定预期治疗结果的基于树的模型
1.相关专利申请的交叉引用
2.本技术要求2020年12月3日提交的美国临时申请号63/121,195的优先权权益,该临时申请的公开内容全文以引用方式并入本文。
技术领域
3.本文描述用于在治疗受试者时确定预期疾病治疗结果的方法和设备、用于为该受试者选择治疗选项的方法和设备以及治疗受试者疾病的方法。
背景技术:
4.关于药物有效性的最高质量证据通常来自临床试验,这些临床试验提供了对针对符合试验条件的群体取平均的效应的数值总结。入组临床试验的患者群体通常少于预期使用群体,这可能在疾病预后、治疗地点或与试验选择标准相关的其他因素方面有所不同。因此,难以预测临床试验研究组之外的患者对给定治疗的应答如何,特别是当临床试验不对患者进行分层或不包括具有给定治疗意向患者的总体概况的患者时。当医生试图为个别患者做出治疗决定时,针对该特定患者的效应比针对临床试验群体的平均效应更有意义。也就是说,治疗的医疗保健提供者想知道特定患者对治疗的应答如何,而不管针对选定患者群体的临床试验结果如何。
5.医生通常有两个或更多个治疗选项用于治疗患者,但必须确定这些治疗选项中的哪一个对治疗特定患者最有效,即使该治疗选项在用于治疗临床试验患者群体时效果较差。
技术实现要素:
6.本文描述用于为患有疾病的受试者选择治疗的方法和系统、用于在向患者施用治疗选项时确定预期治疗结果的方法以及用于实施这些方法的设备。还描述用于使用通过所描述的方法选择的治疗来治疗患者的方法和系统。
7.这些方法可包括使用一个或多个回归模型(例如,基于树的模型,例如贝叶斯可加回归树模型或其他基于树的回归模型),如果患者用与模型对应的治疗选项进行治疗,则其中的每个回归模型均可确定针对该患者的预期治疗结果。每个决策树模型均可基于多个先前患者特征和与那些特征相关联的相关治疗结果(例如,患者治疗结果)来训练。例如,先前患者可以是参与临床试验的患者,或者可以是真实世界的患者(即,在临床试验之外确定治疗结果的患者)。
8.在一些情况下,该方法可包括提供从来自患有疾病的受试者的样品获得的多个核酸分子;将一个或多个衔接子连接到来自该多个核酸分子的一个或多个核酸分子上;扩增经连接的来自该多个核酸分子的一个或多个核酸分子;从经扩增的核酸分子捕获该经扩增的核酸分子;通过测序仪对经捕获的核酸分子进行测序以获得代表该经捕获的核酸分子的多个序列读段;通过一个或多个处理器来生成基因组图谱,该基因组图谱包括基于序列读
段的序列读段分析数据;使用该一个或多个处理器,基于该序列读段分析数据来识别包括针对一个或多个基因座的生物标志物值的受试者特征;在一个或多个处理器处接收针对该受试者的多个另外的受试者特征;使用该一个或多个处理器访问对应于针对该疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;以及使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果,前提是该受试者用对应治疗选项进行治疗。
9.在一些实施方式中,该方法包括:在一个或多个处理器处接收与来自受试者的样品相关联的多个序列读段;使用该一个或多个处理器分析该多个序列读段以生成基因组图谱,该基因组图谱包括序列读段分析数据;使用该一个或多个处理器,基于该序列读段分析数据来识别包括针对一个或多个基因座的生物标志物值的受试者特征;在一个或多个处理器处接收针对该受试者的多个另外的受试者特征;使用该一个或多个处理器访问对应于针对疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;以及使用该一个或多个处理器从多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果,前提是该受试者用对应治疗选项进行治疗。
10.在一些情况下,确定预期治疗结果包括:基于该多个受试者特征与该多个先前患者特征之间的共性来对每个基于树的模型中的多个节点进行加权。
11.在一些情况下,每个基于树的模型均为基于树的回归模型。在一些情况下,每个基于树的模型均为集成树模型。在一些情况下,每个基于树的模型均为贝叶斯可加回归树模型。
12.在一些情况下,在一个或多个临床试验期间确定针对该多个先前患者中的至少第一部分的治疗结果。
13.在一些情况下,治疗结果和预期治疗结果针对总存活时间、无进展存活时间、肿瘤缓解、受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。
14.在一些情况下,该多个受试者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;该多个先前患者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;并且该多个受试者特征中的至少一部分为与针对先前患者中的至少一部分的该多个先前患者特征中的至少一部分相同类型的特征。
15.在一些情况下,针对该多个受试者特征和该多个患者特征的生物标志物值为egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(cna)状态、pd-l1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。
16.在一些情况下,该疾病为癌症。在一些情况下,该癌症可以是b细胞癌(多发性骨髓瘤)、黑色素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、
咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎症性成肌纤维细胞瘤、胃肠道间质瘤(gist)、结肠癌、多发性骨髓瘤(mm)、骨髓增生异常综合征(mds)、骨髓增生异常(mpd)、急性淋巴细胞性白血病(all)、急性髓细胞性白血病(aml)、慢性髓细胞性白血病(cml)、慢性淋巴细胞性白血病(cll)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(nhl)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、成神经细胞瘤、成视网膜细胞瘤、滤泡性淋巴瘤、弥漫性大b细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈部癌、小细胞癌、原发性血小板增多症、特发性骨髓化生、嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见嗜酸性粒细胞增多症、慢性嗜酸性粒细胞性白血病、神经内分泌癌或类癌瘤。
17.在一些情况下,该方法进一步包括从受试者获得样品。在一些情况下,样品包括组织活检样品、液体活检样品或正常对照。在一些情况下,样品为液体活检样品并且包括血液、血浆、脑脊髓液、痰液、粪便、尿液或唾液。在一些情况下,样品为液体活检样品并且包含循环肿瘤细胞(ctc)。在一些情况下,样品为液体活检样品并且包含细胞游离dna(cfdna)、循环肿瘤dna(ctdna)或它们的任何组合。在一些情况下,该多个核酸分子包括肿瘤核酸分子和非肿瘤核酸分子的混合物。在一些情况下,肿瘤核酸分子源自异质组织活检样品的肿瘤部分,并且非肿瘤核酸分子源自异质组织活检样品的正常部分。
18.在一些情况下,样品包括液体活检样品,并且其中肿瘤核酸分子源自液体活检样品的循环肿瘤dna(ctdna)级分,并且非肿瘤核酸分子源自液体活检样品的非肿瘤、细胞游离dna(cfdna)级分。
19.在一些情况下,该一个或多个衔接子包括扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。
20.在一些情况下,经捕获的核酸分子通过与一个或多个诱饵分子杂交而从经扩增的核酸分子捕获。在一些情况下,该一个或多个诱饵分子包括一个或多个核酸分子,每个核酸分子包括与经捕获的核酸分子的区域互补的区域。
21.在一些情况下,扩增核酸分子包括进行聚合酶链反应(pcr)扩增技术、非pcr扩增技术或等温扩增技术。
22.在一些情况下,测序包括使用大规模并行测序(mps)技术、全基因组测序(wgs)、全外显子组测序、靶向测序、直接测序或桑格测序(sanger sequencing)技术。在一些情况下,测序包括大规模并行测序,并且该大规模并行测序技术包括下一代测序(ngs)。
23.在一些情况下,测序仪包括下一代测序仪。
24.在一些情况下,该多个测序读段中的一个或多个与样品内一个或多个亚基因组间隔内的一个或多个基因座重叠。
25.在一些情况下,该方法进一步包括:如果受试者用对应治疗选项进行治疗,则生成报告,该报告包括针对该受试者的预期治疗结果的列表。在一些情况下,该方法包括将报告
传输到医疗保健提供者。在一些情况下,经由计算机网络或对等连接传输报告。
26.一种确定针对患有疾病(诸如癌症)的受试者的预期治疗结果的方法(其可以是计算机实施的方法)可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问对应于针对该疾病的治疗选项的基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),该模型可存储在配置为被该一个或多个处理器访问的存储器上,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;以及使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果,前提是该受试者用对应治疗选项进行治疗。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
27.一种确定针对患有疾病(诸如癌症)的受试者的预期治疗结果(例如,或两个治疗选项,或三个治疗选项)的方法(其可以是计算机实施的方法)可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问两个或更多个基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),该模型可存储在配置为被该一个或多个处理器访问的存储器上,其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;以及使用该一个或多个处理器从该多个受试者特征和该两个或更多个基于树的模型确定针对该受试者的预期治疗结果,前提是该受试者用对应治疗选项进行治疗。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
28.一种为患有疾病(诸如癌症)的受试者选择治疗(例如,选自两个治疗选项或三个治疗选项的治疗)的方法可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问两个或更多个基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),该模型可存储在配置为被该一个或多个处理器访问的存储器上,其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;使用该一个或多个处理器从该多个受试者特征和该两个或更多个基于树的模型确定针对该受试者的预期治疗结果,前提是该受试者用对应治疗选项进行治疗;以及基于每个治疗选项的预期治疗结果,选择最有可能对治疗该受试者的该疾病有效的治疗选项。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
29.在一些实施例中,确定预期治疗结果包括:基于该多个受试者特征与该多个先前患者特征之间的共性来对每个基于树的模型中的多个节点进行加权。
30.根使用马尔可夫链蒙特卡罗过程、装袋过程或非贝叶斯模型来解释该基于树的模
型中的不确定性。在一些实施例中,使用马尔可夫链蒙特卡罗过程来解释该基于树的模型中的不确定性。
31.治疗结果和/或预期治疗结果可以是,例如,总存活时间、无进展存活时间、肿瘤缓解、受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。
32.例如,预期治疗结果可以是预期治疗结果可能性的分布,例如针对多个时间段的预期治疗结果可能性的分布。
33.在一些实施例中,该疾病为癌症、肌肉硬化或终末期肾病。在一些实施例中,该疾病是癌症。在一些实施例中,一个或多个治疗选项包括免疫肿瘤学治疗选项或化疗治疗选项,或两者。
34.该多个受试者特征可包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者。该多个先前患者特征可包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病(例如,糖尿病或心脏病)、先前疗法列表(任选地包括每种先前疗法花费的时间的列表)、基线ctdna值、实践环境(例如,分类为学术环境或社区环境)或表现状态中的一者或多者。该多个受试者特征中的至少一部分可以是与针对先前患者中的至少一部分的该多个先前患者特征中的至少一部分相同类型的特征。示例性生物标志物值可包括egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(can)状态、pdl1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。
35.上述任何方法可进一步包括在电子显示器上显示:最有可能对治疗受试者的疾病有效的治疗选项,或针对一个或多个治疗选项的预期治疗结果。
36.上述任何方法可进一步包括向受试者或该受试者的医疗保健提供者报告一份报告(其可以是电子报告或非电子报告),该报告指示:最有可能对治疗该受试者的疾病有效的治疗选项,或针对一个或多个治疗选项的预期治疗结果。
37.本文还描述一种系统(例如,一个或多个电子设备),其包括一个或多个处理器;和存储被配置为由该一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于实施上述方法中的任何方法的指令。
38.例如,该系统可包括一个或多个处理器;和存储被配置为由该一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于确定针对患有疾病(例如癌症)的受试者的预期治疗结果的指令,该一个或多个程序可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问对应于针对该疾病的治疗选项的基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),该模型可存储在该存储器上,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;以及如果该受试者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点
可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
39.该系统可包括一个或多个处理器;和存储被配置为由该一个或多个处理器执行的一个或多个程序的存储器,包括用于确定针对患有疾病(例如癌症)的受试者的预期治疗结果(例如,或两个治疗选项,或三个治疗选项)的指令的该一个或多个程序可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问的可存储在该存储器上的两个或更多个基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;以及如果该受试者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
40.该系统可包括一个或多个处理器;和存储被配置为由该一个或多个处理器执行的一个或多个程序的存储器,包括用于为患有疾病(例如癌症)的受试者选择治疗(例如,选自两个治疗选项或三个治疗选项的治疗)的指令的该一个或多个程序可包括在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问的可存储在该存储器上的两个或更多个基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;如果该受试者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果;以及基于每个治疗选项的预期治疗结果,选择最有可能对治疗该受试者的该疾病有效的治疗选项。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
41.本文还描述一种治疗患有疾病的受试者的方法,该方法可包括根据上述方法中的任一种为该受试者选择治疗;以及向该受试者施用最有可能对治疗该疾病有效的治疗选项。例如,治疗受试者的方法可包括为患有疾病(诸如癌症)的受试者选择治疗(例如,选自两个治疗选项或三个治疗选项的治疗),该方法可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问存储在存储器上的两个或更多个基于树的模型(例如,基于树的回归模型,诸如集成回归树模型),其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;如果该受试者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该两个或更多个基于树的模型确定针对该受试者的预期治疗结果;基于每个治疗选项的预期治疗结果,选择最有可能对治疗该受试者的该疾病有效的治疗选项;以及向该受试者施用该最有可能对治疗该受试者的该疾病有效的治疗选项。可在临床试验期间或临床试验之外(即,真实世界数据)或两者确定该多个先前
患者特征和相关联的治疗结果。例如,该基于树的模型可使用真实世界的数据进行拟合并且该基于树的模型的节点可使用临床试验数据进行加权或确定。在一些实施例中,基于树的模型为贝叶斯可加回归树模型。
附图说明
42.图1示出了根据一些实施例的拟合集成树回归模型的示例性方法。
43.图2a示出了根据一些实施例的真实世界数据所生成的集成树回归模型的示例性用途,该模型用于分析临床试验数据以填充树节点。图2b示出了根据一些实施例的临床试验数据如何用于对节点加权的示例性方法。
44.图3示出了根据一些实施例的依赖于真实世界数据来生成更新的基于树的模型的学习循环。
45.图4示出了用于确定针对患有疾病的受试者的预期治疗结果的示例性过程。
46.图5a示出了根据一些实施例的计算设备的示例。
47.图5b示出了根据一个实施例的计算系统的示例。
具体实施方式
48.本文所述的方法可用于确定针对患有疾病的受试者的预期治疗结果,或用于选择用于治疗受试者的治疗选项。例如,受试者可能或受试者的医疗保健提供者可能正在考虑一个治疗选项是否值得冒不良事件的风险或治疗费用,并且告知受试者治疗成功地为有效治疗提供显著优势的可能性。在一些情况下,受试者或受试者的医疗保健提供者可能正在两个或更多个不同的治疗选项之间做出决定以最有效地治疗疾病。例如,单纯地因为一项临床试验表明,在所研究的临床试验群体中,第一治疗选项比第二治疗选项更有效地治疗疾病,并不指示,对于被治疗的特定受试者,第一治疗选项比第二治疗选项更有可能有效。本文所述的方法可提供对一个或多个治疗选项的个性化预测,并且受试者或医疗保健提供者可基于该受试者的特征为该受试者选择最佳治疗选项。
49.本文所述的方法是稳健的并且可用于多种疾病。例如,当疾病为癌症、肌肉硬化或终末期肾病时,可使用该方法。在一些实施例中,该疾病是癌症。
50.一种用于确定针对患有疾病的受试者的预期治疗结果的示例性计算机实施的方法可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问对应于针对该疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;以及如果患者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对该患者的预期治疗结果。该预测方法可经扩展以确定针对多个不同治疗选项的预期治疗结果。例如,一种确定针对患有疾病的受试者的预期治疗结果的示例性计算机实施的方法可包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问两个或更多个基于树的模型,其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;以及如果患者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对患者的预期治疗结果。
51.了解预期的治疗结果或两个或更多个不同治疗选项对于选择最有可能对治疗受试者疾病有效的治疗结果是有用的。例如,为患有疾病的受试者选择治疗的方法可包括针对该受试者确定针对两个或更多个治疗选项的预期治疗结果;以及基于每个治疗选项的预期治疗结果,选择最有可能对治疗患者的疾病有效的治疗选项。可使用本文所述的任何方法来针对受试者确定针对两个或更多个治疗选项的预期治疗结果,例如通过使用计算机实施的方法,该方法包括:在一个或多个处理器处接收针对该受试者的多个受试者特征;使用该一个或多个处理器访问两个或更多个基于树的模型,其中每个基于树的模型对应于针对该疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成每个基于树的模型;以及如果患者用对应治疗选项进行治疗,则使用该一个或多个处理器从该多个受试者特征和该基于树的模型确定针对患者的预期治疗结果。
52.一旦为患者选择了治疗选项,就可通过向该患者施用该治疗选项来针对疾病治疗该患者。
53.定义
54.除非另做定义,否则本文中使用的所有技术术语所具有的含义与本公开所属领域的普通技术人员通常理解的含义相同。
55.如本文所使用的,除非另有说明,否则单数形式“一个”、“一种”及“该”包括复数个参考物。除非另做说明,否则本文中对“或”的任何引用均旨在涵盖“和/或”。
56.在本文中提及“约”值或参数包括(且描述)涉及该值或参数本身的变型。例如,提及“约x”的描述包括“x”的描述。
57.术语“个体”、“患者”和“受试者”同义地使用,并且是指哺乳动物。
58.应当理解,本文描述的本发明的方面和变型包括“由方面和变型组成”和/或“基本由方面和变型组成”。如本文所用,术语“包含”(以及“包含”的任何形式或变体,诸如“包含多项”和“包含一项”)、“具有”(以及“具有”的任何形式或变体,诸如“具有多项”和“具有一项”)、“包括”(以及“包括”的任何形式或变体,诸如“包括多项”和“包括一项”)或“含有”(以及“含有”的任何形式或变体,诸如“含有多项”和“含有一项”)是非遍举的或开放式的,而不排除另外的、未述及的添加物、组分、完整物、要素或方法步骤。
59.如本文所用,术语“亚基因组间隔”(或“亚基因组序列间隔”)是指基因组序列的一部分。
60.如本文所用,术语“受试者间隔”是指亚基因组间隔或表达的亚基因组间隔(例如,亚基因组间隔的转录序列)。
61.如本文所用,术语“变体序列”或“变体”可互换使用并且是指相对于对应的“正常”或“野生型”序列的修饰的核酸序列。在一些情况下,变体序列可以是“短变体序列”(或“短变体”),即长度小于约50个碱基对的变体序列。
62.在提供值的范围的情况下,应当理解,在该范围的上限和下限与在该范围中的任何其他该值或中间值之间的每个中间值都涵盖在本公开的范围内。若该范围包括上限或下限,则排除那些所包括限制中的任意一个的范围也包括在本公开中。
63.本文使用的章节标题仅用于组织目的,并且不应被解释为限制所描述的主题。提供描述是为了使本领域的普通技术人员能够实现和使用本发明,并且将其在专利申请及其要求的上下文中提供。对所描述的实施例的各种修改对于本领域技术人员来说将是显而易
见的,并且本文的一般原理可以应用于其他实施例。因此,本发明并不旨在限于所示的实施例,而是要符合与本文描述的原理和特征一致的最宽范围。
64.附图示出了根据各种实施例的过程。在示例性过程中,任选地组合一些模块,任选地改变一些模块的顺序,以及任选地省略一些模块。在一些示例中,可以与示例性过程组合来执行另外的步骤。因此,所示出(以及下文更详细描述的)的操作本质上是示例性的,并且因此不应被视为限制性的。
65.本文所引用的所有出版物、专利和专利申请的公开内容均以全文引用的方式并入本文。如果以引用方式并入的任何参考文献与即时公开内容冲突,则以即时公开内容为准。
66.治疗结果预测模型
67.如果给定的患有疾病的患者用对应治疗选项进行治疗,则本文所述的方法可使用基于树的模型和针对该受试者的多个受试者特征来预测治疗结果(即,确定针对对应治疗选项的预期治疗结果)。每个基于树的模型可对应于给定的治疗选项,并且可使用多个基于树的模型来比较预期治疗结果,例如以确定最有可能对治疗受试者的疾病有效的治疗选项。
68.可基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成基于树的模型。该多个先前患者特征不需要与该多个受试者特征精确匹配,尽管特征集之间优选地存在一些重叠。
69.基于树的模型(或多个模型)可以是基于树的回归模型。在一些实施例中,基于树的模型为集成树模型(例如,基于集成树的回归模型)。例如,基于树的模型可以是贝叶斯可加回归树(bart)模型。示例性贝叶斯可加回归模型在chipman等人,bart:bayesian additive regression trees,ann.appl.stat.,第4卷,第1期,第266-298页(2010)中描述。也参见athey等人,generalized random forests,annals of statistics,第47卷,第2期,第1148-1178页(2019)。
70.针对先前患者的数据(例如,该多个先前患者特征或先前患者,连同针对治疗选项的治疗结果)用于生成基于树的模型。在一些实施例中,在一个或多个(例如,多个)临床试验期间确定该数据的至少一部分(即,“临床试验数据”)。如果多个临床试验用于该数据,则该临床试验可能已收集了相同的先前患者特征或不同的先前患者特征。在一些实施例中,在临床试验之外确定该数据的至少一部分(即,“真实世界数据”)。在临床试验之外确定的数据可存储在与先前患者特征、治疗选项和治疗选项相关联的数据库中。例如,可使用临床基因组数据库(cgdb),用作foundation-flatiron临床基因组数据库。在临床试验期间确定的先前患者特征集可与在临床试验之外确定的先前患者特征集相同或不同,并且可至少部分地重叠。
71.可不同地使用临床试验数据和真实世界数据来生成基于树的模型。例如,基于树的模型可使用真实世界的数据进行拟合,并且基于树的模型的节点可使用临床试验数据来确定。也就是说,真实世界的数据可用于生成树结构,该树结构用于分析临床试验数据以填充树的节点。随着收集到更多的真实世界数据,可使用另外的真实世界数据重新确定基于树的模型。参见图1,其说明了拟合集成树回归模型的示例性方法。可例如使用马尔可夫链蒙特卡罗过程、装袋过程或非贝叶斯模型来解释该基于树的模型中的不确定性。在一些实施例中,可使用马尔可夫链蒙特卡罗过程来解释该基于树的模型中的不确定性。基于来自
真实世界数据的多个先前患者特征与来自临床试验数据的多个先前患者特征之间的共性,可对具有基于树的模型的节点进行加权。例如,与来自临床试验数据的先前患者特征(其与来自真实世界数据的先前患者特征相同)相关联的节点将被更重地加权以用于估计预期治疗结果,而更大的不匹配将被不那么重地加权。参见图2a和图2b,该图表明真实世界数据所生成的集成树回归模型的示例性用途,该模型用于分析临床试验数据以填充树节点。
72.然后,所生成的基于树的模型可用于预测具有受试者特征集的受试者将如何针对该基于树的模型而应答治疗选项。也就是说,如果受试者用对应治疗选项进行治疗,则对应于针对该疾病的治疗选项的基于树的模型可用于确定针对该受试者的预期治疗结果。在一些实施例中,针对受试者的预期治疗结果为针对先前患者(例如,来自临床试验的先前患者)的治疗结果的加权平均值。例如,以下可用于确定针对治疗选项z的受试者的个性化预期治疗结果y的后验抽取。在一些实施例中,权重经归一化:
[0073][0074]
用于先前患者的治疗结果类型可以是与受试者的预期治疗结果相同类型的治疗结果。示例性治疗结果(或预期治疗结果)可以是总存活时间、无进展存活时间、肿瘤缓解、受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。也可考虑其他治疗结果。确定的预期治疗结果可以是分布(例如,预期治疗结果可能性的分布)。例如,该分布可以是针对多个时间段的预期治疗结果可能性。例如,预期治疗结果可提供在第一时间段后的预期治疗结果和在第二时间段后的预期治疗结果。仅作为示例,预期治疗结果可提供,如果受试者用对应治疗选项进行治疗,在6个月后存活的可能性和在5年后存活的可能性。
[0075]
在一些实施例中,基于树的模型可并入基于连续测量的目标平滑,例如时间或倾向评分。示例性平滑技术在starling,jennifer e.等人“bart with targeted smoothing:an analysis of patient-specific stillbirth risk.”the annals of applied statistics 14.1(2020):28-50中描述。)根据另一示例,贝叶斯因果森林模型可并入目标平滑技术。与贝叶斯因果森林一起使用的示例性平滑技术在starling,jennifer e.,等人“targeted smooth bayesian causal forests:an analysis of heterogeneous treatment effects for simultaneous versus interval medical abortion regimens over gestation.”arxiv preprint arxiv:1905.09405(2019)中描述。
[0076]
先前的患者特征或受试者特征可以是患者的任何特征。示例性特征包括但不限于年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病(例如,糖尿病或心脏病)、先前疗法列表(其可任选地进一步包括每种先前疗法花费的时间的列表)、基线ctdna值(例如,肿瘤级分)、实践环境(例如,用于治疗的社区环境或学术环境)或表现状态。示例性生物标志物值可包括但不限于egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(can)状态、pdl1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。
[0077]
在一些实施例中,先前患者数据可能不足以使用基于树的模型来确定(例如,预测结果)一个或多个治疗选项,例如,当传入的受试者预测落入由该树确定的在先前患者数据不足之处的协变量空间分区内时。在这种情况下,可通过以下方式选择待用于该基于树的模型的数据:(1)基于来自先验预测分布的抽取进行填充;(2)使用来自先前模型的数据,其中那些患者与新来的受试者具有相似的特征(例如,预先指定或数据启示的先验分布);(3)对该基于树的模型中的树进行剪枝以创建协变量空间的较粗分拆;或(4)从计算中删除迭代(例如,省略来自组合马尔可夫链蒙特卡罗中的包合物的特定“b”抽取,或者对于基于树的集成,选择性地从该集成中删除有问题的树);(5)对于协变量空间分区的特定组合,返回否定或“无结果”发现(例如,作为针对出现空节点之处的患者图谱的结果,选择不返回);(6)或这些技术中的一种或多种的组合。
[0078]
随着另外的真实世界数据变得可用,可更新基于树的模型,包括使用来自治疗的受试者的数据的更新。这可生成学习循环,如图3。
[0079]
可使用对应于每个治疗选项的基于树的模型对治疗选项(即,两个或更多个)进行比较。在一些实施例中,对两个治疗选项进行比较。也就是说,如果受试者用对应治疗选项进行治疗,则可针对两个治疗选项确定针对受试者的预期治疗结果。在一些实施例中,对三个或更多个治疗选项进行比较。也就是说,如果受试者用对应治疗选项进行治疗,则可针对三个或更多个治疗选项确定针对受试者的预期治疗结果。举例来说,治疗选项z和治疗选项z'可根据以下进行比较:
[0080][0081]
其中x
*
指示针对受试者的多个受试者特征,y为针对治疗选项的确定的预期治疗结果,并且b为代表性抽取的索引(例如,稀疏的、组合的蒙特卡罗抽取的数量)。
[0082]
使用本文所述的方法评估的治疗选项可以是任何治疗剂、外科手术或任何其他医学或顺势疗法干预。治疗选项可取决于疾病类型。例如,该方法可用于在免疫肿瘤学治疗选项、化疗治疗选项或联合疗法(例如,免疫肿瘤学治疗和化疗治疗选项)之间进行选择,例如以治疗患有癌症的受试者。
[0083]
可显示(例如,使用作为电子系统一部分的电子显示器)或报告(例如向受试者或该受试者的医疗保健提供者报告)针对一个或多个治疗选项的确定的预期治疗结果或最有可能对治疗该受试者的疾病有效的治疗选项。该报告可以是电子报告(例如,电子病历)或非电子报告(例如,纸质报告,其可例如存储在纸质记录中或递送给受试者或该受试者的医疗保健提供者)。在一些情况下,全部或部分报告可显示于在线或基于网络的医疗保健门户的图形用户界面中。在一些情况下,经由计算机网络或对等连接传输报告。
[0084]
图4提供一种确定针对患有疾病的受试者的预期治疗结果的方法的非限制性示例。例如,可使用实施软件平台的一个或多个电子设备进行过程400。在一些示例中,使用客户端-服务器系统进行过程400,并且过程400的模块以任何方式在服务器与客户端设备之间划分。在其他示例中,过程400的模块在服务器与多个客户端设备之间划分。因此,虽然过程400的部分在本文中被描述为由客户端-服务器系统的特定设备进行,但是应当理解过程400不限于此。在其他示例中,仅使用客户端设备或仅使用多个客户端设备进行过程400。在
过程400中,任选地组合一些模块,任选地改变一些模块的顺序,并且任选地省略一些模块。在一些示例中,另外的步骤可与过程400组合进行。因此,所示出(以及下文更详细描述的)的操作本质上是示例性的,并且因此不应被视为限制性的。
[0085]
在步骤402,过程400包括接收(例如,在一个或多个处理器处)针对受试者的多个受试者特征。示例性受试者特征可包括但不限于年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态。在404,访问对应于针对该疾病的治疗选项的基于树的模型(例如,使用该一个或多个处理器)。基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成基于树的模型。治疗结果可例如在一个或多个临床试验期间或在临床试验之外确定。示例性治疗结果可包括例如总存活时间、无进展存活时间、肿瘤缓解、受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。示例性先前患者特征可包括但不限于年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态。基于树的模型可以是基于树的回归模型和/或集成树模型。例如,基于树的模型可以是贝叶斯可加回归模型。可使用马尔可夫链蒙特卡罗过程、装袋过程、非贝叶斯模型或任何其他合适过程来解释该基于树的模型中的不确定性。基于树的模型可存储在例如非暂态计算机可读介质中。
[0086]
在406确定针对受试者的预期治疗结果。该预期假设患者用对应治疗选项进行治疗。根据针对受试者的多个特征和基于树的模型进行确定。例如,可通过基于该多个受试者特征与该多个先前患者特征之间的共性对每个基于树的模型中的多个节点进行加权来做出该预期。
[0087]
本文所述的方法可用于治疗患有疾病的受试者。例如,一种用于治疗患有疾病的受试者的方法可包括根据本文所述的方法针对两个或更多个治疗选项来确定针对受试者的预期治疗结果。可从两个或更多个治疗选项中选择最有可能对治疗受试者的疾病有效的治疗选项,并向受试者施用所选择的治疗选项。
[0088]
疾病和治疗选项
[0089]
本文所述的方法可用于预测对疾病的治疗结果。示例性疾病可包括但不限于过度增生性疾病(例如,癌症)、非整倍体病症(例如,唐氏综合征(down syndrome)、爱德华兹综合征(edwards syndrome)或帕陶氏综合征(patau syndrome))、脆性x病或神经病症(例如,肌萎缩性脊髓侧索硬化症、阿尔茨海默症、帕金森症、中风或格林-巴利综合征(guillain-barr
é
syndrome))。在一些情况下,该疾病为癌症。在一些情况下,癌症为实体瘤或其转移形式。在一些情况下,癌症为血液癌症,例如,白血病或淋巴瘤。
[0090]
在一些情况下,受试者患有癌症或处于患有癌症的风险下。例如,在一些情况下,受试者具有癌症的遗传倾向(例如,具有增加他或她的关于发展为癌症的基线风险的基因突变)。在一些情况下,受试者已经暴露于增加他或她的伏案与发展为癌症的风险的环境(例如,辐射或化学品)。在一些情况下,受试者需要针对癌症的发展进行监测。在一些情况下,受试者需要针对癌症进展或消退进行监测,例如,在用抗癌疗法(或抗肿瘤治疗)进行治疗后。在一些情况下,受试者需要针对癌症复发进行监测。在一些情况下,受试者需要针对微小残留病(mrd)进行监测。在一些情况下,受试者已经或正在针对癌症进行治疗。在一些情况下,受试者尚未用抗癌疗法(或抗癌治疗)进行治疗。
[0091]
在一些情况下,受试者(例如,患者)正在或之前已经用一种或多种靶向疗法进行治疗。在一些情况下,对于先前已经用靶向疗法进行治疗的患者,获得(例如,收集)靶向疗法后样品(例如,标本)。在一些情况下,靶向疗法后样品为在完成该靶向疗法之后获得(例如,收集)的样品。
[0092]
在一些情况下,患者先前未用靶向疗法进行治疗。在一些情况下,对于先前未用靶向疗法进行治疗的患者,样品包括切除物,例如,原始切除物或复发之后(例如,在疗法后疾病复发之后)的切除物。
[0093]
示例性癌症包括但不限于b细胞癌(例如,多发性骨髓瘤)、黑色素瘤、乳腺癌、肺癌(诸如非小细胞肺癌或nsclc)、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫或子宫内膜癌、口腔或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎症性成肌纤维细胞瘤、胃肠道间质瘤(gist)、结肠癌、多发性骨髓瘤(mm)、骨髓增生异常综合征(mds)、骨髓增生异常(mpd)、急性淋巴细胞性白血病(all)、急性髓细胞性白血病(aml)、慢性髓细胞性白血病(cml)、慢性淋巴细胞性白血病(cll)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(nhl)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、成神经细胞瘤、成视网膜细胞瘤、滤泡性淋巴瘤、弥漫性大b细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈部癌、小细胞癌、原发性血小板增多症、特发性骨髓化生、嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见嗜酸性粒细胞增多症、慢性嗜酸性粒细胞性白血病、神经内分泌癌、类癌瘤等。
[0094]
在一些情况下,癌症为血液恶性肿瘤(或癌前病变)。如本文所用,血液恶性肿瘤是指造血或淋巴组织的肿瘤,例如,影响血液、骨髓或淋巴结的肿瘤。示例性血液恶性肿瘤包括但不限于白血病(例如,急性淋巴细胞性白血病(all)、急性髓细胞性白血病(aml)、慢性淋巴细胞性白血病(cll)、慢性粒细胞性白血病(cml)、多毛细胞白血病、急性单核细胞性白血病(amol)、慢性粒单核细胞白血病(cmml)、幼年粒单核细胞白血病(jmml)或大颗粒淋巴细胞性白血病)、淋巴瘤(例如,艾滋病相关淋巴瘤、皮肤t细胞淋巴瘤、霍奇金淋巴瘤(例如,经典霍奇金淋巴瘤或结节性淋巴细胞为主的霍奇金淋巴瘤)、蕈样肉芽肿、非霍奇金淋巴瘤(例如,b细胞非霍奇金淋巴瘤(例如,伯基特淋巴瘤、小淋巴细胞淋巴瘤(cll/sll)、弥漫性大b细胞淋巴瘤、滤泡性淋巴瘤、免疫母细胞性大细胞淋巴瘤、前体b淋巴母细胞淋巴瘤或套细胞淋巴瘤)或非t细胞淋巴瘤-霍奇金淋巴瘤(蕈样肉芽肿、间变性大细胞淋巴瘤淋巴瘤或前体t淋巴母细胞淋巴瘤)、原发性中枢神经系统淋巴瘤、s
é
zary综合征、巨球蛋白血症)、慢性骨髓增生性肿瘤、朗格汉斯细胞组织细胞增生症、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征或骨髓增生异常/骨髓增生性肿瘤。
[0095]
治疗选项可能取决于待治疗的疾病。用于治疗癌症的示例性治疗选项可包括但不限于,在一些情况下,例如,抗癌疗法或治疗可包括使用聚(adp-核糖)聚合酶抑制剂
(parpi)、激酶抑制剂(例如,多激酶抑制剂或激酶特异性抑制剂)、烷化剂、抗代谢物、激素、铂化合物、化疗、放射疗法、靶向疗法(例如,免疫疗法)、手术或它们的任何组合。在一些实施方式中,治疗选项可以是一定剂量的治疗剂。例如,该方法可用于确定针对相同治疗剂的两个或更多个不同剂量的治疗结果,并且可选择具有更好结果的剂量来施用和/或向受试者施用。在一些情况下,该方法可用于调整向受试者施用的治疗剂的剂量。
[0096]
受试者特征和先前患者特征
[0097]
先前的患者特征或受试者特征可以是患者的任何特征。示例性特征包括但不限于年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病(例如,糖尿病或心脏病)、先前疗法列表(其可任选地进一步包括每种先前疗法花费的时间的列表)、基线ctdna值、实践环境(例如,用于治疗的社区环境或学术环境)或表现状态。示例性生物标志物值可包括但不限于egfr变体状态(例如,肿瘤相关融合物的存在或不存在)、ntrk变体状态(例如,肿瘤相关融合物的存在或不存在)、ret变体状态(例如,肿瘤相关融合物的存在或不存在)、alk重排变体状态(例如,肿瘤相关融合物的存在或不存在)、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(can)状态、pd-l1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。在一些情况下,生物标志物值可以是一个或多个基因中肿瘤相关变体(例如,融合变体)的存在或不存在。
[0098]
一些或所有先前患者特征和/或受试者特征可通过对分别从先前患者或该受试者获得的生物样品中的核酸分子进行测序来确定。例如,对生物样品中的核酸分子进行测序可用于确定生物标志物值和/或基线ctdna值。序列读段可用于生成序列读段分析数据,而序列读段分析数据可能是针对受试者的基因组图谱的一部分。“序列读段分析数据”是从测序读段确定的数据,包括但不限于变体调用(例如,融合、重排、核苷酸变体或拷贝数变体)、肿瘤突变负荷、杂合性丢失、微卫星不稳定性或基因表达数据。
[0099]
在一些情况下,公开的方法可进一步包括以下步骤中的一个或多个:(i)从受试者(例如,怀疑患有或确定患有癌症的受试者)获得样品,(ii)从该样品提取核酸分子(例如,肿瘤核酸分子和非肿瘤核酸分子的混合物),(iii)将一个或多个衔接子(例如,一个或多个扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列)连接至从该样品提取的核酸分子,(iv)扩增该核酸分子(例如,使用聚合酶链反应(pcr)扩增技术、非pcr扩增技术或等温扩增技术),(v)从经扩增的核酸分子捕获核酸分子(例如,通过与一个或多个诱饵分子杂交,其中该诱饵分子各自包含一个或多个核酸分子,每个核酸分子包含与经捕获的核酸分子的区域互补的区域),(vi)使用例如下一代(大规模并行)测序技术、全基因组测序(wgs)技术、全外显子组测序技术、靶向测序技术、直接测序技术或桑格测序技术,使用例如下一代(例如,大规模并行)测序仪对从样品(或由其衍生的文库代替物)提取的核酸分子进行测序,以及(vii)生成、显示、传输和/或向该受试者(或患者)、护理人员、医疗保健提供者、医生、肿瘤医生、电子病历系统、医院、诊所、第三方付款人、保险公司或政府办公室递送报告(例如,电子报告、基于网络的报告或纸质报告)。在一些情况下,该报告包括本文该方法的输出。在一些情况下,全部或部分报告可显示于在线或基于网络的医疗保健门户的图形用户界面中。在一些情况下,经由计算机网络或对等连接传输报告。
[0100]
所公开的方法可与多种样品中的任一种合用。样品可从受试者或先前患者获得,用于确定受试者特征和/或先前患者特征。例如,在一些情况下,样品可包括组织活检样品、液体活检样品或正常对照。在一些情况下,样品可以是液体活检样品并且可包括血液、血浆、脑脊髓液、痰液、粪便、尿液或唾液。在一些情况下,样品可以是液体活检样品并且可包含循环肿瘤细胞(ctc)。在一些情况下,样品可以是液体活检样品并且可包含细胞游离dna(cfdna)、循环肿瘤dna(ctdna)或它们的任何组合。在一些情况下,样品可以是冷冻样品或福尔马林固定石蜡包埋(ffpe)样品。
[0101]
在一些情况下,样品可通过组织切除(例如,手术切除)、穿刺活检、骨髓活检、骨髓抽吸、皮肤活检、内窥镜活检、细针抽吸、口腔拭子、鼻拭子、阴道拭子或细胞学涂片、刮屑、洗涤液或灌洗液(诸如导管灌洗液或支气管肺泡灌洗液)等进行收集。
[0102]
在一些情况下,样品可包含一个或多个癌前病变或恶性细胞。如本文所用,癌前病变是指尚非恶性但即将变为恶性的细胞或组织。在某些情况下,样品可从实体瘤、软组织肿瘤或转移性病变获取。在某些情况下,样品可从血液恶性肿瘤或癌前病变获得。在其他情况下,样品可包含来自手术切缘的组织或细胞。在某些情况下,样品可包含肿瘤浸润性淋巴细胞。在一些情况下,样品可包含一个或多个非恶性细胞。在一些情况下,样品可以是原发性肿瘤或转移灶(例如,转移活检样品)或是其部分。在一些情况下,样品可从与相邻位点(例如,与相邻肿瘤的位点)相比具有最高肿瘤(例如,肿瘤细胞)百分比的位点(例如,肿瘤位点)获得。在一些情况下,样品可从与相邻位点(例如,与相邻肿瘤的位点)相比具有最大肿瘤灶(例如,最大数量的肿瘤细胞,如在显微镜下所见)的位点(例如,肿瘤位点)获得。
[0103]
在一些情况下,从样品提取的核酸可包含脱氧核糖核酸(dna)分子。适用于通过所公开的方法进行分析的dna的示例包括但不限于基因组dna或其片段、线粒体dna或其片段、细胞游离dna(cfdna)和循环肿瘤dna(ctdna)。细胞游离dna(cfdna)由在凋亡和坏死期间从正常细胞和/或癌细胞释放的dna片段组成,并在血流中循环并且/或在其他体液中蓄积。循环肿瘤dna(ctdna)由在血流中循环并且/或在其他体液中蓄积的癌细胞和肿瘤释放的dna片段组成。在一些情况下,从样品的有核细胞提取dna。在一些情况下,样品可能具有低有核细胞性,例如,当样品主要由红细胞、含有过多细胞质的病变细胞或具有纤维化的组织组成时。在一些情况下,具有低有核细胞性的样品可能需要更多,例如,更大的组织体积来提取dna。
[0104]
在一些情况下,从样品提取的核酸可包含核糖核酸(rna)分子。可能适合通过所公开的方法进行分析的rna的示例包括但不限于总细胞rna、在耗尽某些丰富的rna序列(例如,核糖体rna)后的总细胞rna、细胞游离rna(cfrna)、信使rna(mrna)或其片段、总rna的poly(a)尾mrna级分、核糖体rna(rrna)或其片段、转移rna(trna)或其片段和线粒体rna或其片段。在一些情况下,可从样品提取rna并使用例如逆转录反应将其转化为互补dna(cdna)。在一些情况下,通过随机引发的cdna合成方法产生cdna。在其他情况下,通过用含oligo(dt)的寡核苷酸引发而从成熟mrna的poly(a)尾开始cdna合成。耗尽、poly(a)富集和cdna合成的方法是本领域技术人员众所周知的。
[0105]
在一些情况下,样品可具有一定的肿瘤含量,该肿瘤含量例如包括肿瘤细胞或肿瘤细胞核。在一些情况下,样品可具有至少5%至50%、10%至40%、15%至25%或20%至30%肿瘤细胞核的肿瘤含量。在一些情况下,样品可具有至少5%、至少10%、至少20%、至
少30%、至少40%或至少50%肿瘤细胞核的肿瘤含量。在一些情况下,通过将样品中肿瘤细胞的数量除以样品中具有细胞核的所有细胞的总数来确定(例如,计算)肿瘤细胞核的百分比。在一些情况下,例如,当样品为包含肝细胞的肝脏样品时,由于存在具有两倍或超过两倍于其他(例如非肝细胞、体细胞核)的dna含量的细胞核的肝细胞,可能需要不同的肿瘤含量计算。在一些情况下,检测遗传改变(例如,变体序列)或确定例如微卫星不稳定性的灵敏度可能取决于样品的肿瘤含量。例如,具有较低肿瘤含量的样品可导致针对给定大小的样品的检测灵敏度较低。
[0106]
在一些情况下,如上所述,样品包含核酸(例如,dna、rna(或源自rna的cdna)或两者),例如来自肿瘤或来自正常组织。在某些情况下,样品可进一步包含非核酸组分,例如来自肿瘤或正常组织的细胞、蛋白质、碳水化合物或脂质。
[0107]
可使用本领域技术人员已知的多种技术中的任一种从组织样品、活检样品、血液样品或其他体液样品提取dna或rna(参见,例如,国际专利申请公开号wo 2012/092426的示例1;tan等人(2009),“dna,rna,and protein extraction:the past and the present”,j.biomed.biotech.2009:574398;关于16lev血液dna试剂盒的技术文献(promega corporation,madison,wi);和maxwell 16口腔拭子lev dna纯化试剂盒技术手册(promega文献#tm333,2011年1月1日,promega corporation,madison,wi))。用于rna分离的方案在例如16总rna纯化试剂盒技术公报(promega文献#tb351,2009年8月,promega corporation,madison,wi)中公开。
[0108]
例如,典型的dna提取程序包括(i)收集待从中提取dna的液体样品、细胞样品或组织样品,(ii)必要时破坏细胞膜(即细胞裂解),释放dna和其他细胞质成分,(iii)用浓盐溶液处理该液体样品或裂解的样品以沉淀蛋白质、脂质和rna,然后离心以分离出沉淀的蛋白质、脂质和rna,以及(iv)从上清液中纯化dna,以去除细胞膜裂解步骤中使用的洗涤剂、蛋白质、盐或其他试剂。
[0109]
可使用各种机械剪切(例如,通过穿过法式压力机或细针)或超声波破碎技术来进行细胞膜破碎。细胞裂解步骤通常包括使用洗涤剂和表面活性剂来溶解细胞膜和核膜中的脂质。在一些情况下,裂解步骤可进一步包括使用蛋白酶来分解蛋白质,以及/或使用rna酶来消化样品中的rna。
[0110]
用于dna纯化的合适技术的示例包括但不限于,(i)在冰冷的乙醇或异丙醇中沉淀,然后离心(dna的沉淀可通过增加离子强度来增强,例如通过添加乙酸钠),(ii)苯酚-氯仿提取,然后离心以将含有核酸的水相与含有变性蛋白质的有机相分离,以及(iii)固相色谱法,其中核酸吸附到固相(例如,二氧化硅或其他)取决于缓冲液的ph值和盐浓度。
[0111]
在一些情况下,可通过添加蛋白酶或通过用乙酸钠或乙酸铵沉淀蛋白质,或通过在dna沉淀步骤之前用苯酚-氯仿混合物提取来去除与dna结合的细胞蛋白质和组蛋白蛋白质。
[0112]
在一些情况下,可使用多种合适的商业dna提取和纯化试剂盒中的任一种来提取dna。示例包括但不限于来自qiagen(germantown,md)的qiaamp(用于从人类样品分离基因组dna)和dnaeasy(用于从动物或植物样品分离基因组dna)试剂盒或来自promega(madison,wi)的和reliaprep
tm
系列试剂盒。
[0113]
如上所述,在一些情况下,样品可包括福尔马林固定(也称为甲醛固定或多聚甲醛
固定)、石蜡包埋(ffpe)组织制剂。例如,ffpe样品可以是嵌入基质中的组织样品,例如ffpe块。从甲醛或多聚甲醛固定石蜡包埋(ffpe)组织分离核酸(例如dna)的方法公开于例如cronin等人,(2004)am j pathol.164(1):35
–
42;masuda等人,(1999)nucleic acids res.27(22):4436
–
4443;specht等人,(2001)am j pathol.158(2):419
–
429;ambion recoverall
tm
总核酸分离方案(ambion,目录号am1975,2008年9月);16 ffpe plus lev dna纯化试剂盒技术手册(promega文献#tm349,2011年2月);ffpe dna试剂盒手册(omega bio-tek,norcross,ga,产品号d3399-00、d3399-01和d3399-02,2009年6月);和dna ffpe组织手册(qiagen,目录号37625,2007年10月)。例如,recoverall
tm
总核酸分离试剂盒在升高的温度使用二甲苯来溶解石蜡包埋样品,并使用玻璃纤维过滤器来捕获核酸。16 ffpe plus lev dna纯化试剂盒与16仪器一起使用,用于从ffpe组织的1至10μm切片纯化基因组dna。使用二氧化硅包覆的顺磁性颗粒(pmp)纯化dna,并以低洗脱体积洗脱。ffpe dna试剂盒使用离心柱和缓冲液系统进行基因组dna的分离。dna ffpe组织试剂盒使用dna micro技术进行基因组和线粒体dna的纯化。
[0114]
在一些情况下,所公开的方法可进一步包括确定或获取针对从样品提取的核酸的产率值,并将确定的值与参考值进行比较。例如,如果确定或获得的值小于参考值,则可在进行文库构建之前扩增该核酸。在一些情况下,所公开的方法可进一步包括确定或获取针对样品中核酸片段的大小(或平均大小)的值,并将确定或获取的值与参考值,例如至少100、200、300、400、500、600、700、800、900或1000个碱基对(bp)的大小(或平均大小)进行比较。在一些情况下,可响应于该确定来调整或选择本文所述的一个或多个参数。
[0115]
分离后,核酸通常溶解在微碱性缓冲液中,例如tris-edta(te)缓冲液或超纯水中。在一些情况下,可使用本领域技术人员已知的多种技术中的任一种来片段化或剪切分离的核酸(例如,基因组dna)。例如,基因组dna可通过物理剪切方法、酶促裂解方法、化学裂解方法和本领域技术人员熟知的其他方法进行片段化。用于dna剪切的方法在国际专利申请公开号wo 2012/092426的示例4中描述。在一些情况下,可使用dna剪切方法的替代方法来避免文库制备过程中的连接步骤。
[0116]
在一些情况下,从样品分离的核酸可用于构建文库(例如,如本文所述的核酸文库)。在一些情况下,使用上述方法中的任一种将核酸片段化,任选地进行链端损伤的修复,并任选地连接至合成衔接子、引物和/或条形码(例如,扩增引物、测序衔接子、流动池衔接子、底物衔接子、样品条形码或索引和/或唯一的分子标识符序列),选择大小(例如,通过制备型凝胶电泳),以及/或扩增(例如,使用pcr、非pcr扩增技术或等温扩增技术)。在一些情况下,在基于杂交的靶序列选择之前,使用片段化和衔接子连接的核酸组而无需明确的大小选择或扩增。在一些情况下,核酸通过本领域技术人员已知的多种特异性或非特异性核酸扩增方法中的任一种扩增。在一些情况下,例如通过全基因组扩增方法诸如随机引物链置换扩增来扩增核酸。用于下一代测序的核酸文库制备技术的示例在例如van dijk等人(2014),exp.cell research 322:12
–
20和illumina的基因组dna样品制备试剂盒中描述。
[0117]
在一些情况下,所得的核酸文库可含有所有或基本上所有的基因组复杂性。在这种情况下,术语“基本上所有”是指在实践中,在程序的初始步骤中可能存在一些不希望的
基因组复杂性丢失的可能性。本文所述的方法也可用于其中核酸文库包含基因组的一部分的情况,例如其中基因组的复杂性通过设计而有所降低的情况。在一些情况下,基因组的任何选定部分都可与本文所述的方法一起使用。例如,在某些实施例中,完整外显子组或其子集是分离的。在一些情况下,该文库可包括至少95%、90%、80%、70%、60%、50%、40%、30%、20%、10%或5%的基因组dna。在一些情况下,该文库可由基因组dna的cdna拷贝组成,其包括至少95%、90%、80%、70%、60%、50%、40%、30%、20%、10%或5%的基因组dna的拷贝。在某些情况下,用于生成核酸文库的核酸的量可少于5微克、少于1微克、少于500ng、少于200ng、少于100ng、少于50ng、少于10ng、少于5ng或少于1ng。
[0118]
在一些情况下,文库(例如,核酸文库)包括核酸分子的集合。如本文所述,该文库的核酸分子可包括靶核酸分子(例如,肿瘤核酸分子、参考核酸分子和/或对照核酸分子;本文也分别称为第一、第二和/或第三个核酸分子)。该文库的核酸分子可来自单个受试者或个体。在一些情况下,文库可包含源自超过一个受试者(例如,2、3、4、5、6、7、8、9、10、20、30个或更多受试者)的核酸分子。例如,可将来自不同受试者的两个或多个文库组合以形成具有来自超过一个受试者的核酸分子的文库(其中源自每个受试者的核酸分子任选地经连接至对应于特定受试者的唯一样品条形码)。在一些情况下,受试者为患有癌症或肿瘤或处于患有癌症或肿瘤风险下的人。
[0119]
在一些情况下,该文库(或其一部分)可包含一个或多个亚基因组间隔。在一些情况下,亚基因组间隔可以是单个核苷酸位置,例如,在该位置处的变体与肿瘤表型(正或负)相关联的核苷酸位置。在一些情况下,亚基因组间隔包含超过一个核苷酸位置。此类情况包括长度为至少2、5、10、50、100、150、250或超过250个核苷酸位置的序列。亚基因组间隔可包含例如一个或多个完整基因(或其部分)、一个或多个外显子或编码序列(或其部分)、一个或多个内含子(或其部分)、一个或多个微卫星区域(或其部分)或它们的任何组合。亚基因组间隔可包含所有或部分的天然存在的核酸分子非(例如,基因组dna分子)的片段。例如,亚基因组间隔可对应于基因组dna的片段,该片段经历了测序反应。在一些情况下,亚基因组间隔为来自基因组来源的连续序列。在一些情况下,亚基因组间隔包括基因组中不连续的序列,例如,cdna中的亚基因组间隔可包括由于剪接而形成的外显子-外显子接合。在一些情况下,亚基因组间隔包括肿瘤核酸分子。在一些情况下,亚基因组间隔包括非肿瘤核酸分子。
[0120]
本文所述的方法可与用于评估多个受试者间隔或受试者间隔集(例如,靶序列)的方法组合使用或作为该方法的一部分,该受试者间隔例如来自基因组基因座集(例如,基因座或其片段),如本文所述。
[0121]
在一些情况下,通过所公开的方法评估的基因组基因座集包括多个例如基因,其以突变形式与对细胞分裂、生长或存活的影响相关联或与癌症(例如,本文所述的癌症)相关联。
[0122]
在一些情况下,通过所公开的方法评估的基因座集包括至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个或超过100个基因座。
[0123]
在一些情况下,所选择的基因座(在本文中也称为靶基因座或靶序列)或其片段可
包括包含受试者基因组的非编码序列、编码序列、基因内区域或基因间区域的受试者间隔。例如,受试者间隔可包括非编码序列或其片段(例如,启动子序列、增强子序列、5'非翻译区(5'utr)、3'非翻译区(3'utr)或其片段)、其片段的编码序列、外显子序列或其片段、内含子序列或其片段。
[0124]
本文所述的方法可包括使核酸文库与多种靶捕获试剂接触,以便选择和捕获多种特定靶序列(例如,基因序列或其片段)用于分析。在一些情况下,靶捕获试剂(即,可靶分子与结合并从而允许捕获该靶分子的分子)用于选择待分析的受试者间隔。例如,靶捕获试剂可以是诱饵分子,例如,可与靶分子杂交(即互补)并从而允许捕获靶核酸的核酸分子(例如,dna分子或rna分子)。在一些情况下,靶捕获试剂,例如诱饵分子(或诱饵序列),为捕获寡核苷酸(或捕获探针)。在一些情况下,靶核酸为基因组dna分子、rna分子、衍生自rna分子的cdna分子、微卫星dna序列等。在一些情况下,靶捕获试剂适用于与靶进行溶液相杂交。在一些情况下,靶捕获试剂适用于与靶进行固相杂交。在一些情况下,靶捕获试剂适用于与靶进行溶液相杂交和固相杂交两者。靶捕获试剂的设计和构建在例如国际专利申请公开号wo 2020/236941中有更详细的描述,其完整内容通过引用并入本文。
[0125]
本文所述的方法通过适当选择靶捕获试剂来选择待测序的靶核酸分子提供对来自一个或多个受试者的样品(例如,癌组织样品、液体活检样品等)的大量基因组基因座(例如,基因或基因产物(例如,mrna)、微卫星基因座等)的优化测序。在一些情况下,靶捕获试剂可与特定靶基因座(例如,特定靶基因座或其片段)杂交。在一些情况下,靶捕获试剂可与特定的一组靶基因座(例如,特定的一组基因座或其片段)杂交。在一些情况下,可使用包含靶特异性和/或组特异性靶捕获试剂的混合物的多种靶捕获试剂。
[0126]
在一些情况下,与核酸文库接触以捕获多个靶序列进行核酸测序的多个靶捕获试剂(例如,诱饵集)中的靶捕获试剂(例如,诱饵分子)的数量为大于10、大于50、大于100、大于200、大于300、大于400、大于500、大于600、大于700、大于800、大于900、大于1,000、大于1,250、大于1,500、大于1,750、大于2,000、大于3,000、大于4,000、大于5,000、大于10,000、大于25,000或大于50,000。
[0127]
在一些情况下,靶捕获试剂序列的总长度可在约70个核苷酸与1000个核苷酸之间。在一种情况下,就长度而言,靶捕获试剂长度在约100与300个核苷酸、110与200个核苷酸或120与170个核苷酸之间。除了上述那些,约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸长度的中间寡核苷酸长度可用于本文所述的方法。在一些实施例中,可使用约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220或230个碱基的寡核苷酸。
[0128]
在一些情况下,每个靶捕获试剂序列可包括:(i)靶特异性捕获序列(例如,基因座或微卫星基因座特异性互补序列),(ii)衔接子、引物、条形码和/或唯一的分子标识符序列,和(iii)一端或两端上的通用尾。如本文所用,术语“靶捕获试剂”可以是指靶特异性靶捕获序列或是指包括靶特异性靶捕获序列在内的完整靶捕获试剂寡核苷酸。
[0129]
在一些情况下,靶捕获试剂中的靶特异性捕获序列的长度在约40个核苷酸与1000个核苷酸之间。在一些情况下,靶特异性捕获序列的长度在约70个核苷酸与300个核苷酸之间。在一些情况下,靶特异性序列的长度在约100个核苷酸与200个核苷酸之间。在其他情况下,靶特异性序列的长度在约120个核苷酸与170个核苷酸之间,通常长度为120个核苷酸。
除上述那些之外的中间长度也可用于本文所述的方法,诸如长度为约40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的靶特异性序列,以及长度在上述长度之间的钯特异性序列。
[0130]
在一些情况下,靶捕获试剂可设计为选择包含一种或多种重排的受试者间隔,例如,含有基因组重排的内含子。在此类情况下,靶捕获试剂设计为使得重复序列被掩蔽以增加选择效率。在其中重排具有已知接合序列的那些情况下,可设计互补靶捕获试剂以识别该接合序列以增加选择效率。
[0131]
在一些情况下,所公开的方法可包括使用设计为捕获两个或更多个不同靶类别的靶捕获试剂,每个类别具有不同的靶捕获试剂设计策略。在一些情况下,本文公开的基于杂交的捕获方法和靶捕获试剂组合物可提供对靶序列集的捕获和均匀覆盖,同时最小化对靶序列集之外的基因组序列的覆盖。在一些情况下,靶序列可包括基因组dna的完整外显子组或其选定的子集。在一些情况下,靶序列可包括例如大的染色体区域(例如,整个染色体臂)。本文公开的方法和组合物提供不同的靶捕获试剂,用于实现对靶核酸序列的复杂集的不同测序深度和覆盖模式。
[0132]
通常,dna分子用作靶捕获试剂序列,但也可使用rna分子。在一些情况下,dna分子靶捕获试剂可以是单链dna(ssdna)或双链dna(dsdna)。在一些情况下,rna-dna双链体比dna-dna双链体更稳定,因此提供对核酸的可能更好的捕获。
[0133]
在一些情况下,所公开的方法包括提供从一个或多个核酸文库捕获的选定的核酸分子集(例如,文库捕获物)。例如,该方法可包括:提供一个或多个核酸文库,每个核酸文库包含从来自一个或多个受试者的一个或多个样品提取的多个核酸分子(例如,多个靶核酸分子和/或参考核酸分子)使该一个或多个文库(例如,在基于溶液的杂交反应中)与一组、两组、三组、四组、五组或超过五组多个靶捕获试剂(例如,寡核苷酸靶捕获试剂)接触以形成包含多个靶捕获试剂/核酸分子杂交体的杂交混合物;例如,通过使所述杂交混合物与允许从杂交混合物中分离所述多个靶捕获试剂/核酸分子杂交体的结合实体接触,将该多个靶捕获试剂/核酸分子杂交体从所述杂交混合物中分离,从而提供文库捕获物(例如,来自该一个或多个文库的选择的或富集的核酸分子亚组)。
[0134]
在一些情况下,所公开的方法可进一步包括扩增该文库捕获物(例如,通过进行pcr)。在其他情况下,该文库捕获物不经扩增。
[0135]
在一些情况下,靶捕获试剂可以是试剂盒的一部分,该试剂盒可任选地包含使用说明、标准品、缓冲液或酶或其他试剂。
[0136]
如上所述,本文公开的方法可包括使文库(例如,核酸文库)与多种靶捕获试剂接触以提供选择的文库吧核酸序列(即,文库捕获物)的步骤。该接触步骤可在例如基于溶液的杂交中实现。在一些情况下,该方法包括为一个或多个另外的轮次的基于溶液的杂交重复该杂交步骤。在一些情况下,该方法进一步包括使文库捕获物与相同或不同的靶捕获试剂集合进行一个或多个另外的轮次的基于溶液的杂交。
[0137]
在一些情况下,该接触步骤使用固体支持物例如阵列来实现。适用于杂交的固体支持物描述于例如albert,t.j.等人(2007)nat.methods4(11):903-5;hodges,e.等人(2007)nat.genet.39(12):1522-7;和okou,d.t.等人(2007)nat.methods 4(11):907-9中,其内容全文以引用方式并入本文。
[0138]
可经调适以用于本文方法的杂交方法在本领域中有所描述,例如,如国际专利申请公开号wo 2012/092426中所述。用于将靶捕获试剂与多个靶核酸杂交的方法在例如国际专利申请公开号wo 2020/236941中有更详细的描述,其完整内容通过引用并入本文。
[0139]
本文公开的方法和系统可与用于对核酸进行测序的方法或系统(例如,下一代测序系统)组合使用或作为该方法或系统的一部分使用,以生成与样品中的亚基因组间隔内一个或多个基因座重叠的多个序列读段,从而确定例如在多个基因座处的基因等位基因序列。如本文所用的“下一代测序”(或“ngs”)也可称为“大规模并行测序”,并且是指以高通量方式(例如,其中同时对大于103、104、105或超过105个分子进行测序)确定任一个体核酸分子(例如,如在单个核酸分子测序中)或经克隆地扩增的个体核酸分子代替物的核苷酸序列的任何测序方法。
[0140]
下一代测序方法是本领域中已知的,并且描述于例如metzker,m.(2010)nature biotechnology reviews 11:31-46中,其通过引用并入本文。适合在实施本文公开的方法和系统时使用的测序方法的其他示例描述于例如国际专利申请公开号wo 2012/092426中。在一些情况下,测序可包括例如全基因组测序(wgs)、全外显子组测序、靶向测序或直接测序。在一些情况下,可使用例如桑格测序进行测序。在一些情况下,测序可包括双端测序技术,该技术允许对片段的两端进行测序并生成高质量、可比对的序列数据以用于检测例如基因组重排、重复序列元件、基因融合和新型。
[0141]
所公开的方法和系统可使用测序平台诸如roche 454、illumina solexa、abi-solid、ion torrent、complete genomics、pacific bioscience、helicos和/或polonator平台实施。在一些情况下,测序可包括illumina miseq测序。在一些情况下,测序可包括illumina hiseq测序。在一些情况下,测序可包括illumina novaseq测序。用于对从样品提取的核酸中的大量靶基因组基因座进行测序的优化方法在例如国际专利申请公开号wo 2020/236941中有更详细的描述,其全部内容通过引用并入本文。
[0142]
在某些情况下,所公开的方法包括以下步骤中的一个或多个:(a)从样品获取包含多个正常和/或肿瘤核酸分子的文库;(b)在允许靶捕获试剂与靶核酸分子杂交的条件下,同时或顺序地使文库与一组、两组、三组、四组、五组或超过五组多种靶捕获试剂接触,从而提供选择的经捕获的正常和/或肿瘤核酸分子集(即文库捕获物);(c)例如通过使杂交混合物与允许从该杂交混合物分离靶捕获试剂/核酸分子杂交体的结合实体接触,将核酸分子的选定子集(例如,文库捕获物)从该杂交混合物中分离;(d)对该文库捕获物进行测序以获取多个读段(例如,序列读段),这些读段与来自所述文库捕获物的一个或多个受试者间隔(例如,一个或多个靶序列)重叠,该受试者间隔可包含突变(或改变),例如,包含体细胞突变或种系突变的变体序列;(e)使用如本文别处所述的比对方法比对所述序列读段;以及/或(f)为来自该多个序列读段的一个或多个序列读段的受试者间隔中的核苷酸位置分配核苷酸值(例如,使用例如贝叶斯方法或本文所述的其他方法调用突变)。
[0143]
在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括对至少1个、至少5个、至少10个、至少20个、至少30个、至少40个、至少50个、至少100个、至少150个、至少200、至少250个、至少300个、至少350个、至少400个、至少450个、至少500个、至少550个、至少600个、至少650个、至少700个、至少750个、至少800个、至少850个、至少900个、至少950个、至少1,000个、至少1,250个、至少1,500个、至少1,750个、至少2,000个、至少2,250个、至
少2,500个、至少2,750个、至少3,000个、至少3,500个、至少4,000个、至少4,500或至少5,000个基因座(例如,基因组基因座、基因座、微卫星基因座等)进行测序。在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括对本段所述范围内任意数量基因座的受试者间隔(例如,对至少2,850个基因座)进行测序。
[0144]
在一些情况下,获取针对一个或多个受试者间隔的序列读段包括用提供至少20个碱基、至少30个碱基、至少40个碱基、至少50个碱基、至少60个碱基、至少70个碱基、至少80个碱基、至少90个碱基、至少100个碱基、至少120个碱基、至少140个碱基、至少160个碱基、至少180个碱基、至少200个碱基、至少220个碱基、至少240个碱基、至少260个碱基、至少280个碱基、至少300个碱基、至少320个碱基、至少340个碱基、至少360个碱基、至少380个碱基或至少400个碱基的序列读段长度(或平均序列读段长度)的测序方法对受试者间隔进行测序。在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括用提供本段所述范围内的任何数量的碱基的序列读段长度(或平均序列读段长度),例如,56个碱基的序列读段长度(或平均序列读段长度)的测序方法对受试者间隔进行测序。
[0145]
在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括以平均至少100x或更大覆盖率(或深度)进行测序。在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括以平均至少100x、至少150x、至少200x、至少250x、至少500x、至少750x、至少1,000x、至少1,500x、至少2,000x、至少2,500x、至少3,000x、至少3,500x、至少4,000x、至少4,500x、至少5,000x、至少5,500x、或至少6,000x或更大覆盖率(或深度)进行测序。在一些情况下,获取针对一个或多个受试者间隔的序列读段可包括以具有本段中所述值的范围内任何值(例如,至少160x)的平均覆盖度(或深度)进行测序。
[0146]
在一些情况下,获取针对一个或多个受试者间隔的读段包括以至少100x至至少6,000x范围内任何值的平均测序深度对大于约90%、92%、94%、95%、96%、97%、98%或99%的已测序基因座进行测序。例如,在一些情况下,获取针对受试者间隔的读段包括以至少125x的平均测序深度对至少99%的已测序基因座进行测序。另举一例,在一些情况下,获取针对受试者间隔的读段包括以至少4,100x的平均测序深度对至少95%的已测序基因座进行测序。
[0147]
在一些情况下,文库中核酸种类的相对丰度可通过计数由测序实验来生成的数据中它们的同源序列出现的相对次数(例如,针对给定同源序列的序列读段的数量)来估计。
[0148]
在一些情况下,所公开的方法和系统提供针对受试者间隔集(例如,基因座)的核苷酸序列,如本文所述。在某些情况下,在不使用包括匹配的正常对照(例如,野生型对照)和/或匹配的肿瘤对照(例如,原发性与转移性)的方法的情况下提供序列。
[0149]
在一些情况下,如本文所用的测序深度水平(例如,x倍测序深度水平)是指在检测并去除重复读段(例如,pcr重复读段)之后获得的读段(例如,唯一读段)的数量。在其他情况下,评估重复读段,例如,以支持对拷贝数改变(cna)的检测。
[0150]
比对是将读段与定位(例如,基因组定位或基因座)匹配的过程。在一些情况下,ngs读段可与已知参考序列(例如,野生型序列)进行比对。在一些情况下,ngs读段可从头组装。用于ngs读段的序列比对方法在例如trapnell,c.和salzberg,s.l.nature biotech.,2009,27:455-457中描述。从头序列组装的示例在例如以下文献中描述:warren r.等人,bioinformatics,2007,23:500-501;butler,j.等人,genome res.,2008,18:810-820;以及
zerbino,d.r.和birney,e.,genome res.,2008,18:821-829。序列比对的优化在本领域中有所描述,例如,如国际专利申请公开号wo 2012/092426中所述。序列比对方法的另外的描述在例如国际专利申请公开号wo 2020/236941中提供,其完整内容通过引用并入本文。
[0151]
错位(例如,将来自短读取的碱基对放置在基因组中的不正确位置处),例如,由于真实癌症突变周围的序列情境(例如,重复序列的存在)导致的读段错位可导致突变检测的灵敏度的降低,因为针对替代性等位基因的读段可能偏离替代等位基因读段的直方图峰值。可能引起错位的序列情境的其他示例包括短串联重复序列、散布重复序列、低复杂性区域、插入-缺失(插入缺失)和旁系同源物。如果在不存在真实突变的情况下出现有问题的序列情境,则错位可能通过将真实参考基因组碱基序列的读段放置在错误定位处而引入“突变”等位基因的伪读段。因为用于多基因分析的突变调用算法即使对低丰度突变也应该敏感,序列错位可能增加假阳性发现率并且/或降低特异性。
[0152]
在一些情况下,本文公开的方法和系统可整合使用多个单独调整的比对方法或算法来优化测序方法中的碱基调用性能,特别是在依赖于对大量不同基因组基因座处的大量不同遗传事件进行大规模并行测序的方法中。在一些情况下,所公开的方法和系统可包括使用一种或多种全局比对算法。在一些情况下,所公开的方法和系统可包括使用一种或多种局部比对算法。可使用的比对算法的示例包括但不限于burrows-wheeler算法(bwa)软件包(参见,例如,li等人(2009),“fast and accurate short read alignment with burrows-wheeler transform”,bioinformatics 25:1754-60;li等人(2010),fast and accurate long-read alignment with burrows-wheeler transform”,bioinformatics epub.pmid:20080505)、smith-waterman算法(参见,例如,smith等人(1981),“identification of common molecular subsequences”,j.molecular biology 147(1):195
–
197)、条形smith-waterman算法(参见,例如,farrar(2007),“striped smith
–
waterman speeds database searches six times over other simd implementations”,bioinformatics 23(2):156-161)、needleman-wunsch算法(needleman等人(1970)“a general method applicable to the search for similarities in the amino acid sequence of two proteins”,j.molecular biology 48(3):443
–
53)或它们的任何组合。
[0153]
在一些情况下,本文公开的方法和系统还可包括使用序列组装算法,例如arachne序列组装算法(参见,例如,batzoglou等人(2002),“arachne:a whole-genome shotgun assembler”,genome res.12:177-189)。
[0154]
在一些情况下,用于分析序列读段的比对方法不经个体定制或调制以用于检测不同基因组基因座处的不同变体(例如,点突变、插入、缺失等)。在一些情况下,使用不同的比对方法来分析经个体定制或调制的读段,以用于检测在不同基因组基因座处检出的不同变体的至少一个子集。在一些情况下,不同的比对方法用于分析经个体定制或调制的读段,以检测不同基因组基因座处的每个不同变体。在一些情况下,调制可以是以下一项或多项的函数:(i)正在测序的遗传基因座(例如,基因座、微卫星基因座或其他受试者间隔),(ii)与样品相关联的肿瘤类型,(iii)正在测序的变体,或(iv)样品或受试者的特征。根据待测序的大量特定受试者间隔来选择或使用经调制的比对条件允许优化速度、灵敏度和特异性。当优化针对相对大量的不同受试者间隔的读段的比对时,该方法特别有效。在一些情况下,该方法包括将针对重排进行优化的比对方法与针对与重排无关的受试者间隔进行优化的
其他比对方法组合使用。
[0155]
在一些情况下,本文公开的方法进一步包括选择或使用比对方法来分析(例如比对)序列读段,其中所述比对方法为以下一项或多项的函数,响应于以下一项或多项而选择,或针对以下一项或多项进行优化:(i)肿瘤类型,例如,样品中的肿瘤类型;(ii)经测序的受试者间隔的定位(例如,基因座);(iii)正在测序的受试者间隔中的变体类型(例如,点突变、插入、缺失、取代、拷贝数变异(cnv)、重排或融合);(iv)正在被分析的位点(例如,核苷酸位置);(v)样品的类型(例如,本文所述的样品);和/或(vi)正在被评估的受试者间隔内或附近的相邻序列(例如,根据针对受试者间隔错位的其预期的倾向,例如,由于重复序列在受试者间隔内或附近的存在)。
[0156]
在一些情况下,本文公开的方法允许快速有效地比对有麻烦的读段,例如具有重排的读段。因此,在其中针对受试者间隔的读段包含具有重排(例如,易位)的核苷酸位置的一些情况下,该方法可包括使用适当调制的比对方法,该比对方法包括:(i)选择用于与读段比对的重排参考序列,其中所述重排参考序列与重排比对(在一些情况下,参考序列与基因组重排不同);(ii)将读段与所述重排参考序列进行比较,例如比对。
[0157]
在一些情况下,可使用替代性方法来比对有麻烦的读段。当优化针对相对大量的不同受试者间隔的读段的比对时,这些方法特别有效。举例来说,分析样品的方法可包括:(i)使用第一参数集对读段进行比较(例如,比对比较)(例如,使用第一映射算法,或通过与第一参考序列比较),并确定所述读段是否满足第一比对标准(例如,该读段可与所述第一参考序列比对,例如,具有少于特定数量的错配);(ii)如果所述读段不满足第一比对标准,则使用第二参数集进行第二比对比较,(例如,使用第二映射算法,或通过与第二参考序列比较);以及(iii)任选地,确定所述读段是否满足所述第二标准(例如,该读段可与所述第二参考序列比对,例如,具有少于特定数量的错配),其中所述第二参数集包括使用例如所述第二参考序列,与所述第一参数集相比,所述第二参数集更可能导致与针对变体(例如,重排、插入、缺失或易位)的读段比对。
[0158]
在一些情况下,所公开方法中的序列读段比对可与本文别处所述的突变调用方法组合。如本文所讨论,用于检测真实突变的降低的灵敏度可通过评估围绕正在被分析的基因或基因组基因座(例如,基因座)中的预期突变位点的比对质量(手动或以自动方式)来解决。在一些情况下,待评估的位点可从人类基因组(例如,hg19人类参考基因组)或癌症突变(例如,cosmic)的数据库获得。被识别为有问题的区域可使用经选择以在相关序列情境中提供更好性能的算法来补救,例如,通过比对优化(或重新比对)使用更慢但更准确的比对算法诸如smith-waterman比对来补救。在其中一般比对算法无法补救问题的情况下,可通过下述来创建定制的比对方法,例如,针对包含取代的可能性高的基因来调整最大差异错配惩罚参数;基于某些肿瘤类型中常见的特定突变类型(例如,黑色素瘤中的c
→
t)来调整特定的错配惩罚参数;或基于某些样品类型中常见的特定突变类型(例如,ffpe中常见的取代)来调整特定的错配惩罚参数。
[0159]
由于错位而导致的所评估的受试者间隔的降低的特异性(增加的假阳性率)可通过手动或自动检查测序数据中的所有突变调用来评定。那些被发现由于错位而容易产生虚假突变调用的区域可进行如上所讨论的比对补救措施。在其中找不到可能的算法补救措施的情况下,可对来自问题区域的“突变”进行分类或从该组靶向基因座中筛选出来。
[0160]
碱基调用是指测序设备的原始输出,例如寡核苷酸分子中的确定的核苷酸序列。突变调用是指为待测序的给定核苷酸位置选择核苷酸值(例如,a、g、t或c)的过程。通常,针对一个位置的序列读段(或碱基调用)将提供超过一个值,例如,一些读段将指示t,而一些将指示g。突变调用是将正确的核苷酸值(例如,那些值中的一个)分配给该序列的过程。虽然它被称为“突变”调用,但它可应用于将核苷酸值分配给任何核苷酸位置(例如,对应于突变等位基因、野生型等位基因、未被表征为突变或野生型的等位基因的位置)或分配给不以可变性为特征的位置。
[0161]
在一些情况下,所公开的方法可包括使用定制的或经调制的突变调用算法或其参数来优化当应用于测序数据时的性能,特别是在依赖于对样品(例如,来自患有癌症的受试者的样品)中大量不同基因组基因座(例如,基因座、微卫星区域等)处的大量不同遗传事件进行大规模并行测序的方法中。突变调用的优化在本领域中有所描述,例如,如国际专利申请公开号wo 2012/092426中所述。
[0162]
用于突变调用的方法可包括以下中的一种或多种:基于参考序列中每个位置处的信息进行独立调用(例如,检查序列读段;检查碱基调用和质量评分;计算观察到的碱基的概率和给定潜在基因型的质量评分;以及分配基因型(例如,使用贝叶斯规则));去除假阳性(例如,使用深度阈值来拒绝读段深度远低于或高于预期的snp;局部重新比对以去除由于小插入缺失所致的假阳性);以及进行连锁不平衡(ld)/基于插补的分析以完善调用。
[0163]
用于计算与特定基因型和位置相关联的基因型可能性的方程式在例如以下文献中有所描述:li,h.和durbin,r.bioinformatics,2010;26(5):589-95。在评估来自某一癌症类型的样品时,可使用对该癌症类型中特定突变的先前预期。此类可能性可来自癌症突变的公共数据库,例如癌症体细胞突变目录(cosmic)、hgmd(人类基因突变数据库)、snp联盟、乳腺癌突变数据库(bic)和乳腺癌基因数据库(bcgd)。
[0164]
基于ld/插补的分析的示例在例如以下文献中有所描述:browning,b.l.和yu,z.am.j.hum.genet.2009,85(6):847-61。低覆盖率snp调用方法的示例在例如以下文献中有所描述:li,y.等人,annu.rev.genomics hum.genet.2009,10:387-406。
[0165]
在比对后,可使用突变调用方法(例如,贝叶斯突变调用方法)进行对取代的检测,该方法应用于待评估的每个受试者间隔(例如,基因的外显子或其他基因座)中的每个碱基,其中观察到交替等位基因的存在。该方法将对在存在突变的情况下观察到读段数据的概率与在仅存在碱基调用错误的情况下观察到读段数据的概率进行比较。如果这种比较足以强烈支持突变的存在,则可调用突变。
[0166]
贝叶斯突变检测方法的一个优点是,突变存在的概率与仅碱基检出错误的概率的比较可通过在该位点处存在突变的先前预期进行加权。如果在针对给定癌症类型的频繁突变位点处观察到替代性等位基因的一些读段,那么即使突变证据的量不满足通常的阈值,也可自信地调用突变的存在。然后,这种灵活性可用于增加对更罕见的突变/较低纯度样品的检测灵敏度,或使测试对于读段覆盖率的减少更加稳健。基因组中随机碱基对在癌症中发生突变的可能性为约1e-6。例如,典型的一组多基因癌症基因组中的许多位点处发生特定突变的可能性可能高出几个数量级。这些可能性可来自癌症突变的公共数据库(例如,cosmic)。
[0167]
插入缺失调用是在测序数据中查找因插入或缺失而不同于参考序列的碱基的过
程,通常包括相关联的置信度评分或统计证据指标。插入缺失调用的方法可包括识别候选的插入缺失、通过局部重新比对来计算基因型可能性以及进行基于ld的基因型推断和调用的步骤。通常,使用贝叶斯方法来获得潜在的插入缺失候选者,然后在贝叶斯框架中将这些候选者与参考序列一起进行测试。
[0168]
生成候选的插入缺失的算法在例如以下文献中有所描述:mckenna,a.等人,genome res.2010;20(9):1297-303;ye,k.等人,bioinformatics,2009;25(21):2865-71;lunter,g.和goodson,m.,genome res.2011;21(6):936-9;以及li,h.等人(2009),bioinformatics 25(16):2078-9。
[0169]
用于生成插入缺失调用和个体水平基因型可能性的方法包括:例如,dindel算法(albers,c.a.等人,genome res.2011;21(6):961-73)。例如,贝叶斯em算法可用于分析读段,进行初始插入缺失调用,并为每个候选的插入缺失生成基因型可能性,然后使用例如qcall进行基因型的插补(le s.q.和durbin r.genome res.2011;21(6):952-60)。可基于插入缺失的大小或定位来调整(例如,增加或减少)参数诸如对观察到插入缺失的先前预期。
[0170]
已经开发出解决癌症dna分析中50%或100%等位基因频率的有限偏差的方法。(参见,例如,snvmix-bioinformatics.2010年3月15日;26(6):730-736。)然而,本文公开的方法允许考虑突变等位基因以在1%至100%(即等位基因级分范围为0.01至1.0)范围内的频率(或等位基因级分),且尤其是以低于50%的水平存在的可能性。这种方法对于在例如天然(多克隆)肿瘤dna的低纯度ffpe样品中检测突变特别重要。
[0171]
在一些情况下,用于分析序列读段的突变调用方法并未个体地定制或调制以用于检测不同基因组基因座处的不同突变。在一些情况下,使用不同的突变调用方法,这些方法针对在不同基因组基因座处检出的不同突变的至少一个子集进行个体地定制或调制。在一些情况下,使用不同的突变调用方法,这些方法针对在每个基因组基因座处检出的每个不同突变进行个体地定制或调制。定制或调制可基于本文所述的一种或多种因素,例如样品中的癌症类型、待测序的受试者间隔所在的基因或基因座、或待测序的变体。针对待测序的大量受试者间隔进行个体地定制或调制的突变调用方法的这种选择或使用允许优化突变调用的速度、灵敏度和特异性。
[0172]
在一些情况下,使用唯一性突变调用方法为x个独特的受试者间隔中的每一个中的核苷酸位置分配核苷酸值,并且x为至少2、至少3、至少4、至少5、至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少1000、至少1500、至少2000、至少2500、至少3000、至少3500、至少4000、至少4500、至少5000或更大。例如,依赖于不同的贝叶斯先验值,调用方法可以不同,因此是唯一的。
[0173]
在一些情况下,分配所述核苷酸值是一个值的函数,该值是或代表对观察到显示在肿瘤类型中的所述核苷酸位置处的变体(例如,突变)的读段的先前(例如,文献)预期。
[0174]
在一些情况下,该方法包括为至少10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配都是唯一值(与用于其他分配的值相对)的函数,该值是或代表对观察到显示在肿瘤类型中的所述核苷酸位置处的变体(例如,突变)的读段的先前(例如,文献)预期。
[0175]
在一些情况下,分配所述核苷酸值是值集的函数,这些值代表如果变体以指定频率(例如,1%、5%、10%等)存在于样品中和/或如果变体不存在(例如,仅由于碱基调用错误而在读段中观察到),观察到显示在所述核苷酸位置处的所述变体的读段的概率。
[0176]
在一些情况下,本文所述的突变调用方法可包括以下:(a)为所述x个受试者间隔中的每一个中的核苷酸位置获取:(i)第一值,其是或代表观察到显示在x型肿瘤的所述核苷酸位置处的变体(例如突变)的读段的先前(例如,文献)预期;和(ii)第二值集,其代表如果变体以一定频率(例如,1%、5%、10%等)存在于样品中和/或如果变体不存在(例如,仅由于碱基调用错误而在读段中观察到),观察到显示在所述核苷酸位置处的所述变体的读段的概率;以及(b)响应于所述值,通过使用第一个值(例如,计算突变存在的后验概率)对第二集中的值之间的比较进行加权(例如,通过本文所述的贝叶斯方法),为所述核苷酸位置中的每一个分配来自所述读段的核苷酸值(例如,调用突变),从而分析所述样品。
[0177]
突变调用方法的另外的描述在例如国际专利申请公开号wo2020/236941中提供,其完整内容通过引用并入本文。
[0178]
在一些情况下,一个或多个序列读段可用于生成受试者的基因组图谱,其可进一步包括另外的数据(即,除了从序列读段生成的数据之外)。在一些情况下,基因组图谱可包括关于个体基因组和/或蛋白质组中基因(或其变体序列)、拷贝数变体、表观遗传性状、蛋白质(或其修饰)和/或其他生物标志物的存在的信息,以及有关个体对应的表型性状以及遗传或基因组性状、表型性状与环境因素之间相互作用的信息。受试者的基因组图谱可包括使用全面基因组图谱(cgp)测试、基因表达图谱测试、癌症热点组测试、dna甲基化测试、dna片段化测试、rna片段化测试或它们的任何组合对该一个或多个序列读段进行分析的结果(例如,序列读段分析数据)。指示受试者的基因组图谱的其他数据可包括在基因组图谱中。基因组图谱可进一步包括有关基于序列读段的分析数据对受试者进行分类和/或识别待用于受试者的一种或多种治疗的信息。在对数据进行进一步处理之后,例如,基于数据建模,如本文所述,可更新基因组图谱以包括分类和/或治疗信息。
[0179]
计算机系统和方法
[0180]
本文所述的方法可以使用一个或多个计算机系统实现。此类计算机系统可以包括一个或多个程序,该程序被配置为执行一个或多个处理器以供计算机系统执行此类方法。可以自动执行计算机实现的方法的一个或多个步骤。
[0181]
在一些情况下,所公开的系统可进一步包括测序仪,例如,下一代测序仪(也称为大规模并行测序仪)。下一代(或大规模并行)测序平台的示例包括但不限于roche 454、illumina solexa、abi-solid、ion torrent或pacific bioscience测序平台。
[0182]
图5a示出根据一个实施例的计算设备的示例。设备500可以是连接到网络的主机计算机。设备500可以是客户端计算机或服务器。如图5所示,设备500可以是任何合适类型的基于微处理器的设备,诸如个人计算机、工作站、服务器或手持计算设备(便携式电子设备),诸如电话或平板电脑。该设备可包括例如一个或多个处理器510、输入设备520、输出设备530、存储装置540和通信设备560。输入设备520和输出设备530可通常对应于上述那些设备,并且可以与计算机连接或集成。
[0183]
输入设备520可以是提供输入的任何合适的设备,诸如触摸屏、键盘或小键盘、鼠标或语音识别设备。输出设备530可以是提供输出的任何合适的设备,诸如触摸屏、触觉设
备或扬声器。在一些实施例中,输入和输出设备520/530可以是相同或不同的设备。
[0184]
存储装置540可以是提供存储的任何合适的设备,诸如电存储器、磁存储器或光学存储器,包括ram(易失性或非易失性)、高速缓存、硬盘驱动器或可移动存储盘。通信设备560可以包括能够通过网络发送和接收信号的任何合适的设备,诸如网络接口芯片或设备。计算机的组件可以任何合适的方式连接,诸如经由物理总线580或无线方式(例如,计算机的组件可以任何合适的方式连接,诸如经由物理总线580或无线方式(例如,或任何其他无线技术)。
[0185]
可以存储在存储装置540中并由处理器510执行的软件550可包括例如体现本公开的功能的程序(例如,如在上文所述的设备中体现的)。
[0186]
软件550也可以在任何非暂态计算机可读存储介质中存储和/或传输,以供指令执行系统、装置或设备(诸如上述那些)使用或与其结合使用,该软件可以从指令执行系统、装置或设备获取与该软件相关联的指令并执行该指令。在本公开的上下文中,计算机可读存储介质可以是任何介质,诸如存储装置540,其可以包括或存储供指令执行系统、装置或设备使用或与其结合使用的程序。
[0187]
软件550也可以在任何传输介质中传播,以供指令执行系统、装置或设备(诸如上述那些)使用或与其结合使用,该软件可以从指令执行系统、装置或设备获取与该软件相关联的指令并执行该指令。在本公开的上下文中,传输介质可以是可以传送、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的任何介质。传输可读介质可以包括但不限于电子、磁、光学、电磁或红外有线或无线传播介质。
[0188]
设备500可以连接到网络,该网络可以是任何合适类型的互连通信系统。网络可以实现任何合适的通信协议并且可以由任何合适的安全协议保护。网络可以包括可以实现网络信号的传输和接收的任何合适布置的网络链路,诸如无线网络连接、t1或t3线路、有线网络、dsl或电话线。
[0189]
设备500可以实现适合在网络上运行的任何操作系统。软件550可以用任何合适的编程语言编写,诸如c、c++、java或python。例如,在各种实施例中,体现本公开的功能的应用软件可以以不同的配置(诸如以客户端/服务器布置或通过网络浏览器)来部署作为基于网络的应用或网络服务。在一些实施例中,操作系统由一个或多个处理器执行,例如处理器510。
[0190]
设备500可进一步包括测序仪570,其可以是任何合适的核酸测序仪器。
[0191]
图5b示出了根据一个实施例的计算系统的示例。在计算系统590中,设备500(例如,如上所述和图5a中所示)连接到网络592,网络592也连接到设备594。在一些实施例中,设备594是测序仪(例如,下一代测序仪)。示例性测序仪可包括但不限于roche/454的基因组测序仪(gs)flx系统,illumina/solexa的基因组分析仪(ga),illumina的hiseq2500、hiseq 3000、hiseq 4000和novaseq 6000测序系统,life/apg的支持寡核苷酸连接检测(solid)系统,polonator的g.007系统,helicos biosciences的heliscope基因测序系统或pacific biosciences的pacbio rs系统。
[0192]
设备500和594可例如使用合适的通信接口经由网络592通信,诸如局域网(lan)、虚拟专用网(vpn)或因特网。在一些实施例中,网络592可以是例如因特网、内联网、虚拟专用网、云网络、有线网络或无线网络。设备500和594可以部分或全部地经由无线或硬连线通信,诸如以太网、ieee 802.11b无线等进行通信。另外,设备500和594可以例如使用合适的
通信接口经由第二网络诸如移动/细胞网络进行通信。设备500与594之间的通信可以进一步包括或与诸如邮件服务器、移动服务器、媒体服务器、电话服务器等的各种服务器通信。在一些实施例中,设备500和594可以直接通信(代替或补充经由网络592的通信),例如,经由无线或硬连线通信,诸如以太网、ieee 802.11b无线等。在一些实施例中,设备500和594经由通信596通信,这可以是直接连接或可以经由网络(例如,网络592)发生。
[0193]
设备500和594中的一个或全部通常包括逻辑(例如,http网络服务器逻辑)或被编程为格式化数据,从本地或远程数据库或其他数据和内容源访问,用于根据本文描述的各种示例经由网络592提供和/或接收信息。
[0194]
举例来说,系统(例如,电子设备)包括一个或多个处理器;和非暂态计算机可读存储器,其存储被配置为由该一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于实施确定针对患有疾病的受试者的预期治疗结果的方法的指令。该一个或多个程序在由该一个或多个处理器执行时使得该一个或多个处理器接收针对受试者的多个受试者特征;访问对应于针对疾病的治疗选项的基于树的模型(其可存储在例如非暂态计算机可读存储器中),其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;并且如果该受试者用对应治疗选项进行治疗,则从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果。在一些情况下,该一个或多个程序在由该一个或多个处理器执行时进一步使得该一个或多个处理器生成基于树的模型。
[0195]
一种非暂态计算机可读存储介质可存储一个或多个程序,该一个或多个程序包括指令,该指令在由系统的一个或多个处理器执行时使得该系统进行如本文所述的确定针对患有疾病的受试者的预期治疗结果的方法。该一个或多个程序在由该一个或多个处理器执行时使得该一个或多个处理器接收针对受试者的多个受试者特征;访问对应于针对疾病的治疗选项的基于树的模型(其可存储在例如非暂态计算机可读存储器中),其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成该基于树的模型;并且如果该受试者用对应治疗选项进行治疗,则从该多个受试者特征和该基于树的模型确定针对该受试者的预期治疗结果。在一些情况下,该一个或多个程序在由该一个或多个处理器执行时进一步使得该一个或多个处理器生成基于树的模型。
[0196]
尽管已经参考附图充分描述了本公开和示例,但是值得注意的是,各种变化和修改对于本领域技术人员来说将是显而易见的。此类变化和修改应被理解为包括在由权利要求定义的公开和示例的范围内。
[0197]
为了便于解释,前述描述参考具体实施例进行了描述。然而,上文的说明性讨论并不旨在穷举或将本发明限制为所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述实施例是为了最好地解释技术的原理及其实际应用。从而使本领域的其他技术人员能够最好地利用这些技术和具有适合于预期的特定用途的各种修改的各种实施例。
技术特征:
1.一种方法,其包括:提供从来自患有疾病的受试者的样品获得的多个核酸分子;将一个或多个衔接子连接到来自所述多个核酸分子的一个或多个核酸分子上;扩增一个或多个经连接的来自所述多个核酸分子的核酸分子;从经扩增的核酸分子捕获所述经扩增的核酸分子;通过测序仪来对经捕获的核酸分子进行测序,以获得代表所述经捕获的核酸分子的多个序列读段;通过一个或多个处理器来生成基因组图谱,所述基因组图谱包括基于所述序列读段的序列读段分析数据;使用所述一个或多个处理器,基于所述序列读段分析数据来识别包括针对一个或多个基因座的生物标志物值的受试者特征;在一个或多个处理器处接收针对所述受试者的多个另外的受试者特征;使用所述一个或多个处理器访问对应于针对所述疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成所述基于树的模型;以及使用所述一个或多个处理器从多个受试者特征和所述基于树的模型确定针对所述受试者的预期治疗结果,前提是所述受试者用所述对应治疗选项进行治疗。2.根据权利要求1所述的方法,其中确定所述预期治疗结果包括:基于所述多个受试者特征与所述多个先前患者特征之间的共性来对每个基于树的模型中的多个节点进行加权。3.根据权利要求1或权利要求2所述的方法,其中每个基于树的模型为基于树的回归模型。4.根据权利要求1至3中任一项所述的方法,其中每个基于树的模型为集成树模型。5.根据权利要求1至4中任一项所述的方法,其中每个基于树的模型为贝叶斯可加回归树模型。6.根据权利要求1至5中任一项所述的方法,其中在一个或多个临床试验期间确定针对多个先前患者中的至少第一部分的治疗结果。7.根据权利要求1至6中任一项所述的方法,其中在一个或多个临床试验期间确定针对所述多个先前患者中的至少第一部分的所述治疗结果。8.根据权利要求7所述的方法,其中在多个临床试验期间确定针对所述多个先前患者中的所述第一部分的所述治疗结果。9.根据权利要求1至8中任一项所述的方法,其中在临床试验之外确定针对所述多个先前患者中的至少第二部分的治疗结果。10.根据权利要求9所述的方法,其中用针对具有在临床试验之外确定的治疗结果的一个或多个另外的先前患者的多个特征重新确定所述基于树的模型的至少一部分。11.根据权利要求1至10中任一项所述的方法,其中所述基于树的模型的至少一部分:使用在临床试验之外确定的来自先前患者的数据进行拟合;并且包括使用在临床试验期间确定的来自先前患者的数据确定的多个节点。12.根据权利要求11所述的方法,其中针对所述基于树的模型的至少一部分,至少使用在临床试验期间确定的来自先前患者的数据进一步拟合。
13.根据权利要求1至12中任一项所述的方法,其中所述治疗结果和所述预期治疗结果针对总存活时间、无进展存活时间、肿瘤缓解、所述受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。14.根据权利要求1至13中任一项所述的方法,其中所述预期治疗结果为预期治疗结果可能性的分布。15.根据权利要求14所述的方法,其中所述预期治疗结果为针对多个时间段的预期治疗结果可能性的分布。16.根据权利要求1至15中任一项所述的方法,其中:所述多个受试者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;所述多个先前患者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;并且所述多个受试者特征中的至少一部分为与针对所述先前患者中的至少一部分的所述多个先前患者特征中的至少一部分相同类型的特征。17.根据权利要求16所述的方法,其中针对所述多个受试者特征和多个患者特征的所述先前疗法列表包括在每个先前疗法上花费的时间的列表。18.根据权利要求16或17所述的方法,其中针对所述多个受试者特征和所述多个患者特征的所述实践环境被分类为学术环境或社区环境。19.根据权利要求16至18中任一项所述的方法,其中所述共病为糖尿病或心脏病。20.根据权利要求1至19中任一项所述的方法,其中针对所述多个受试者特征和所述多个患者特征的所述生物标志物值为egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(cna)状态、pd-l1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。21.根据权利要求1至20中任一项所述的方法,其中至少部分地基于来自先验预测分布的抽取来填充所述基于树的模型。22.根据权利要求1至21中任一项所述的方法,其中至少部分地使用预定的或数据启示的先验分布来填充所述基于树的模型。23.根据权利要求1至22中任一项所述的方法,其中所述基于树的模型经剪枝以生成协变量空间的较粗分拆。24.根据权利要求1至23中任一项所述的方法,其中确定所述预期治疗结果包括:如果一个或多个树不能提供治疗结果预测,则从所述基于树的模型省略所述一个或多个树。25.根据权利要求1至24中任一项所述的方法,其中所述治疗选项包括免疫肿瘤学治疗选项或化疗治疗选项,或两者。26.根据权利要求1至25中任一项所述的方法,其进一步包括比较针对两个或更多个不同治疗选项的预期治疗结果。
27.根据权利要求1至26中任一项所述的方法,其中所述疾病为癌症、肌肉硬化或终末期肾病。28.根据实施例1至27中任一项所述的方法,其中所述疾病为癌症。29.根据权利要求28所述的方法,其中所述癌症为b细胞癌(多发性骨髓瘤)、黑色素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎症性成肌纤维细胞瘤、胃肠道间质瘤(gist)、结肠癌、多发性骨髓瘤(mm)、骨髓增生异常综合征(mds)、骨髓增生异常(mpd)、急性淋巴细胞性白血病(all)、急性髓细胞性白血病(aml)、慢性髓细胞性白血病(cml)、慢性淋巴细胞性白血病(cll)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(nhl)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、成神经细胞瘤、成视网膜细胞瘤、滤泡性淋巴瘤、弥漫性大b细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈部癌、小细胞癌、原发性血小板增多症、特发性骨髓化生、嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌或类癌瘤。30.根据权利要求1至29中任一项所述的方法,其进一步包括从所述受试者获得所述样品。31.根据权利要求1至30中任一项所述的方法,其中所述样品包括组织活检样品、液体活检样品或正常对照。32.根据权利要求31所述的方法,其中所述样品为液体活检样品并且包括血液、血浆、脑脊髓液、痰液、粪便、尿液或唾液。33.根据权利要求31所述的方法,其中所述样品为液体活检样品并且包含循环肿瘤细胞(ctc)。34.根据权利要求31所述的方法,其中所述样品为液体活检样品并且包含细胞游离dna(cfdna)、循环肿瘤dna(ctdna)或它们的任何组合。35.根据权利要求1至34中任一项所述的方法,其中所述多个核酸分子包括肿瘤核酸分子和非肿瘤核酸分子的混合物。36.根据权利要求35所述的方法,其中所述肿瘤核酸分子源自异质组织活检样品的肿瘤部分,并且所述非肿瘤核酸分子源自所述异质组织活检样品的正常部分。37.根据权利要求35所述的方法,其中所述样品包括液体活检样品,并且其中所述肿瘤核酸分子源自所述液体活检样品的循环肿瘤dna(ctdna)级分,并且所述非肿瘤核酸分子源自所述液体活检样品的非肿瘤、细胞游离dna(cfdna)级分。38.根据权利要求1至37中任一项所述的方法,其中所述一个或多个衔接子包括扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。
39.根据权利要求1至38中任一项所述的方法,其中所述经捕获的核酸分子通过与一个或多个诱饵分子杂交而从所述经扩增的核酸分子捕获。40.根据权利要求39所述的方法,其中所述一个或多个诱饵分子包括一个或多个核酸分子,每个核酸分子包括与经捕获的核酸分子的区域互补的区域。41.根据权利要求1至40中任一项所述的方法,其中扩增核酸分子包括进行聚合酶链反应(pcr)扩增技术、非pcr扩增技术或等温扩增技术。42.根据权利要求1至41中任一项所述的方法,其中所述测序包括使用大规模并行测序(mps)技术、全基因组测序(wgs)、全外显子组测序、靶向测序、直接测序或桑格测序技术。43.根据权利要求42所述的方法,其中所述测序包括大规模并行测序,并且所述大规模并行测序技术包括下一代测序(ngs)。44.根据权利要求1至43中任一项所述的方法,其中所述测序仪包括下一代测序仪。45.根据权利要求1至44中任一项所述的方法,其中所述多个测序读段中的一个或多个与所述样品内一个或多个亚基因组间隔内的一个或多个基因座重叠。46.根据权利要求1至45中任一项所述的方法,其进一步包括:如果所述受试者用对应治疗选项进行治疗,则由所述一个或多个处理器生成报告,所述报告包括针对所述受试者的预期治疗结果的列表。47.根据权利要求46所述的方法,其进一步包括将所述报告传输到医疗保健提供者。48.根据权利要求47所述的方法,其中经由计算机网络或对等连接传输所述报告。49.一种确定针对患有疾病的受试者的预期治疗结果的方法,其包括:在一个或多个处理器处接收针对所述受试者的多个受试者特征;使用所述一个或多个处理器访问对应于针对所述疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成所述基于树的模型;以及使用所述一个或多个处理器从多个受试者特征和所述基于树的模型确定针对所述受试者的预期治疗结果,前提是所述受试者用所述对应治疗选项进行治疗。50.一种确定针对患有疾病的受试者的预期治疗结果的方法,其包括:在一个或多个处理器处接收针对所述受试者的多个受试者特征;使用所述一个或多个处理器访问两个或更多个基于树的模型,其中每个基于树的模型对应于针对所述疾病的治疗选项,并且其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成所述基于树的模型;以及使用所述一个或多个处理器,从所述多个受试者特征和所述两个或更多个基于树的模型确定针对所述受试者的预期治疗结果,前提是所述受试者用对应治疗选项进行治疗。51.一种为患有疾病的受试者选择治疗的方法,其包括:按照根据权利要求50所述的方法针对所述受试者确定针对两个或更多个治疗选项的预期治疗结果;以及基于每个治疗选项的所述预期治疗结果来选择最有可能对治疗所述受试者的所述疾病有效的治疗选项。52.一种用于治疗患有疾病的受试者的方法,其包括:按照根据权利要求50所述的方法针对所述受试者确定针对两个或更多个治疗选项的
预期治疗结果;基于每个治疗选项的所述预期治疗结果来选择最有可能对治疗所述受试者的所述疾病有效的治疗选项;以及向所述受试者施用所选择的治疗选项。53.根据权利要求49至52中任一项所述的方法,其中确定所述预期治疗结果包括:基于所述多个受试者特征与所述多个先前患者特征之间的共性来对每个基于树的模型中的多个节点进行加权。54.根据权利要求49至53中任一项所述的方法,其中每个基于树的模型为基于树的回归模型。55.根据权利要求49至54中任一项所述的方法,其中每个基于树的模型为集成树模型。56.根据权利要求49至55中任一项所述的方法,其中每个基于树的模型为贝叶斯可加回归树模型。57.根据权利要求49至56中任一项所述的方法,其中使用马尔可夫链蒙特卡罗过程、装袋过程或非贝叶斯模型来解释所述基于树的模型中的不确定性。58.根据权利要求49至57中任一项所述的方法,其中使用马尔可夫链蒙特卡罗过程来解释所述基于树的模型中的不确定性。59.根据权利要求49至58中任一项所述的方法,其中至少部分地基于来自先验预测分布的抽取来填充所述基于树的模型。60.根据权利要求49至59中任一项所述的方法,其中至少部分地使用预定的或数据启示的先验分布来填充所述基于树的模型。61.根据权利要求49至60中任一项所述的方法,其中所述基于树的模型经剪枝以生成协变量空间的较粗分拆。62.根据权利要求49至61中任一项所述的方法,其中确定所述预期治疗结果包括:如果一个或多个树不能提供治疗结果预测,则从所述基于树的模型省略所述一个或多个树。63.根据权利要求49至62中任一项所述的方法,其中所述治疗选项包括免疫肿瘤学治疗选项或化疗治疗选项,或两者。64.根据权利要求49至63中任一项所述的方法,其进一步包括比较针对两个或更多个不同治疗选项的预期治疗结果。65.根据权利要求49至64中任一项所述的方法,其中在一个或多个临床试验期间确定针对多个先前患者中的至少第一部分的治疗结果。66.根据权利要求65所述的方法,其中在多个临床试验期间确定针对所述多个先前患者中的所述第一部分的所述治疗结果。67.根据权利要求49至65中任一项所述的方法,其中在临床试验之外确定针对所述多个先前患者中的至少第二部分的治疗结果。68.根据权利要求67所述的方法,其中用针对具有在临床试验之外确定的治疗结果的一个或多个另外的先前患者的多个特征重新确定所述基于树的模型的至少一部分。69.根据权利要求49至68中任一项所述的方法,其中所述基于树的模型的至少一部分:使用在临床试验之外确定的来自先前患者的数据进行拟合;并且包括使用在临床试验期间确定的来自先前患者的数据确定的多个节点。
70.根据权利要求69所述的方法,其中至少使用在临床试验期间确定的来自先前患者的数据进一步拟合所述基于树的模型的至少一部分。71.根据权利要求49至70中任一项所述的方法,其中所述治疗结果和所述预期治疗结果针对总存活时间、无进展存活时间、肿瘤缓解、所述受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。72.根据权利要求49至71中任一项所述的方法,其中所述预期治疗结果为预期治疗结果可能性的分布。73.根据权利要求72所述的方法,其中所述预期治疗结果为针对多个时间段的预期治疗结果可能性的分布。74.根据权利要求49至73中任一项所述的方法,其中所述疾病为癌症、肌肉硬化或终末期肾病。75.根据实施例49至74中任一项所述的方法,其中所述疾病为癌症。76.根据权利要求50至75中任一项所述的方法,其中所述治疗选项包括两个治疗选项。77.根据权利要求50至75中任一项所述的方法,其中所述治疗选项包括三个或更多个治疗选项。78.根据权利要求49至77中任一项所述的方法,其中一个治疗选项或多个治疗选项包括免疫肿瘤学治疗选项或化疗治疗选项,或两者。79.根据权利要求49至78中任一项所述的方法,其中:所述多个受试者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;所述多个先前患者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;并且所述多个受试者特征中的至少一部分为与针对所述先前患者中的至少一部分的所述多个先前患者特征中的至少一部分相同类型的特征。80.根据权利要求79所述的方法,其中针对所述多个受试者特征和多个患者特征的所述先前疗法列表包括在每个先前疗法上花费的时间的列表。81.根据权利要求79或80所述的方法,其中针对所述多个受试者特征和所述多个患者特征的所述实践环境被分类为学术环境或社区环境。82.根据权利要求79至81中任一项所述的方法,其中针对所述多个受试者特征和所述多个患者特征的所述生物标志物值为egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(cna)状态、pd-l1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。83.根据权利要求79至82中任一项所述的方法,其中所述共病为糖尿病或心脏病。84.根据权利要求49至83中任一项所述的方法,其中每个基于树的模型存储在被配置为由所述一个或多个处理器访问的存储器上。
85.根据权利要求49至84中任一项所述的方法,其包括在电子显示器上显示:最有可能对治疗所述受试者的所述疾病有效的所述治疗选项,或针对一个或多个治疗选项的所述预期治疗结果。86.根据权利要求49至85中任一项所述的方法,其包括向所述受试者或所述受试者的医疗保健提供者报告指示以下项的报告:最有可能对治疗所述受试者的所述疾病有效的所述治疗选项,或针对一个或多个治疗选项的所述预期治疗结果。87.根据权利要求86所述的方法,其中所述报告为电子报告。88.根据权利要求86所述的方法,其中所述报告为非电子报告。89.根据权利要求49至88中任一项所述的方法,其中通过对从先前患者或所述受试者获得的核酸分子进行测序来确定所述先前患者特征中的至少一者或所述受试者特征中的至少一者。90.一种系统,其包括:一个或多个处理器;和存储器,其通信地耦合到所述一个或多个处理器并且被配置为存储指令,所述指令在由所述一个或多个处理器执行时使得所述系统实施根据权利要求49至89中任一项所述的方法。91.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由系统的一个或多个处理器执行时使得所述系统进行根据权利要求49至89中任一项所述的方法。92.一种治疗患有疾病的受试者的方法,其包括:按照根据权利要求51至89中任一项所述的方法为所述受试者选择治疗;以及向所述受试者施用最有可能对治疗所述疾病有效的所述治疗选项。93.一种方法,其包括:在一个或多个处理器处接收与来自受试者的样品相关联的多个序列读段;使用所述一个或多个处理器分析所述多个序列读段以生成包括序列读段分析数据的基因组图谱;使用所述一个或多个处理器,基于所述序列读段分析数据来识别包括针对一个或多个基因座的生物标志物值的受试者特征;在一个或多个处理器处接收针对所述受试者的多个另外的受试者特征;使用所述一个或多个处理器访问对应于针对所述疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成所述基于树的模型;以及使用所述一个或多个处理器从多个受试者特征和所述基于树的模型确定针对所述受试者的预期治疗结果,前提是所述受试者用所述对应治疗选项进行治疗。94.根据权利要求93所述的方法,其中确定所述预期治疗结果包括:基于所述多个受试者特征与所述多个先前患者特征之间的共性来对每个基于树的模型中的多个节点进行加权。95.根据权利要求93或权利要求94所述的方法,其中每个基于树的模型为基于树的回
归模型。96.根据权利要求93至95中任一项所述的方法,其中每个基于树的模型为集成树模型。97.根据权利要求93至96中任一项所述的方法,其中每个基于树的模型为贝叶斯可加回归树模型。98.根据权利要求93至97中任一项所述的方法,其中在一个或多个临床试验期间确定针对多个先前患者中的至少第一部分的治疗结果。99.根据权利要求93至98中任一项所述的方法,其中在一个或多个临床试验期间确定针对所述多个先前患者中的至少第一部分的所述治疗结果。100.根据权利要求99所述的方法,其中在多个临床试验期间确定针对所述多个先前患者中的所述第一部分的所述治疗结果。101.根据权利要求93至100中任一项所述的方法,其中在临床试验之外确定针对所述多个先前患者中的至少第二部分的治疗结果。102.根据权利要求101所述的方法,其中用针对具有在临床试验之外确定的治疗结果的一个或多个另外的先前患者的多个特征重新确定所述基于树的模型的至少一部分。103.根据权利要求93至102中任一项所述的方法,其中所述基于树的模型的至少一部分:使用在临床试验之外确定的来自先前患者的数据进行拟合;并且包括使用在临床试验期间确定的来自先前患者的数据确定的多个节点。104.根据权利要求103所述的方法,其中针对所述基于树的模型的至少一部分,至少使用在临床试验期间确定的来自先前患者的数据进一步拟合。105.根据权利要求93至104中任一项所述的方法,其中所述治疗结果和所述预期治疗结果针对总存活时间、无进展存活时间、肿瘤缓解、所述受试者中ctdna水平的变化、疾病减轻或对治疗的抗性。106.根据权利要求93至105中任一项所述的方法,其中所述预期治疗结果为预期治疗结果可能性的分布。107.根据权利要求106所述的方法,其中所述预期治疗结果为针对多个时间段的预期治疗结果可能性的分布。108.根据权利要求93至107中任一项所述的方法,其中:所述多个受试者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;所述多个先前患者特征包括年龄、性别、种族、癌症诊断年份、自癌症诊断以来的时间、自转移性疾病诊断以来的时间、生物标志物值、共病、先前疗法列表、基线ctdna值、实践环境或表现状态中的一者或多者;并且所述多个受试者特征中的至少一部分为与针对所述先前患者中的至少一部分的所述多个先前患者特征中的至少一部分相同类型的特征。109.根据权利要求108所述的方法,其中针对所述多个受试者特征和多个患者特征的所述先前疗法列表包括在每个先前疗法上花费的时间的列表。110.根据权利要求108或109所述的方法,其中针对所述多个受试者特征和所述多个患
者特征的所述实践环境被分类为学术环境或社区环境。111.根据权利要求108至110中任一项所述的方法,其中针对所述多个受试者特征和所述多个患者特征的所述生物标志物值为egfr变体状态、ntrk变体状态、ret变体状态、alk重排变体状态、肿瘤突变负荷(tmb)、hla杂合性丢失(loh)状态、变体的种系状态、变体的体细胞状态、微卫星不稳定性(msi)状态、同源重组缺陷(hrd)状态、全基因组杂合性丢失(gloh)状态、拷贝数改变(cna)状态、pd-l1表达水平状态、激素受体状态、psa表达水平状态或psa表达水平增加率。112.根据权利要求108至111中任一项所述的方法,其中所述共病为糖尿病或心脏病。113.根据权利要求93至112中任一项所述的方法,其中至少部分地基于来自先验预测分布的抽取来填充所述基于树的模型。114.根据权利要求93至113中任一项所述的方法,其中至少部分地使用预定的或数据启示的先验分布来填充所述基于树的模型。115.根据权利要求93至114中任一项所述的方法,其中所述基于树的模型经剪枝以生成协变量空间的较粗分拆。116.根据权利要求93至115中任一项所述的方法,其中确定所述预期治疗结果包括:如果一个或多个树不能提供治疗结果预测,则从所述基于树的模型省略所述一个或多个树。117.根据权利要求93至116中任一项所述的方法,其中所述治疗选项包括免疫肿瘤学治疗选项或化疗治疗选项,或两者。118.根据权利要求93至117中任一项所述的方法,其进一步包括比较针对两个或更多个不同治疗选项的预期治疗结果。
技术总结
本文描述了用于在治疗受试者时确定预期疾病治疗结果的方法和系统、用于为所述受试者选择治疗选项的方法和设备以及针对疾病对受试者进行治疗的方法。所述方法可以包括:接收针对受试者的多个受试者特征;访问对应于针对所述疾病的治疗选项的基于树的模型,其中基于多个先前患者特征和针对对应治疗选项的相关联治疗结果来生成所述基于树的模型;以及如果所述受试者用所述对应治疗选项进行治疗,则从所述多个受试者特征和所述基于树的模型确定针对所述受试者的预期治疗结果。针对所述受试者的预期治疗结果。针对所述受试者的预期治疗结果。
技术研发人员:利亚
受保护的技术使用者:基金会医学公司
技术研发日:2021.12.02
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
