模型进行金融领域任务处理的词嵌入方法、装置、设备与流程

未命名 09-13 阅读:113 评论:0


1.本技术涉及人工智能技术及金融科技领域,特别是涉及一种模型进行金融领域任务处理的词嵌入方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着人工智能技术的发展以及金融领域的自然语言处理需求的增加,越来越多金融机构开始将语言处理模型应用于金融领域的文本处理任务中。其中,bert、gpt等预训练的大型语言模型(large language model,llm)由于其良好的语言处理能力而备受瞩目。为了在通用领域上获得较佳的语言处理效果,上述llm模型一般使用通用语料进行训练,并为通用语料中的词语生成一套词向量。当需要对语料进行处理时,llm先通过其词嵌入层将语料中的词语转换为对应的词向量,再进一步通过模型中的其余模块进行句子位置、上下文位置、编码解码等计算和处理。
3.但是,由于llm中携带的词向量都是根据对通用语料的学习而生成,因此llm只有在处理通用领域的文本时才能获得较好的效果,而当将其直接应用于金融领域时,则难以获得较佳的处理效果。
4.基于此,目前的金融领域语言处理中,通常需要对llm进行重新训练,使其能够根据金融领域的语料重新生成一套适配性的词向量,从而使llm可以被应用于金融领域的任务处理中。然而上述对llm的重新训练过程需要耗费大量时间、资源和精力,而且针对不同的llm还需要分别进行重新训练。因此目前要获得适用于金融领域任务处理的语言模型,需要花费大量成本,并且难以提高效率。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种模型进行金融领域任务处理的词嵌入方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种模型进行金融领域任务处理的词嵌入方法。方法包括:
7.获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
8.获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;通用语料对应的多个第二词向量取自预训练的大型语言模型的词嵌入层;
9.针对每一第一词向量,根据目标第二词向量与第一词向量的相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量;目标第二词向量为多个第二词向量中与第一词向量对应同一词语的第二词向量;
10.将第三词向量运用于预训练的大型语言模型在金融领域的任务处理。
11.在其中一个实施例中,步骤将第三词向量运用于预训练的大型语言模型在金融领域的任务处理,包括:根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量;使用包含调整后
的词嵌入层的预训练的大型语言模型进行金融领域的任务处理。
12.在其中一个实施例中,步骤根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量,包括:根据第三词向量对多个第二词向量进行更新,得到更新词向量集合;更新包括将多个第二词向量中与第三词向量对应的目标第二词向量替换成第三词向量;根据更新词向量集合调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料转换成更新词向量集合中对应的词向量。
13.在其中一个实施例中,步骤根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量,包括:根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层判断输入的语料中的词语是否有对应的第三词向量;如有,将词语转换为第三词向量;否则,将词语转换为对应的第二词向量。
14.在其中一个实施例中,步骤获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量,包括:获取金融领域语料;对金融领域语料进行清洗处理和分词处理,得到第一金融领域语料文本;使用第一金融领域语料文本训练词向量转化模型,得到与金融领域语料对应的多个第一词向量。
15.在其中一个实施例中,步骤针对每一第一词向量,根据目标第二词向量与第一词向量的相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:针对每一第一词向量,确定每一第一词向量对应的目标词语;根据目标词语,确定目标第二词向量;计算第一词向量和目标第二词向量之间的余弦相似度;基于余弦相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量。
16.在其中一个实施例中,步骤基于余弦相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:为目标第二词向量配置与余弦相似度相等的第一加权融合比例,根据第一加权融合比例为第一词向量配置第二加权融合比例;第一加权融合比例与第二加权融合比例之和为1;根据第一加权融合比例、第二加权融合比例将目标第二词向量与第一词向量加权融合为第三词向量。
17.在其中一个实施例中,词向量转化模型为word2vec模型;预训练的大型语言模型为使用通用语料进行预训练的bert模型。
18.第二方面,本技术还提供了一种模型进行金融领域任务处理的词嵌入装置。所述装置包括:
19.第一词向量获取模块,用于获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
20.第二词向量获取模块,用于获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;
21.融合模块,用于针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;
22.应用模块,用于将所述第三词向量运用于所述预训练的大型语言模型在金融领域
的任务处理。
23.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
24.获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
25.获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;
26.针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;
27.将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。
28.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
29.获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
30.获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;
31.针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;
32.将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。
33.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
34.获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
35.获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;
36.针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;
37.将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。
38.上述模型进行金融领域任务处理的词嵌入方法、装置、计算机设备、存储介质和计算机程序产品,通过词向量转化模型训练得到的金融领域语料对应的多个第一词向量以及预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量,根据目标第二词向量和第一词向量之间的相似度,对两者进行加权融合,得到第三词向量,并使用该第三词向量运用到预训练的大型语言模型在金融领域的任务处理中。该过程中,一方面只需对轻量化的词向量转化模型进行金融领域语料的训练,可用较低成本获得适配于金融领域的词向量;另一方面,上述训练过程中并未对预训练的大型语言模型原有的词向量造成影响,因此使用两套词向量融合得到的第三词向量可以充分利用预训练的大型语言模型的训练结果,同时弥补其在金融领域上的不足;进一步地,由于本技术中的方法不涉及对预训练的大型语言模型的重新训练,因此在完成词向量转化模型的训练并得适配于金融领域的词向量后,可将其直接与任意的预训练的大型语言模型进行对接,实现一次训练多处复用的效果,
有效降低成本和提高效率。
附图说明
39.图1为一个实施例中模型进行金融领域任务处理的词嵌入方法的流程示意图;
40.图2为一个实施例中获取多个第一词向量的流程示意图;
41.图3为一个实施例中通过加权融合获得第三词向量的流程示意图;
42.图4为另一个实施例中模型进行金融领域任务处理的词嵌入方法的流程示意图;
43.图5为一个实施例中模型进行金融领域任务处理的词嵌入装置的结构框图;
44.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
45.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
46.在一个实施例中,如图1所示,提供了一种模型进行金融领域任务处理的词嵌入方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
47.步骤s101,获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量。
48.具体地,本步骤中可先根据金融领域中需要进行语言处理的场景进行金融领域语料的收集,例如可收集金融机构网站上的文章、金融产品说明书、金融机构网站上经用户授权分析的评论等。对收集到的语料进行一定的预处理后,即可将其用于词向量转化模型的训练中。
49.其中,该词向量转化模型可以是例如word2vec、glove等词向量转化模型,其可以根据输入的训练语料,根据每个词语在语料库中的上下文关系、统计结果等,将每个词语转换为对应的词向量。
50.本步骤中使用金融领域语料对词向量转化模型训练,可获得对应于语料中多个词语的多个第一词向量,其可呈现每个具体的词语在金融领域中与其他词语的关系。
51.步骤s102,获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;通用语料对应的多个第二词向量取自预训练的大型语言模型的词嵌入层。
52.具体地,该预训练的大型语言模型可以是使用通用语料进行预训练的任意一种大型语言模型,例如bert、gpt、ernie等模型。其中,预训练的大型语言模型的词嵌入层通常携带一个词表,该词表包含了该模型根据预训练结果而生成的针对多个词语的多个词向量。
53.本步骤中通过对预训练的大型语言模型的词表进行查询,获取其中与通用语料对应的多个第二词向量。
54.步骤s103,针对每一第一词向量,根据目标第二词向量与第一词向量的相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量;目标第二词向量为多个第二词向量中与第一词向量对应同一词语的第二词向量。
55.具体地,本步骤中根据步骤s101中获取的多个第一词向量,根据每个第一词向量对应的词语,从步骤s102中获取的多个第二词向量中确定与该词语对应的目标第二词向量。
56.然后根据目标第二词向量与第一词向量之间的相似度,对两者进行加权融合,得到第三词向量。其中,出于充分利用预训练的大型语言模型的训练结果的考虑,本步骤中根据两个词向量之间的相似度为两者分别赋予各自的权重,当目标第二词向量与第一词向量之间越相似,则目标第二词向量的权重值越大而第一词向量的权重值越小;反之,当目标第二词向量与第一词向量之间越不相似,则目标第二词向量的权重值越小而第一词向量的权重值越大。按照目标第二词向量与第一词向量各自的权重值对两者进行融合,即可得到第三词向量。
57.步骤s104,将第三词向量运用于预训练的大型语言模型在金融领域的任务处理。
58.具体地,根据步骤s103中获得的第三词向量,可对预训练的大型语言模型进行调整,使该预训练的大型语言模型在金融领域的任务处理过程中可以使用第三词向量进行语料中词语的转换,并将其应用于该预训练的大型语言模型后续的语言处理流程上。
59.上述模型进行金融领域任务处理的词嵌入方法中,通过词向量转化模型训练得到的金融领域语料对应的多个第一词向量以及预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量,根据目标第二词向量和第一词向量之间的相似度,对两者进行加权融合,得到第三词向量,并使用该第三词向量运用到预训练的大型语言模型在金融领域的任务处理中。该过程中,一方面只需对轻量化的词向量转化模型进行金融领域语料的训练,可用较低成本获得适配于金融领域的词向量;另一方面,上述训练过程中并未对预训练的大型语言模型原有的词向量造成影响,因此使用两套词向量融合得到的第三词向量可以充分利用预训练的大型语言模型的训练结果,同时弥补其在金融领域上的不足;进一步地,由于本技术中的方法不涉及对预训练的大型语言模型的重新训练,因此在完成词向量转化模型的训练并得适配于金融领域的词向量后,可将其直接与任意的预训练的大型语言模型进行对接,实现一次训练多处复用的效果,有效降低成本和提高效率。
60.在一个实施例中,上述步骤s104,将第三词向量运用于预训练的大型语言模型在金融领域的任务处理,包括:
61.根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量;使用包含调整后的词嵌入层的预训练的大型语言模型进行金融领域的任务处理。
62.具体地,预训练的大型语言模型使用其词嵌入层将输入的语料中的词语转换成对应的词向量。本实施例中根据上述步骤s103中获得的第三词向量,对预训练的大型语言模型的词嵌入层进行调整,使其可以将输入的语料中与第三词向量对应的词语转换成第三词向量,从而使该模型具有金融领域语料的适配能力。使用包含调整后的词嵌入层的模型进行金融领域的任务处理,该模型的词嵌入层可以将输入的语料转换成更适应于领域特点的词向量,并进而将其应用于模型中词嵌入层下游的其他任务处理流程中。
63.本实施例中通过对预训练的大型语言模型的词嵌入层进行调整,使其能够将输入的语料中与第三词向量对应的词语转换成第三词向量,可以在不对预训练的大型语言模型的其余原有结构进行调整的情况下,仅通过调整其词嵌入层而使整个模型获得金融领域任
务处理能力,提高了使用模型进行金融领域任务处理的效率。
64.在一个实施例中,上述步骤中,根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量,包括:
65.根据第三词向量对多个第二词向量进行更新,得到更新词向量集合;更新包括将多个第二词向量中与第三词向量对应的目标第二词向量替换成第三词向量;根据更新词向量集合调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料转换成更新词向量集合中对应的词向量。
66.具体地,本实施例中根据取自该预训练的大型语言模型的词嵌入层的词表,对其中的多个第二词向量进行更新。其中,对于多个第二词向量中与第三词向量相对应的目标第二词向量,将其替换成第三词向量,并与其余的第二词向量共同形成更新词向量集合。
67.然后使用更新词向量集合对预训练的大型语言模型的词嵌入层进行调整,以该更新词向量集合作为词嵌入层的词表,从而调整后的词嵌入层可以将输入其的语料中的词语转换成更新词向量集中对应的词向量。
68.本实施例使用第三词向量对预训练的大型语言模型的词嵌入层的词表进行更新,使词嵌入层可以直接根据更新后的词表对输入的语料中的词语进行词向量转换,一方面可以将第三词向量覆盖的词语转换成对应的第三词向量,另一方面,对未被第三词向量覆盖的词语,使用模型中原有的第二词向量进行转换,可以充分提高模型应对不同金融领域文本处理的泛化能力和可靠性。
69.在一个实施例中,上述步骤中,根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量,包括:
70.根据第三词向量调整预训练的大型语言模型的词嵌入层,使调整后的词嵌入层判断输入的语料中的词语是否有对应的第三词向量;如有,将词语转换为第三词向量;否则,将词语转换为对应的第二词向量。
71.具体地,本实施例中根据第三词向量的集合形成第一子词表,然后根据预训练的大型语言模型的词嵌入层中原有词表的多个第二词向量,形成第二子词表。然后,以第一子词表和第二子词表共同作为预训练的大型语言模型的词嵌入层的词表,对该词嵌入层进行调整,使其在处理金融领域语料时,判断词语是否在第一子词表中有对应的第三词向量,如有则优先将其转换为对应的第三词向量,如无,则将其转换为第二子词表中对应的第二词向量。
72.本实施例中根据获得的第三词向量形成第一子词表,并将预训练的大型语言模型原有的词表作为第二子词表,并在进行金融领域文本处理时,优先将词语转换为第一子词表中的第三词向量。上述过程中,仅仅调整了词嵌入层对词表的查询优先度,其中第一子词表和第二子词表相互独立,完整地保留了预训练的大型语言模型原有的词表,其一方面可以在后期更方便地对第一子词表中的第三词向量进行更新,另一方面也更适用于对不同的预训练的大型语言模型进行调整。而且本实施例中的方法也可以更方便后期对预训练的大型语言模型进行进一步的功能拓展,例如,当需要进一步对金融领域进行细分时,可以在保留第二子词表的基础上,根据每一个细分的金融子领域获得其对应的第一子词表,使用不
同的第一子词表与第二子词表结合,即可使调整后的预训练的大型语言模型适用于对应金融子领域的任务处理。
73.在一个实施例中,如图2所示,步骤获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量,包括:
74.步骤s201,获取金融领域语料。
75.步骤s202,对金融领域语料进行清洗处理和分词处理,得到第一金融领域语料文本。
76.步骤s203,使用第一金融领域语料文本训练词向量转化模型,得到与金融领域语料对应的多个第一词向量。
77.具体地,本实施例中收集金融机构网站上的文章、金融产品说明书等金融领域语料后,先对文本数据进行清洗处理,将其中包含html标签、特殊字符、数字等噪声信息去除。
78.然后根据具体要使用的词向量转化模型,对清洗后的文本数据进行分词处理,转换成与该词向量转化模型相匹配的格式。例如,对于选择word2vec作为词向量转化模型,可以将金融产品说明书中的句子“该产品为一款定期存款,存期为一年,年利率为3%”通过分词处理,形成如[该,产,品,为,一,款,定,期,存,款,,,存,期,为,一,年,,,年,利,率,为,3,%]的集合,整体以字为最小词语单位。
[0079]
按照上述方法对获得的金融领域语料进行清洗处理和分词处理后,即可得到第一金融领域语料文本。以该文本输入词向量转化模型并对其进行训练,则可得到由该词向量转化模型生成的与金融领域语料对应的多个第一词向量。
[0080]
本实施例提供了一种获取金融领域语料对应的第一词向量的具体实现方式,其中通过清洗处理去除文本中的无用信息,有利于提高其得到第一词向量对词语反映的准确性,进而可提高调整后的预训练的大型语言模型的泛化能力和可靠性,使其更适用于金融领域任务处理的实际场景。进一步地,通过分词处理,可以将原始的文本处理成适用于词向量转化模型的格式,有利于后续对语料中的词语进行词向量转化。
[0081]
在一个实施例中,如图3所示,上述步骤中,针对每一第一词向量,根据目标第二词向量与第一词向量的相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:
[0082]
步骤s301,针对每一第一词向量,确定每一第一词向量对应的目标词语;
[0083]
步骤s302,根据目标词语,确定目标第二词向量;
[0084]
步骤s303,计算第一词向量和目标第二词向量之间的余弦相似度;
[0085]
步骤s304,基于余弦相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量。
[0086]
具体地,上述步骤s301中,针对词向量转化模型得到的多个第一词向量,可以根据训练后的词向量转化模型的词表查询每个第一词向量在金融领域语料中具体对应的目标词语,然后在步骤s302中根据该目标词语对预训练的大型语言模型的词表进行查询,确定该目标词语对应的目标第二词向量。
[0087]
进一步地,根据同一个词语对应的第一词向量和目标第二词向量,通过计算两者之间的余弦相似度来对两者之间的相似度进行评判。具体地,余弦相似度的是基于向量的夹角来计算两个向量之间的相似度。假设有两个词向量a和b,它们的夹角为θ,那么它们的
余弦相似度可以表示为:
[0088][0089]
其中,a
·
b表示词向量a和词向量b的点积,||a||和||b||分别表示词向量a和词向量b的模长。余弦相似度的取值范围在-1到1之间,当两个词向量的夹角为0度时,余弦相似度为1,表示它们完全相似;当两个词向量的夹角为90度时,余弦相似度为0,表示它们完全不相似;当两个词向量的夹角为180度时,余弦相似度为-1,表示它们完全相反。
[0090]
按照上述方法对同一个词语对应的第一词向量和目标第二词向量的余弦相似度进行计算,即可直观地呈现两者的相似度,并进而可以为两者赋予其各自的权重,并进行加权融合,得到该词语对应的第三词向量。
[0091]
本实施例通过计算同一个词语对应的第一词向量和目标第二词向量的余弦相似度,客观地对两个向量之间的相似度进行评估,并进一步根据余弦相似度对两者进行加权融合获得第三词向量,其有利于获得更能结合第一词向量和目标第二词向量的表示能力的第三词向量,可以更好得对金融领域语料中的词语进行表征。
[0092]
在一个实施例中,上述步骤基于余弦相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:为目标第二词向量配置与余弦相似度相等的第一加权融合比例,根据第一加权融合比例为第一词向量配置第二加权融合比例;第一加权融合比例与第二加权融合比例之和为1;根据第一加权融合比例、第二加权融合比例将目标第二词向量与第一词向量加权融合为第三词向量。
[0093]
具体地,本实施例中根据目标第二词向量与第一词向量之间的余弦相似度,为目标第二词向量配置与余弦相似度相等的第一加权融合比例,并进一步根据第一加权融合比例配置与第一词向量对应的第二加权融合比例。其中,第一加权融合比例和第二加权融合比例之和为1。然后进一步地,根据两个加权融合比例,将目标第二词向量与第一词向量加权融合为第三词向量。上述过程可用下式表示:
[0094]
embeding
sim
=similarity*embeding2+(1-similarity)embeding1[0095]
其中,embeding
sim
表示第三词向量,embeding2表示目标第二词向量,embeding1表示第一词向量,similarity表示与余弦相似度相等的第一加权融合比例,(1-similarity)表示第二加权融合比例。
[0096]
示例性地,对于句子“查询账户余额”,对其中每个词语对应的目标第二词向量和第一词向量的余弦相似度进行计算,得到结果为“查:0.83、询:0.71、账:0.66、户:0.61、余:0.71、额:0.79”,则可以根据该结果确定其中每个词语对应的第一加权融合比例和第二加权融合比例,并计算出每个词语对应的第三词向量为“查:[0.1,0.6,0.3,...,0.9]、询:[0.3,0.2,0.7,...,0.5]、账:[0.7,0.8,0.2,...,0.3]、户:[0.6,0.5,0.3,...,0.7]、余:[0.5,0.3,0.6,...,0.4]、额:[0.2,0.5,0.5,...,0.6]”。
[0097]
本实施例为目标第二词向量配置与余弦相似度相等的第一加权融合比例,然后为第一词向量配置相应的第二加权融合比例,再根据两个加权融合比例对两者进行融合,其可以通过简单的运算过程,获得第三词向量。其中当第一词向量和目标第二词向量更相似时,第三词向量更接近目标第二词向量,而当第一词向量和目标第二词向量更不相似时,第三词向量更接近第一词向量,其可以最大限度保留预训练的大型语言模型中经过长时间和
大量数据的训练结果,并且能够用第一词向量弥补该模型在金融领域中的不足。
[0098]
在一个实施例中,该词向量转化模型为word2vec模型;该预训练的大型语言模型为使用通用语料进行预训练的bert模型。
[0099]
具体地,word2vec模型是一种基于神经网络的轻量级自然语言处理技术,其通过训练神经网络来学习单词之间的关系,从而将单词转换为向量。其中,word2vec模型主要包括cbow和skip-gram模型,cbow模型是通过上下文单词来预测中心单词,而skip-gram模型是通过中心单词来预测上下文单词,在具体使用时可根据实际任务处理需要选择其中一种模型使用。
[0100]
使用金融领域语料对word2vec模型进行训练时,可以对模型中词向量的维度、窗口大小、负采样的数量等参数进行设置,例如可以设置窗口大小为5,并根据后续要使用的bret模型的词向量维度,将word2vec模型的词向量的维度设置为768。在训练过程中,word2vec模型会根据词语的上下文关系来更新词语的向量表示,从而实现对单词的语义分析和语义相似度计算,并且通过不断调整神经网络的权重,使得单词向量能够更好地表示单词之间的关系。完成训练后,即可获得金融领域语料对应的多个第一词向量。
[0101]
另一方面,本实施例中使用通用语料预训练的bert模型作为预训练的大型语言模型。bert模型是一种基于transformer架构的预训练语言模型,其主要由三个部分组成:输入嵌入层、transformer编码器和输出层。其中,输入嵌入层是bert模型的第一层,它负责将输入的文本转换成向量表示,为后续的transformer编码器提供输入。进一步地,bert模型的输入嵌入层主要包括词嵌入层(token embedding)、片段嵌入层(segment embedding)、位置嵌入层(position embedding)。其中,词嵌入层用于将输入的文本转换成向量表示,其根据预训练获得的词表,将输入的文本中的词语转换成对应的词向量。而片段嵌入层和位置嵌入层则分别用于处理句子级别任务和序列级别任务。
[0102]
本实施例中,先根据使用通用语料进行预训练的bert模型的词嵌入层携带的词表,获取其中的多个第二词向量。然后根据word2vec模型获得的多个第一词向量,确定其中每个第一词向量对应的目标第二词向量。并进一步地,根据同一个词语对应的第一词向量和目标第二词向量之间的相似度对两者进行加权融合,得到该词语对应的第三词向量。然后再使用该第三词向量对bert模型进行调整,使其可以适用于金融领域的任务处理中。
[0103]
本实施例使用成熟且轻量化的word2vec模型进行金融领域语料的学习,可以用较低的时间和精力成本获取具有较好表征能力的第一词向量。另一方面,本实施例使用预训练的bert模型作为预训练的大型语言模型,其可以充分利用经过大量数据和时间进行预训练的bert自身具备的优秀性能,通过第三词向量对预训练的bert进行调整,可以快速获得能够在于金融领域任务处理中发挥良好效果的语言处理模型。
[0104]
在一个实施例中,如图4所示,提供了一种模型进行金融领域任务处理的词嵌入方法,其包括以下步骤:
[0105]
步骤s401,获取金融领域语料;
[0106]
步骤s402,对金融领域语料进行清洗处理和分词处理,得到第一金融领域语料文本;
[0107]
步骤s403,使用第一金融领域语料文本训练word2vec模型,得到与金融领域语料对应的多个第一词向量;
[0108]
步骤s404,获取预训练的bert模型预训练得到的通用语料对应的多个第二词向量;
[0109]
步骤s405,针对每一第一词向量,确定每一第一词向量对应的目标词语;
[0110]
步骤s406,根据目标词语,确定目标第二词向量;
[0111]
步骤s407,计算第一词向量和目标第二词向量之间的余弦相似度;
[0112]
步骤s408,基于余弦相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量;
[0113]
步骤s409,根据第三词向量调整预训练的bert模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与第三词向量对应的词语转换成第三词向量;
[0114]
步骤s410,使用包含调整后的词嵌入层的预训练的bert模型进行金融领域的任务处理。
[0115]
本实施例中使用word2vec模型作为词向量转化模型,使用预训练的bert模型作为进行金融领域的任务处理的预训练的大型语言模型,通过word2vec模型训练得到的金融领域语料对应的第一词向量和预训练的bert模型原有的第二词向量进行融合,得到第三词向量,并以其对预训练的bert模型的词嵌入层进行调整,使预训练的bert模型能够具备金融领域的任务处理能力。
[0116]
具体地,上述各步骤的实现方式可以参考上述实施例中的叙述,此处不再赘述。
[0117]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0118]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的模型进行金融领域任务处理的词嵌入方法的模型进行金融领域任务处理的词嵌入装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个模型进行金融领域任务处理的词嵌入装置实施例中的具体限定可以参见上文中对于模型进行金融领域任务处理的词嵌入方法的限定,在此不再赘述。
[0119]
在一个实施例中,如图5所示,提供了一种模型进行金融领域任务处理的词嵌入装置500,包括:
[0120]
第一词向量获取模块501,用于获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;
[0121]
第二词向量获取模块502,用于获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;
[0122]
融合模块503,用于针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;
[0123]
应用模块504,用于将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。
[0124]
在一个实施例中,应用模块504还用于:根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与所述第三词向量对应的词语转换成所述第三词向量;使用包含所述调整后的词嵌入层的预训练的大型语言模型进行金融领域的任务处理。
[0125]
在一个实施例中,应用模块504还用于:根据所述第三词向量对所述多个第二词向量进行更新,得到更新词向量集合;所述更新包括将所述多个第二词向量中与所述第三词向量对应的目标第二词向量替换成所述第三词向量;根据所述更新词向量集合调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料转换成所述更新词向量集合中对应的词向量。
[0126]
在一个实施例中,应用模块504还用于:根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层判断输入的语料中的词语是否有对应的第三词向量;如有,将所述词语转换为所述第三词向量;否则,将所述词语转换为对应的第二词向量。
[0127]
在一个实施例中,第一词向量获取模块501还用于:获取金融领域语料;对所述金融领域语料进行清洗处理和分词处理,得到第一金融领域语料文本;使用所述第一金融领域语料文本训练所述词向量转化模型,得到与金融领域语料对应的多个第一词向量。
[0128]
在一个实施例中,融合模块503还用于:针对每一第一词向量,确定所述每一第一词向量对应的目标词语;根据所述目标词语,确定所述目标第二词向量;计算所述第一词向量和所述目标第二词向量之间的余弦相似度;基于所述余弦相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量。
[0129]
在一个实施例中,融合模块503还用于:为所述目标第二词向量配置与所述余弦相似度相等的第一加权融合比例,根据所述第一加权融合比例为所述第一词向量配置第二加权融合比例;所述第一加权融合比例与第二加权融合比例之和为1;根据所述第一加权融合比例、第二加权融合比例将所述目标第二词向量与第一词向量加权融合为所述第三词向量。
[0130]
在一个实施例中,所述词向量转化模型为word2vec模型;所述预训练的大型语言模型为使用通用语料进行预训练的bert模型。
[0131]
上述模型进行金融领域任务处理的词嵌入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0132]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算
机程序的运行提供环境。该计算机设备的数据库可用于存储金融领域语料、第一词向量、第二词向量、第三词向量等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型进行金融领域任务处理的词嵌入方法。
[0133]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0134]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0135]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0136]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0137]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0138]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0139]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0140]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种模型进行金融领域任务处理的词嵌入方法,其特征在于,所述方法包括:获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。2.根据权利要求1所述的方法,其特征在于,所述将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理,包括:根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与所述第三词向量对应的词语转换成所述第三词向量;使用包含所述调整后的词嵌入层的预训练的大型语言模型进行金融领域的任务处理。3.根据权利要求2所述的方法,其特征在于,所述根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与所述第三词向量对应的词语转换成所述第三词向量,包括:根据所述第三词向量对所述多个第二词向量进行更新,得到更新词向量集合;所述更新包括将所述多个第二词向量中与所述第三词向量对应的目标第二词向量替换成所述第三词向量;根据所述更新词向量集合调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料转换成所述更新词向量集合中对应的词向量。4.根据权利要求2所述的方法,其特征在于,所述根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层可将输入的语料中与所述第三词向量对应的词语转换成所述第三词向量,包括:根据所述第三词向量调整所述预训练的大型语言模型的词嵌入层,使调整后的词嵌入层判断输入的语料中的词语是否有对应的第三词向量;如有,将所述词语转换为所述第三词向量;否则,将所述词语转换为对应的第二词向量。5.根据权利要求1所述的方法,其特征在于,所述获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量,包括:获取金融领域语料;对所述金融领域语料进行清洗处理和分词处理,得到第一金融领域语料文本;使用所述第一金融领域语料文本训练所述词向量转化模型,得到与金融领域语料对应的多个第一词向量。6.根据权利要求1所述的方法,其特征在于,所述针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:针对每一第一词向量,确定所述每一第一词向量对应的目标词语;根据所述目标词语,确定所述目标第二词向量;计算所述第一词向量和所述目标第二词向量之间的余弦相似度;
基于所述余弦相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量。7.根据权利要求5所述的方法,其特征在于,所述基于所述余弦相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量,包括:为所述目标第二词向量配置与所述余弦相似度相等的第一加权融合比例,根据所述第一加权融合比例为所述第一词向量配置第二加权融合比例;所述第一加权融合比例与第二加权融合比例之和为1;根据所述第一加权融合比例、第二加权融合比例将所述目标第二词向量与第一词向量加权融合为所述第三词向量。8.根据权利要求1至7任意一项所述的方法,其特征在于,所述词向量转化模型为word2vec模型;所述预训练的大型语言模型为使用通用语料进行预训练的bert模型。9.一种模型进行金融领域任务处理的词嵌入装置,其特征在于,所述装置包括:第一词向量获取模块,用于获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;第二词向量获取模块,用于获取预训练的大型语言模型预训练得到的通用语料对应的多个第二词向量;所述通用语料对应的多个第二词向量取自所述预训练的大型语言模型的词嵌入层;融合模块,用于针对每一第一词向量,根据目标第二词向量与所述第一词向量的相似度,对所述目标第二词向量与第一词向量进行加权融合,得到第三词向量;所述目标第二词向量为所述多个第二词向量中与所述第一词向量对应同一词语的第二词向量;应用模块,用于将所述第三词向量运用于所述预训练的大型语言模型在金融领域的任务处理。10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本申请涉及一种模型进行金融领域任务处理的词嵌入方法、装置、设备、介质和产品,涉及人工智能技术及金融科技领域。所述方法包括:获取词向量转化模型训练得到的金融领域语料对应的多个第一词向量;获取预训练的大型语言模型预训练得到的多个第二词向量;针对每一第一词向量,根据目标第二词向量与第一词向量的相似度,对目标第二词向量与第一词向量进行加权融合,得到第三词向量;目标第二词向量为多个第二词向量中与第一词向量对应同一词语的第二词向量;将第三词向量运用于预训练的大型语言模型在金融领域的任务处理。采用本方法能够低成本高效率地对预训练的大型语言模型进行调整,使其可以在金融领域的任务处理上获得更好的处理效果。更好的处理效果。更好的处理效果。


技术研发人员:胡玉杰 赵吉昆 胡凤校 杨嘉欣
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.06.13
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐