一种文本类电子证据的特征提取方法及系统与流程
未命名
08-22
阅读:112
评论:0
1.本发明涉及深度学习技术领域,具体涉及一种文本类电子证据的特征提取方法及系统。
背景技术:
2.随着移动互联网的高速发展,网络上产生的文本类电子证据的信息量急剧增长,如何高效地从文本类电子证据中提取出有用的信息是文本检索和数据挖掘等技术首要解决的问题。
3.目前通常采用诸如词频统计等传统文本特征提取方法来提取文本类电子证据的特征,但是前述传统文本特征提取方法难以处理文本中的复杂关系和非线性特征,提取文本特征的准确性较差和精度较差。
技术实现要素:
4.有鉴于此,本发明实施例提供一种文本类电子证据的特征提取方法及系统,以解决传统文本特征提取方法存在的提取文本特征的准确性较差和精度较差等问题。
5.为实现上述目的,本发明实施例提供如下技术方案:
6.本发明实施例第一方面公开一种文本类电子证据的特征提取方法,所述方法包括:
7.利用预设的词向量模型处理文本类电子证据,以提取得到所述文本类电子证据的原始特征词向量;
8.将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,所述卷积神经网络模型包含输入层、卷积层、池化层和全连接层,所述卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层。
9.优选的,将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,包括:
10.将所述原始特征词向量进行拼接以形成词向量矩阵;
11.通过预设的卷积神经网络的输入层将所述词向量矩阵传递给所述卷积神经网络的卷积层;
12.利用所述卷积层对所述词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的所述一组一维特征向量传递给所述卷积神经网络的池化层;
13.利用所述池化层对所述一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,并将所述归一化后的特征向量传递给所述卷积神经网络的全连接层;
14.利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。
15.优选的,利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征,包括:
16.利用配置有dropout算法的所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。
17.优选的,所述卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,所述卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。
18.优选的,所述方法还包括:
19.将所述文本类电子证据的特征上传至区块链上。
20.本发明实施例第二方面公开一种文本类电子证据的特征提取系统,所述系统包括:
21.第一提取单元,用于利用预设的词向量模型处理文本类电子证据,以提取得到所述文本类电子证据的原始特征词向量;
22.第二提取单元,用于将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,所述卷积神经网络模型包含输入层、卷积层、池化层和全连接层,所述卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层。
23.优选的,所述第二提取单元包括:
24.拼接模块,用于将所述原始特征词向量进行拼接以形成词向量矩阵;
25.传递模块,用于通过预设的卷积神经网络的输入层将所述词向量矩阵传递给所述卷积神经网络的卷积层;
26.第一处理模块,用于利用所述卷积层对所述词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的所述一组一维特征向量传递给所述卷积神经网络的池化层;
27.第二处理模块,用于利用所述池化层对所述一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,并将所述归一化后的特征向量传递给所述卷积神经网络的全连接层;
28.第三处理模块,用于利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。
29.优选的,所述第三处理模块具体用于:利用配置有dropout算法的所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。
30.优选的,所述卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,所述卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。
31.优选的,所述系统还包括:
32.上传单元,用于将所述文本类电子证据的特征上传至区块链上。
33.基于上述本发明实施例提供的一种文本类电子证据的特征提取方法及系统,该方法为:利用预设的词向量模型处理文本类电子证据,以提取得到文本类电子证据的原始特征词向量;将原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到文本类电子证据的特征。本方案中,先利用词向量模型提取文本类电子证据的原始特征词向量,再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的
特征,从而提高提取文本特征的准确性和精度。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
35.图1为本发明实施例提供的一种文本类电子证据的特征提取方法的流程图;
36.图2为本发明实施例提供的文本类电子证据的特征提取方法的原理示意图;
37.图3为本发明实施例提供的利用卷积神经网络提取文本类电子证据的特征的流程图;
38.图4为本发明实施例提供的普通卷积层的示意图;
39.图5为本发明实施例提供的空洞卷积层的示意图;
40.图6为本发明实施例提供的一种文本类电子证据的特征提取系统的结构框图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
43.由背景技术可知,目前通常采用词频统计等传统文本特征提取方法来提取文本类电子证据的特征,但是传统文本特征提取方法难以处理文本中的复杂关系和非线性特征,提取文本特征的准确性较差和精度较差。
44.因此本发明实施例提供一种文本类电子证据的特征提取方法及系统,先利用词向量模型提取文本类电子证据的原始特征词向量,再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的特征,从而提高提取文本特征的准确性和精度。
45.参见图1,示出了本发明实施例提供的一种文本类电子证据的特征提取方法的流程图,该特征提取方法包括:
46.步骤s101:利用预设的词向量模型处理文本类电子证据,以提取得到文本类电子证据的原始特征词向量。
47.在具体实现步骤s101的过程中,利用词向量模型处理文本类电子证据从而提取得到该文本类电子证据的原始特征词向量;具体来说,利用词向量模型训练文本类电子证据从而提取得到该文本类电子证据的原始特征词向量。
48.需要说明的是,文本类电子证据是文本类电子数据的其中一种表现形式。
49.一些具体实施例中,词向量模型可以是word2vec模型。
50.步骤s102:将原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到文本类电子证据的特征。
51.需要说明的是,本方案提供的卷积神经网络模型包含输入层、卷积层、池化层和全连接层;该卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层,例如:该卷积层包含3个卷积核大小不同的普通卷积层和23个空洞率不同的空洞卷积层。
52.在具体实现步骤s102的过程中,将文本类电子证据的原始特征词向量由卷积神经网络的输入层输入到卷积层,再由卷积层和池化层进行特征提取后输入到全连接层,经过全连接层不断地更新相关计算的参数,最后输出文本类电子证据的特征(相当于文本类特征向量)。
53.为更好解释说明如何利用卷积神经网络提取文本类电子证据的特征,通过图2提供的文本类电子证据的特征提取方法的原理示意图进行举例说明。
54.如图2所示,本方案所提供的卷积神经网络至少包含输入层、卷积层、池化层和全连接层;将文本类电子证据的原始特征词向量由卷积神经网络的输入层输入到卷积层,再由卷积层和池化层进行特征提取,提取结束后将所提取的特征输入到全连接层进行处理,最后输出文本类电子证据的特征。
55.一些实施例中,通过卷积神经网络提取得到文本类电子证据的特征之后,将文本类电子证据的特征上传至区块链上。
56.在本发明实施例中,先利用词向量模型提取文本类电子证据的原始特征词向量,再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的特征,从而提高提取文本特征的准确性和精度。
57.上述本发明实施例图1步骤s102中提及的提取文本类电子证据的特征的过程,参见图3,示出了利用卷积神经网络提取文本类电子证据的特征的流程图,图3包括以下步骤:
58.步骤s301:将原始特征词向量进行拼接以形成词向量矩阵。
59.在具体实现步骤s301的过程中,利用词向量模型提取得到文本类电子证据的原始特征词向量之后,将原始特征词向量进行拼接以形成词向量矩阵,词向量矩阵相当于多堆叠词向量,词向量矩阵可以记为w={w1,w2,
…
,wn},其中,w1为词向量矩阵中的一行向量,w1代表一个n维的词向量。
60.步骤s302:通过预设的卷积神经网络的输入层将词向量矩阵传递给卷积神经网络的卷积层。
61.在具体实现步骤s302的过程中,原始特征词向量经过拼接形成词向量矩阵后,将该词向量矩阵作为卷积神经网络的输入层的输入,通过该输入层将词向量矩阵传递给卷积神经网络的卷积层进行特征提取。
62.步骤s303:利用卷积层对词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的一组一维特征向量传递给卷积神经网络的池化层。
63.需要说明的是,由于卷积层对图像进行特征提取时需要在上下左右周围四个方向全面的进行滑动卷积操作,故卷积层在做图像识别提取时通常使用的卷积核为正方形。
64.而在本方案中,由输入层输入的词向量矩阵的每个向量都是由词向量拼接组成
的,每个词语的维数都是相同的,所以将卷积层的卷积核宽度设定成词向量维数的数值来使得词语作为文本处理的最小粒度计算单元;这样在卷积层中对文本类电子证据进行特征提取时只需要在词向量矩阵中左右滑动进行卷积操作,使得卷积核的每一次计算范围都是完整的词向量,不会出现只卷积计算部分词向量的情况,从而提高文本类电子证据的特征提取的精准性。
65.卷积核的卷积计算公式详见公式(1)。
66.yi=f(σwi·
x
i+h-1
+b)(1)
67.在公式(1)中,yi为由词向量组合x
i+h-1
对应窗口进行卷积得到的特征,wi为卷积核所对应的权重矩阵,x
i+h-1
为第i+h-1行的词向量组合,b为偏置参数,f为选用的激活函数。
68.基于上述内容,本方案对卷积神经网络的卷积层进行改进,本方案的卷积神经网络的卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层,例如:本方案的卷积神经网络的卷积层包含3个卷积核大小不同的普通卷积层和23个空洞率不同的空洞卷积层,如图4为大小为3x3的普通卷积层的示意图,图5为空洞率为2的空洞卷积层的示意图。
69.具体来说,本方案改进的卷积神经网络中,第一、二、三个普通卷积层中的卷积核宽度h分别设置为2、4、6,第一、二、三个空洞卷积层中卷积核的空洞率分别设置为2、3、4,普通卷积层和空洞卷积层的卷积核数量分布都为200、256、300。
70.更具体来说,第一个普通卷积层中的卷积核宽度设置为词向量的维度,第二个普通卷积层中的卷积核宽度设置为词向量维度的2倍。通过此种方式,本方案可以利用不同大小的卷积核来捕捉不同长度的语义特征;较大的卷积核可以覆盖更多的单词以及可以提取更长的语义特征,而较小的卷积核可以提取更短的语义特征。通过使用不同大小的卷积核可以更加全面地捕捉文本数据中的语义信息,从而为文本类电子证据的分析提供更加准确和更加高效的技术手段。
71.经验证发现,本方案改进的卷积神经网络,可以有效解决在一般情况下只使用普通卷积层进行卷积运算时造成向量矩阵空间信息提取不全以及内部数据紊乱的问题,增强了文本类电子证据特征提取的精确度。
72.本方案在选取激活函数时,选取了leakyrelu激活函数和tanh激活函数,由于leakyrelu激活函数在输入小于0时也会有输出,因此leakyrelu激活函数能够在一定程度上缓解relu激活函数在负数区间的饱和问题,减少梯度消失的风险。tanh激活函数是一种将输入映射到-1至1之间的函数,tanh激活函数具有平滑、单调递增等特性,能够将输出限制在一定范围内,tanh激活函数的输出均值为0,能够使得网络更容易学习偏移量。
73.一些实施例中,本方案中卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。也就是说,本方案提供的卷积神经网络中的第一个普通卷积层和第一个空洞卷积层使用leakyrelu激活函数,第二个普通卷积层和第二个空洞卷积层使用tanh激活函数。
74.leakyrelu激活函数和tanh激活函数的具体内容分别详见公式(2)和公式(3)。
75.leakyrelu(x)=max(ax,x)(2)
[0076][0077]
在公式(2)中,a为一个小于1的常数。
[0078]
以上内容是关于本方案卷积神经网络的卷积层和激活函数的相关说明;在具体实现步骤s303的过程中,利用卷积层对词向量矩阵进行特征提取以得到一组一维特征向量(一组对应的一维特征向量),具体来说,将词向量矩阵的每个词语窗口通过卷积层进行特征提取,从而得到一组一维特征向量,其表达公式定义如公式(4)。
[0079]
y=[y1,y2,
…
,y
n-h+1
]
ꢀꢀꢀ
(4)
[0080]
在公式(4)中,y为由卷积层中一个卷积核输出的一个一维的特征向量,“y1,y2,
…
,y
n-h+1”表示每次窗口滑动提取出的特征向量。
[0081]
利用卷积层提取得到一组一维特征向量之后,将提取得到的一组一维特征向量传递给卷积神经网络的池化层进行后续处理。
[0082]
步骤s304:利用池化层对一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,并将归一化后的特征向量传递给卷积神经网络的全连接层。
[0083]
需要说明的是,在卷积神经网络中,池化层用于降低卷积层输出的特征向量(也称为特征图)的空间分辨率,同时保留重要的特征。本方案在池化层中采用l2范数池化方法来将卷积层中输出结果进行二次缩减。
[0084]
在具体实现步骤s304的过程中,利用池化层对一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,归一化后的特征向量可以作为文本表示的重要特征,l2范数池化方法的计算公式详见公式(5)。
[0085][0086]
在公式(5)中,y的具体内容参见公式(4),y
*
为对y表示的一维特征向量进行池化操作得到的值。
[0087]
需要说明的是,本方案为了应对不同长度的文本数据,通过池化操作来进行特征提取;具体来说,通过使用多个卷积核对词向量窗口进行特征提取,可以得到一维特征向量;为了对整个文本(也就是文本类电子证据)进行表示,需要将所有池化结果按照顺序拼接在一起,形成一个完整的文本特征向量(也就是归一化后的特征向量,相当于经过归一化及拼接操作后得到的特征向量)。
[0088]
利用池化层得到归一化后的特征向量之后,将该归一化后的特征向量传递给卷积神经网络的全连接层进行后续处理。
[0089]
步骤s305:利用全连接层处理归一化后的特征向量以得到文本类电子证据的特征。
[0090]
在具体实现步骤s305的过程中,利用配置有dropout算法的全连接层处理归一化后的特征向量以得到文本类电子证据的特征;具体来说,由全连接层利用dropout算法对归一化后的特征向量进行处理,从而提取得到文本类电子证据的特征。
[0091]
需要说明的是,dropout算法可以解决全连接算法训练神经网络时出现的过拟合和训练时间过程的问题;dropout算法的原理是:在每次网络训练之前以概率p删除网络中的输入向量的一部分,这样每轮更新只会在保留的向量中进行操作。在每轮训练结束后,被
删除的向量部分会恢复,以p的概率重新进行下一轮的删除。在最终预测时,将网络参数乘以1-p以输出最终的结果。dropout算法在训练过程中随机淘汰样本,从而使得神经网络更新的参数可以涉及到各种不同的情况,避免了共适应现象,从而缓解了整个神经网络出现过拟合的问题。
[0092]
本方案应用dropout算法时,卷积神经网络的输出结果定义为公式(6)。
[0093]
g=[y1
*
,y2
*
,
…
,ym
*
](6)
[0094]
已知一种伯努利分布也是按照相应概率p随机删除数据,故本方案继续使用dropout算法将特征向量按照伯努利分布生成与g相同维度的向量r,具体内容详见公式(7)。
[0095]
r~bernoulli(p)(7)
[0096]
基于上述内容,本方案中卷积神经网络的全连接层输出的特征如公式(8)。
[0097][0098]
在公式(8)中,为按照元素进行乘法的过程,在前向传播的梯度计算中也只在未删除的单元上进行训练学习。
[0099]
以上是关于如何利用卷积神经网络来提取文本类电子证据的特征的相关说明。
[0100]
通过以上各个实施例的内容可见,本方案首先利用词向量模型提取文本类电子证据的原始特征词向量,从而还原文本的语义信息;接下来采用增加空洞卷积层和调整了卷积核个数的卷积神经网络,来对原始特征词向量进行特征提取,从而得到具有代表性的文本类电子证据的特征。在此基础上,本方案还通过特征选择和降维等方法进一步提高特征的质量和减少特征的数量,最后在全连接层完成对特征的分类,将利用权值矩阵拼接的完整特征图(文本类电子证据的特征)进行输出。
[0101]
具体而言,本方案的卷积神经网络的输入层接收到的是词向量矩阵;卷积层设置合适且不同尺寸的卷积核,优化激活函数,从而用于卷积计算来提取文本语义并进行拼接;池化层选用l2池化范数,用于进一步减少特征向量的数据量;最后的全连接层则起到分类的作用,将利用权值矩阵拼接的完整特征图(文本类电子证据的特征)进行输出。在前述整个过程中,通过卷积、池化等操作,本方案的卷积神经网络能够有效地提取文本中的特征,从而实现对文本类电子证据的特征提取。
[0102]
与上述本发明实施例提供的一种文本类电子证据的特征提取方法相对应,参见图6,本发明实施例还提供了一种文本类电子证据的特征提取系统的结构框图,该特征提取系统包括:第一提取单元601和第二提取单元602;
[0103]
第一提取单元601,用于利用预设的词向量模型处理文本类电子证据,以提取得到文本类电子证据的原始特征词向量。
[0104]
第二提取单元602,用于将原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到文本类电子证据的特征,卷积神经网络模型包含输入层、卷积层、池化层和全连接层,卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层。
[0105]
一些实施例中,卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。
[0106]
在本发明实施例中,先利用词向量模型提取文本类电子证据的原始特征词向量,
再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的特征,从而提高提取文本特征的准确性和精度。
[0107]
优选的,结合图6示出的内容,该第二提取单元602包括拼接模块、传递模块、第一处理模块、第二处理模块、第三处理模块;各个模块的执行原理如下:
[0108]
拼接模块,用于将原始特征词向量进行拼接以形成词向量矩阵。
[0109]
传递模块,用于通过预设的卷积神经网络的输入层将词向量矩阵传递给卷积神经网络的卷积层。
[0110]
第一处理模块,用于利用卷积层对词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的一组一维特征向量传递给卷积神经网络的池化层。
[0111]
第二处理模块,用于利用池化层对一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,并将归一化后的特征向量传递给卷积神经网络的全连接层。
[0112]
第三处理模块,用于利用全连接层处理归一化后的特征向量以得到文本类电子证据的特征。
[0113]
具体实现中,第三处理模块具体用于:利用配置有dropout算法的全连接层处理归一化后的特征向量以得到文本类电子证据的特征。
[0114]
优选的,结合图6示出的内容,该特征提取系统还包括:
[0115]
上传单元,用于将文本类电子证据的特征上传至区块链上。
[0116]
综上所述,本发明实施例提供一种文本类电子证据的特征提取方法及系统,先利用词向量模型提取文本类电子证据的原始特征词向量,再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的特征,从而提高提取文本特征的准确性和精度。
[0117]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0118]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0119]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最
宽的范围。
技术特征:
1.一种文本类电子证据的特征提取方法,其特征在于,所述方法包括:利用预设的词向量模型处理文本类电子证据,以提取得到所述文本类电子证据的原始特征词向量;将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,所述卷积神经网络模型包含输入层、卷积层、池化层和全连接层,所述卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层。2.根据权利要求1所述的方法,其特征在于,将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,包括:将所述原始特征词向量进行拼接以形成词向量矩阵;通过预设的卷积神经网络的输入层将所述词向量矩阵传递给所述卷积神经网络的卷积层;利用所述卷积层对所述词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的所述一组一维特征向量传递给所述卷积神经网络的池化层;利用所述池化层对所述一组一维特征向量进行l2范数归一化以得到归一化后的特征向量,并将所述归一化后的特征向量传递给所述卷积神经网络的全连接层;利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。3.根据权利要求2所述的方法,其特征在于,利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征,包括:利用配置有dropout算法的所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。4.根据权利要求1至3中任一所述的方法,其特征在于,所述卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,所述卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述文本类电子证据的特征上传至区块链上。6.一种文本类电子证据的特征提取系统,其特征在于,所述系统包括:第一提取单元,用于利用预设的词向量模型处理文本类电子证据,以提取得到所述文本类电子证据的原始特征词向量;第二提取单元,用于将所述原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到所述文本类电子证据的特征,所述卷积神经网络模型包含输入层、卷积层、池化层和全连接层,所述卷积层包含n个卷积核大小不同的普通卷积层和m个空洞率不同的空洞卷积层。7.根据权利要求6所述的系统,其特征在于,所述第二提取单元包括:拼接模块,用于将所述原始特征词向量进行拼接以形成词向量矩阵;传递模块,用于通过预设的卷积神经网络的输入层将所述词向量矩阵传递给所述卷积神经网络的卷积层;第一处理模块,用于利用所述卷积层对所述词向量矩阵进行特征提取以得到一组一维特征向量,并将提取得到的所述一组一维特征向量传递给所述卷积神经网络的池化层;第二处理模块,用于利用所述池化层对所述一组一维特征向量进行l2范数归一化以得
到归一化后的特征向量,并将所述归一化后的特征向量传递给所述卷积神经网络的全连接层;第三处理模块,用于利用所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。8.根据权利要求7所述的系统,其特征在于,所述第三处理模块具体用于:利用配置有dropout算法的所述全连接层处理所述归一化后的特征向量以得到所述文本类电子证据的特征。9.根据权利要求6至8中任一所述的系统,其特征在于,所述卷积层所包含的第一个普通卷积层和第一个空洞卷积层配置leakyrelu激活函数,所述卷积层所包含的第二个普通卷积层和第二个空洞卷积层配置tanh激活函数。10.根据权利要求6所述的系统,其特征在于,所述系统还包括:上传单元,用于将所述文本类电子证据的特征上传至区块链上。
技术总结
本发明提供了一种文本类电子证据的特征提取方法及系统,该方法为:利用预设的词向量模型处理文本类电子证据,以提取得到文本类电子证据的原始特征词向量;将原始特征词向量输入预设的卷积神经网络进行特征提取,以提取得到文本类电子证据的特征。本方案中,先利用词向量模型提取文本类电子证据的原始特征词向量,再利用预设的卷积神经网络对原始特征词向量进行特征提取以提取得到文本类电子证据的特征,从而提高提取文本特征的准确性和精度。从而提高提取文本特征的准确性和精度。从而提高提取文本特征的准确性和精度。
技术研发人员:杨珂 陈鹏 郭庆雷 王合建 李永亮 杨成 高博 李学锋 于晓昆 马小小
受保护的技术使用者:国网区块链科技(北京)有限公司 国网宁夏电力有限公司 国网宁夏电力有限公司电力科学研究院 国家电网有限公司
技术研发日:2023.06.02
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
