基于价值量表的文本价值计算方法及装置

未命名 09-08 阅读:76 评论:0


1.本发明实施例涉及人工智能技术领域,具体涉及一种基于价值量表的文本价值计算方法及装置。


背景技术:

2.随着科技的发展,进入自媒体时代,自媒体与传统的媒体生态不同,传统的媒体生态主要由专业主体生产和发布信息,信息具有较高的公信力和严格的内容把关等特征。自媒体时代,任何人都能够通过互联网创作和发布内容,使得网络中传播的信息质量严重缺乏保障。各个媒体平台的内容良莠不齐,存在大量价值取向不高的内容。由于这类内容生产成本低,接受门槛低,网络中存在着大量低价值内容,易导致低价值内容的过度传播,对主流价值观内容的传播构成挑战。如果不加引导地任由低价值内容自由生长,无用、不良等信息将会在网络中泛滥,污染网络空间,对社会风气也会产生负面影响,潜移默化地带偏公众的价值观。
3.现有的网络信息引导方法主要包括如谣言检测、舆情监测、标准制定、流行度预测等。以上各方法的主要目的是鉴别伪造信息、监测热点事件的发展态势等。如标准制定是通过制定相关的标准和规范,明确发布网络信息的内容和形式,从而对信息的发布者和传播者进行管理和引导,但这种方法较为刻板,缺乏灵活性。在信息流行度预测当中,一般认为拥有较大流行度的信息往往具有更大的价值,但这与实际存在偏差,如哗众取宠、廉价的低价值信息有时反而更容易流传。因此,需要从价值层面对网络内容的文本进行价值计算,而不仅仅局限于关注伪造或热点等片面性的内容。


技术实现要素:

4.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于价值量表的文本价值计算方法及装置。
5.根据本发明实施例的一个方面,提供了一种基于价值量表的文本价值计算方法,其包括:
6.对文本进行分词处理,得到包含多个关键词的关键词集合;
7.基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;
8.根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。
9.根据本发明实施例的另一方面,提供了一种基于价值量表的文本价值计算装置,装置包括:
10.分词模块,适于对文本进行分词处理,得到包含多个关键词的关键词集合;
11.匹配模块,适于基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节
点包括节点关键词;
12.价值计算模块,适于根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。
13.根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
14.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于价值量表的文本价值计算方法对应的操作。
15.根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于价值量表的文本价值计算方法对应的操作。
16.根据本发明实施例的提供的基于价值量表的文本价值计算方法及装置,将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。
17.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
18.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
19.图1示出了根据本发明一个实施例的基于价值量表的文本价值计算方法的流程图;
20.图2示出了更新预设价值量表的流程图;
21.图3示出了根据本发明一个实施例的基于价值量表的文本价值计算装置的结构示意图;
22.图4示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
23.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
24.图1示出了根据本发明一个实施例的基于价值量表的文本价值计算方法的流程图,如图1所示,该方法包括如下步骤:
25.步骤s101,对文本进行分词处理,得到包含多个关键词的关键词集合。
26.本实施例对文本价值的计算是通过解析用户在网络中发布的各种文本,计算文本
与主流价值观的匹配度,以维护社会正义的导向性为根本,保障主流价值观内容正确认知与精准传播。
27.具体的,在获取到文本后,先对文本进行预处理,预处理包括如格式过滤处理和停用词过滤处理等。通过预处理可以去掉与文本价值计算无关的各种格式化信息、无价值含义的词语,减少对价值计算无关的词语,保障后续分词的准确性。如将文本中的日期、新闻中的“本报电”、url等格式过滤。对于停用词,可以预设停用词表,根据预设停用词表进行停用词过滤处理,预设停用词表包括无价值含义的词语或者符号等,如“@”,“emmmm”等。以上格式化信息、预设停用词表为举例说明,具体可以根据实施情况设置,此处不做限定。
28.对预处理后的文本,根据标点符号对文本进行处理,如按照标点符号将文本先拆分为多个句子,再对每个句子进行分词处理,得到每个句子包含的各个短语,分词处理时可以采用如自然语言处理的ner(named entity recognition,命名实体识别)工具进行分词,得到如“人类”、“命运”、“共同体”等短语。进一步,基于分词处理得到的各个短语是对句子进行切分,没有考虑各短语间的关联关系,因此,本实施例还基于预设扩展词表对各个短语进行组合,得到对应的关键词,组成关键词集合。预设扩展词表根据实施情况设置。
29.关键词集合中包含了从文本中得到的多个关键词,基于多个关键词进行后续的文本价值计算。
30.步骤s102,基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合。
31.预设价值量表可以预先设置,采用如层级化标签语义知识图方式,其中包括预设多个级别节点,预设多个级别节点依次为核心节点、次核心节点、外围节点。核心节点的价值量高于次核心节点,次核心节点价值量高于外围节点。核心节点、次核心节点、外围节点的划分根据实施情况设置,结合当前的主流价值观确定,此处不做限定。每个节点均包括节点关键词,还包括如节点频率、相关节点和相似节点、节点编号、实体类型等。节点编号可以方便快速检索定位节点关键词所属的节点,节点编号与节点级别对应,如节点编号以a开头,即为核心节点,节点编号以b开头,即为次核心节点,节点编号以c开头,即为外围节点等,以上为举例说明,具体根据实施情况,根据查询还可以相应的返回节点的各种信息如节点频率、相关节点和相似节点等。根据返回的相关节点和相似节点的数量还可以累计得到节点的度(即相关节点和相似节点的总数量)。此处,根据节点关键词可以查询返回的相关节点和相似节点,根据相关节点和相似节点也可以相应的查找原节点的次相关节点和次相似节点(即根据相关节点和相似节点作为查询词来查询预设价值量表,得到查询词的相关节点和相似节点),具体查询可以根据实施情况选择一次查询或者根据查询结果再进行多次查询,此处不做限定。
32.在得到关键词集合后,可以遍历关键词集合,针对其中包含的任一关键词,查询预设价值量表,从中得到与关键词匹配的节点关键词,即根据关键词查询预设价值量表是否存在对应的节点关键词,若是,则将节点关键词按照所属节点的级别进行归类,得到不同级别的匹配节点集合。匹配节点集合包括核心节点集合、次核心节点集合、外围节点集合。如节点关键词的节点编号为axxxx,根据节点编号可以确定节点关键词所属节点的级别,将该节点关键词归类为核心节点集合等。若根据关键词查询预设价值量表,未得到与关键词匹
配的节点关键词,可以将关键词集合中的该关键词归类至非价值匹配节点集合,非价值匹配节点集合不用于文本价值计算。此处,核心节点集合、次核心节点集合、外围节点集合、非价值匹配节点集合各自包含的关键词均不重复。
33.进一步,预设价值量表可以预先设置,还可以根据新的文本进行更新,具体的,如图2所示:
34.步骤s201,将第一文本拆分为多个句子,对多个句子进行第一分词处理,并获取每个第一分词的词性信息、语法依存关系、语义依存关系信息。
35.对应任一新的文本(以下称第一文本),将其先拆分为多个句子,在对每个句子进行第一分词处理,如使用hanlp(han language processing,汉语言处理包)进行第一分词处理,可以进行分词、词性标注、实体识别等,从而得到句子的各个第一分词,以及第一分词的词性信息、语法依存关系、语义依存关系信息。如将第一文本拆分得到多个句子,d={si,=1,2,

,,},其中si代表第一文本中的第i个句子,n代表第一文本中句子的总数,si=wj,=1,2,

,},其中wj代表句子si中的第j个第一分词,v代表第一分词的总数。
36.步骤s202,根据每个第一分词的词性信息、语法依存关系、语义依存关系信息提取得到待处理分词,并对待处理分词进行过滤处理,得到待处理分词集合。
37.根据每个第一分词wj的词性信息、语法依存关系、语义依存关系信息,可以统计各个第一分词wj的频度,按照字节大小进行大小为n的滑动窗口操作,提取得到待处理分词。待处理分词采用如n gram方式。
38.进一步,在得到待处理分词后,对待处理分词进行过滤处理,过滤处理包括停用词过滤、数字过滤、低频人物名过滤、数词量词过滤、词性过滤、分词词性过滤、关键词过滤,以上过滤时可以设置过滤名单,根据过滤名单去除日常常用的分词,以便更快发现新分词用于更新预设价值量表。过滤处理后,得到待处理分词集合。
39.步骤s203,基于预设模型抽取得到待处理分词集合的分词特征集合、预设价值量表的核心节点关键词的核心特征集合、次核心节点关键词的次核心特征集合、外围节点关键词的外围特征集合;根据分词特征集合、核心特征集合以及核心节点关键词的数量计算得到待处理分词集合中各分词的核心相似度,根据分词特征集合、次核心特征集合以及次核心节点关键词的数量计算得到待处理分词集合中各分词的次核心相似度,根据分词特征集合、外围特征集合以及外围节点关键词的数量计算得到待处理分词集合中各分词的外围相似度。
40.针对待处理分词集合o={n1,n2,...,ni,...,nm},其中,m表示得到的ngram的待处理分词的总数,可以采用预设模型,如预先训练的bert等自编码语言模型,来抽取得到待处理分词集合o的分词特征集合,fo={f
oi
,i=1,2,...,m},fo∈rm×d,rm×d为m*d维度的实数空间,d为特征维度。其中,f
oi
的获取可以基于以下公式得到:
41.f
oi
=lm(ni)
42.其中,lm代表预设模型,ni为待处理分词集合中的第i个分词,f
oi
为ni的分词特征。对应的,根据上述公式可以,利用预设模型可以获取到预设价值量表的各个核心节点关键词的核心特征集合fa、各个次核心节点关键词的次核心特征集合fb、各个外围节点关键词的外围特征集合fc。
43.在得到分词特征集合fo、预设价值量表的核心节点关键词的核心特征集合fa、次核
心节点关键词的次核心特征集合fb、外围节点关键词的外围特征集合fc后,可以基于基于各个特征集合计算得到各个相似度,根据分词特征集合fo、核心特征集合fa以及核心节点关键词的数量计算得到核心相似度,根据分词特征集合fo、次核心特征集合fb以及次核心节点关键词的数量计算得到次核心相似度,根据分词特征集合fo、外围特征集合fc以及外围节点关键词的数量计算得到外围相似度,具体的,以核心相似度为例,参照如下公式:
[0044][0045]
其中,|a|为核心节点关键词的数量,f
aj
为第j个核心节点关键词的分词特征,t为转置函数,sima为核心相似度。对应的,根据以上公式,可以根据分词特征集合fo、次核心特征集合fb以及次核心节点关键词的数量计算得到次核心相似度simb,根据分词特征集合fo、外围特征集合fc以及外围节点关键词的数量计算得到外围相似度simc。sima、simb、simc的取值范围为0-1。
[0046]
步骤s204,遍历待处理分词集合,针对任一分词,将分词的核心相似度与预设核心阈值进行比较,判断核心相似度是否大于等于预设核心阈值。
[0047]
在计算得到待处理分词集合中各个分词的核心相似度、次核心相似度、外围相似度后,遍历待处理分词集合,针对任一分词,先将分词的核心相似度sima与预设核心阈值进行比较,若sima大于等于预设核心阈值,则执行步骤s207,将该分词加入预设价值量表,若sima=1,说明该分词已经预设价值量表,无需加入。若核心相似度sima小于预设核心阈值,执行步骤s205。
[0048]
步骤s205,将分词的次核心相似度与预设次核心阈值进行比较,判断次核心相似度是否大于等于预设次核心阈值。
[0049]
若核心相似度sima小于预设核心阈值,则进一步将该分词的次核心相似度simb与预设次核心阈值进行比较,若simb大于等于预设次核心阈值,则执行步骤s207,将该分词加入预设价值量表,若simb=1,说明该分词已经预设价值量表,无需加入。若次核心相似度simb小于预设次核心阈值,执行步骤s206。
[0050]
步骤s206,将分词的外围相似度与预设外围阈值进行比较,判断外围相似度是否大于等于预设外围阈值。
[0051]
若次核心相似度simb小于次预设核心阈值,则进一步将该分词的外围相似度simc与预设外围阈值进行比较,若simc大于等于预设外围阈值,则执行步骤s207,将该分词加入预设价值量表,若simc=1,说明该分词已经预设价值量表,无需加入。若外围相似度simc小于预设外围阈值,则说明该分词不符合预设价值量表的要求,分词不属于主流价值观,丢弃该分词。此处,丢弃该分词后,可以遍历待处理分词集合获取下一分词,将下一分词的核心相似度、次核心相似度、外围相似度进行判断,直至遍历完成待处理分词集合中所有分词,完成对预设价值量表的更新。
[0052]
步骤s207,将分词加入预设价值量表。
[0053]
在判断核心相似度大于等于预设核心阈值,或者,次核心相似度大于等于预设次核心阈值,或者,外围相似度大于等于预设外围阈值,则可以将分词加入预设价值量表,对应的可以将其按照判断条件,加入对应的核心节点关键词、次核心节点关键词、外围节点关
键词等。此处,将该分词加入预设价值量表后,可以遍历待处理分词集合获取下一分词,将下一分词的核心相似度、次核心相似度、外围相似度进行判断,直至遍历完成待处理分词集合中所有分词,完成对预设价值量表的更新。
[0054]
步骤s103,根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。
[0055]
在得到匹配节点集合后,可以根据不同级别的匹配节点集合中分别包含的关键词数量,以及不同级别的匹配节点集合对应的权重,来计算得到文本的价值数据。具体的,根据匹配节点集合,分别计算得到核心节点集合的数量与核心节点权重的第一乘积、次核心节点集合的数量与次核心节点权重的第二乘积、外围节点集合的数量与外围节点权重的第三乘积,以及,关键词集合的数量与核心节点权重的第四乘积,累加第一乘积、第二乘积及第三乘积,计算累加结果与第四乘积的比值,具体参照如下公式:
[0056][0057]
其中,公式(1)中|a|为核心节点集合的数量,|b|为次核心节点集合的数量,|c|为外围节点集合的数量,|s|为关键词集合的数量,α
′a为核心节点权重,α
′b为次核心节点权重,α
′c为外围节点权重,v为文本的价值中间数据。
[0058]
考虑到分词得到的关键词集合中可能会存在某些无价值的关键词,导致非价值匹配节点集合包含的关键词过多,导致计算得到文本的价值中间数据v偏小,因此,本实施例根据预设指数对比值进行修正,得到文本的价值数据,参照如下公式:
[0059]v′
=v
0.3
ꢀꢀꢀꢀ
(2)
[0060]
其中,公式(2)中v’为文本的价值数据,预设指数采用如0.3,利用幂函数对v进行拉伸得到修正之后的文本的价值数据v’。基于以上计算,若关键词集合匹配得到的匹配节点集合均为核心节点集合,得到的文本的价值数据v’=1,若匹配节点集合为非价值匹配节点集合,则确定文本的价值数据v’为0。
[0061]
进一步,上述各个权重的计算具体为:核心节点权重根据对核心节点集合中各个节点关键词的第一和值进行归一化处理得到;第一和值根据累加核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;次核心节点权重根据对次核心节点集合中各个节点关键词的第二和值进行归一化处理得到;第二和值根据累加次核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;外围节点权重根据对外围节点集合中各个节点关键词的第三和值进行归一化处理得到;第三和值根据累加外围节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到,具体参考如下公式:
[0062]
α
′a=softmax(∑
x∈a
[f
x
+λd
x
])
ꢀꢀꢀꢀ
(3)
[0063]
其中,公式(3)中α
′a为核心节点权重,d
x
表示核心节点集合中各个节点关键词的相关节点和相似节点的数量,a为核心节点集合,x的取值范围为核心节点集合,f
x
表示核心节点集合中各个节点关键词的节点频率,λ为预设权重,softmax为归一化函数。
[0064]
α
′b=softmax(∑
x∈b
[f
x
+λd
x
])
ꢀꢀꢀꢀ
(4)
[0065]
其中,公式(4)中α
′b为次核心节点权重,d
x
表示次核心节点集合中各个节点关键词
的相关节点和相似节点的数量,b为次核心节点集合,x的取值范围为次核心节点集合,f
x
表示次核心节点集合中各个节点关键词的节点频率,λ为预设权重,softmax为归一化函数。
[0066]
α
′c=softmax(∑
x∈c
[f
x
+λd
x
])
ꢀꢀꢀꢀ
(5)
[0067]
其中,公式(5)中α
′c为外围节点权重,d
x
表示外围节点集合中各个节点关键词的相关节点和相似节点的数量,c为外围节点集合,x的取值范围为外围节点集合,f
x
表示外围节点集合中各个节点关键词的节点频率,λ为预设权重,用于平衡相关节点和相似节点的数量与节点频率间的尺度差异,具体根据实施情况设置,softmax为归一化函数。
[0068]
各个权重根据不同级别的匹配节点集合中各个关键词在预设价值量表的各种属性信息确定,如相关节点和相似节点的数量、节点频率,对应的预设价值量表中的节点频率越高,则价值数据更大,即权重更大;若对应的相关节点和相似节点的数量越多,说明关键词在预设价值量表中属于重要枢纽,同样其权重更大。
[0069]
根据本发明实施例提供的基于价值量表的文本价值计算方法,将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。
[0070]
图3示出了本发明实施例提供的基于价值量表的文本价值计算装置的结构示意图。如图3所示,该装置包括:
[0071]
分词模块310,适于对文本进行分词处理,得到包含多个关键词的关键词集合;
[0072]
匹配模块320,适于基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;
[0073]
价值计算模块330,适于根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。
[0074]
可选地,预设多个级别节点包括:核心节点、次核心节点、外围节点;每个节点还包括:节点编号、节点频率、相关节点和相似节点。
[0075]
可选地,匹配模块320进一步适于:
[0076]
遍历关键词集合,针对任一关键词,查询预设价值量表,得到与关键词匹配的节点关键词;
[0077]
将节点关键词按照所属节点的级别进行归类,得到不同级别的匹配节点集合;匹配节点集合包括核心节点集合、次核心节点集合、外围节点集合。
[0078]
可选地,价值计算模块330进一步适于:
[0079]
计算得到核心节点集合的数量与核心节点权重的第一乘积、次核心节点集合的数量与次核心节点权重的第二乘积、外围节点集合的数量与外围节点权重的第三乘积,以及,关键词集合的数量与核心节点权重的第四乘积;其中,核心节点权重根据对核心节点集合中各个节点关键词的第一和值进行归一化处理得到;第一和值根据累加核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;次核心节点权重根据对次核心节点集合中各个节点关键词的第二和值进行归一化处理得到;第二和值根据累加次核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;外围节点权重根据对外围节
点集合中各个节点关键词的第三和值进行归一化处理得到;第三和值根据累加外围节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;
[0080]
累加第一乘积、第二乘积及第三乘积,计算累加结果与第四乘积的比值,并根据预设指数对比值进行修正,得到文本的价值数据。
[0081]
可选地,装置还包括:非匹配模块340,适于若查询预设价值量表,未得到与关键词匹配的节点关键词,将关键词归类至非价值匹配节点集合。
[0082]
可选地,装置还包括:非匹配价值模块350,适于若匹配节点集合为非价值匹配节点集合,则确定文本的价值数据为0。
[0083]
可选地,分词模块310进一步适于:
[0084]
对文本进行预处理;预处理包括格式过滤处理和停用词过滤处理;
[0085]
根据标点符号对文本进行处理,将文本拆分为多个句子;
[0086]
对每个句子进行分词处理,得到每个句子包含的各个短语;
[0087]
基于预设扩展词表对各个短语进行组合,得到对应的关键词,组成关键词集合。
[0088]
可选地,装置还包括:更新模块360,适于将第一文本拆分为多个句子,对多个句子进行第一分词处理,并获取每个第一分词的词性信息、语法依存关系、语义依存关系信息;根据每个第一分词的词性信息、语法依存关系、语义依存关系信息提取得到待处理分词,并对待处理分词进行过滤处理,得到待处理分词集合;过滤处理包括停用词过滤、数字过滤、低频人物名过滤、数词量词过滤、词性过滤、分词词性过滤、关键词过滤;基于预设模型抽取得到待处理分词集合的分词特征集合、预设价值量表的核心节点关键词的核心特征集合、次核心节点关键词的次核心特征集合、外围节点关键词的外围特征集合;根据分词特征集合、核心特征集合以及核心节点关键词的数量计算得到待处理分词集合中各分词的核心相似度,根据分词特征集合、次核心特征集合以及次核心节点关键词的数量计算得到待处理分词集合中各分词的次核心相似度,根据分词特征集合、外围特征集合以及外围节点关键词的数量计算得到待处理分词集合中各分词的外围相似度;遍历待处理分词集合,针对任一分词,将分词的核心相似度与预设核心阈值进行比较,若核心相似度大于等于预设核心阈值,则将分词加入预设价值量表;若核心相似度小于预设核心阈值,则将分词的次核心相似度与预设次核心阈值进行比较,若次核心相似度大于等于预设次核心阈值,则将分词加入预设价值量表;若次核心相似度小于预设次核心阈值,则将分词的外围相似度与预设外围阈值进行比较,若外围相似度大于等于预设外围阈值,则将分词加入预设价值量表。
[0089]
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
[0090]
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的基于价值量表的文本价值计算方法。
[0091]
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。
[0092]
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
[0093]
其中:
[0094]
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
[0095]
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
[0096]
处理器402,用于执行程序410,具体可以执行上述基于价值量表的文本价值计算方法实施例中的相关步骤。
[0097]
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
[0098]
处理器402可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0099]
存储器406,用于存放程序410。存储器406可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0100]
程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于价值量表的文本价值计算方法。程序410中各步骤的具体实现可以参见上述基于价值量表的文本价值计算实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0101]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。
[0102]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0103]
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0104]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0105]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0106]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0107]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

技术特征:
1.一种基于价值量表的文本价值计算方法,其特征在于,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历所述关键词集合,查询与所述关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,所述预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到所述文本的价值数据。2.根据权利要求1所述的方法,其特征在于,所述预设多个级别节点包括:核心节点、次核心节点、外围节点;每个节点还包括:节点编号、节点频率、相关节点和相似节点。3.根据权利要求2所述的方法,其特征在于,所述基于预设价值量表,遍历所述关键词集合,查询与所述关键词匹配的节点关键词,得到不同级别的匹配节点集合进一步包括:遍历所述关键词集合,针对任一关键词,查询所述预设价值量表,得到与所述关键词匹配的节点关键词;将所述节点关键词按照所属节点的级别进行归类,得到不同级别的匹配节点集合;所述匹配节点集合包括核心节点集合、次核心节点集合、外围节点集合。4.根据权利要求3所述的方法,其特征在于,所述根据不同级别的匹配节点集合的数量及权重,计算得到所述文本的价值数据进一步包括:计算得到核心节点集合的数量与核心节点权重的第一乘积、次核心节点集合的数量与次核心节点权重的第二乘积、外围节点集合的数量与外围节点权重的第三乘积,以及,所述关键词集合的数量与核心节点权重的第四乘积;其中,所述核心节点权重根据对所述核心节点集合中各个节点关键词的第一和值进行归一化处理得到;所述第一和值根据累加所述核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;所述次核心节点权重根据对所述次核心节点集合中各个节点关键词的第二和值进行归一化处理得到;所述第二和值根据累加所述次核心节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;所述外围节点权重根据对所述外围节点集合中各个节点关键词的第三和值进行归一化处理得到;所述第三和值根据累加所述外围节点集合中各个节点关键词的相关节点和相似节点的数量及预设权重的乘积与节点关键词的节点频率之和得到;累加所述第一乘积、第二乘积及第三乘积,计算累加结果与所述第四乘积的比值,并根据预设指数对所述比值进行修正,得到所述文本的价值数据。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:若查询所述预设价值量表,未得到与所述关键词匹配的节点关键词,将所述关键词归类至非价值匹配节点集合。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若匹配节点集合为非价值匹配节点集合,则确定所述文本的价值数据为0。7.根据权利要求1所述的方法,其特征在于,所述对文本进行分词处理,得到包含多个关键词的关键词集合进一步包括:对所述文本进行预处理;所述预处理包括格式过滤处理和停用词过滤处理;根据标点符号对所述文本进行处理,将所述文本拆分为多个句子;对每个句子进行分词处理,得到每个句子包含的各个短语;
基于预设扩展词表对各个短语进行组合,得到对应的关键词,组成关键词集合。8.根据权利要求1-7所述的方法,其特征在于,所述方法还包括:将第一文本拆分为多个句子,对所述多个句子进行第一分词处理,并获取每个第一分词的词性信息、语法依存关系、语义依存关系信息;根据所述每个第一分词的词性信息、语法依存关系、语义依存关系信息提取得到待处理分词,并对所述待处理分词进行过滤处理,得到待处理分词集合;所述过滤处理包括停用词过滤、数字过滤、低频人物名过滤、数词量词过滤、词性过滤、分词词性过滤、关键词过滤;基于预设模型抽取得到所述待处理分词集合的分词特征集合、所述预设价值量表的核心节点关键词的核心特征集合、次核心节点关键词的次核心特征集合、外围节点关键词的外围特征集合;根据所述分词特征集合、所述核心特征集合以及核心节点关键词的数量计算得到待处理分词集合中各分词的核心相似度,根据所述分词特征集合、所述次核心特征集合以及次核心节点关键词的数量计算得到待处理分词集合中各分词的次核心相似度,根据所述分词特征集合、所述外围特征集合以及外围节点关键词的数量计算得到待处理分词集合中各分词的外围相似度;遍历所述待处理分词集合,针对任一分词,将分词的所述核心相似度与预设核心阈值进行比较,若所述核心相似度大于等于所述预设核心阈值,则将所述分词加入所述预设价值量表;若所述核心相似度小于所述预设核心阈值,则将分词的所述次核心相似度与预设次核心阈值进行比较,若所述次核心相似度大于等于所述预设次核心阈值,则将所述分词加入所述预设价值量表;若所述次核心相似度小于所述预设次核心阈值,则将分词的所述外围相似度与预设外围阈值进行比较,若所述外围相似度大于等于所述预设外围阈值,则将所述分词加入所述预设价值量表。9.一种基于价值量表的文本价值计算装置,其特征在于,装置包括:分词模块,适于对文本进行分词处理,得到包含多个关键词的关键词集合;匹配模块,适于基于预设价值量表,遍历所述关键词集合,查询与所述关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,所述预设价值量表包括预设多个级别节点;每个节点包括节点关键词;价值计算模块,适于根据不同级别的匹配节点集合的数量及权重,计算得到所述文本的价值数据。10.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的基于价值量表的文本价值计算方法对应的操作。11.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8中任一项所述的基于价值量表的文本价值计算方法对应的操作。

技术总结
本发明实施例公开了一种基于价值量表的文本价值计算方法及装置,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。价值。价值。


技术研发人员:张勇东 毛震东 刘毅 郭俊波 陈伟东
受保护的技术使用者:中国科学技术大学
技术研发日:2023.05.24
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐