基于人工智能的新闻推荐方法、装置、电子设备及介质与流程

未命名 09-08 阅读:92 评论:0


1.本发明涉及人工智能技术领域,具体涉及一种基于人工智能的新闻推荐方法、装置、电子设备及介质。


背景技术:

2.随着自媒体时代的快速发展,从海量数据中挖掘出用户感兴趣的信息变得越发重要。传统的推荐引擎的技术方案通过使用用户编码器将用户历史行为编码为向量进行推荐。
3.然而,由于用户历史行为中存在很多的错误信息,比如用户点击了某商品,仅仅是误点行为,而不是用户真正感兴趣的消息,传统用户编码器无法剔除掉误点行为,造成最终推荐结果存在巨大偏差,推荐的准确率低。


技术实现要素:

4.鉴于以上内容,有必要提出一种基于人工智能的新闻推荐方法、装置、电子设备及介质,通过使用用户编码器对用户历史行为进行编码,有效的过滤掉新闻内容中的噪音信息,提高了新闻推荐的准确率。
5.本发明的第一方面提供一种基于人工智能的新闻推荐方法,所述方法包括:
6.构建新闻训练集,其中,所述新闻训练集中包含有多个用户及每个用户的历史推荐列表,所述历史推荐列表中包含有至少一条新闻;
7.使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量;
8.使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量;
9.计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值;
10.基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型;
11.接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。
12.可选地,所述构建新闻训练集包括:
13.从多个预设的数据源获取预设时间段内多个用户及每个用户的历史推荐列表;
14.从每个用户的历史推荐列表中,获取每条新闻的阅读参数;
15.判断所述每条新闻的阅读参数是否满足构建训练集要求;
16.将满足所述构建训练集要求的阅读参数对应的历史新闻,构建为新闻训练集。
17.可选地,所述使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量包括:
18.对所述新闻训练集中的每个用户的每条新闻的新闻内容进行预处理;
19.使用分词工具对预处理后的新闻内容中的每个句子进行分词,得到所述每个句子的多个分词;
20.将所述每个句子的多个分词输入至预先训练的词袋模型中,得到每个用户对应的每条新闻的新闻编码向量。
21.可选地,所述使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量包括:
22.获取影响每个用户历史行为的多个指标,及每个指标的数据转换策略;
23.基于所述多个指标对所述新闻训练集中的新闻内容进行划分,得到每个指标的数据集;
24.将每个指标的数据集,按照对应的数据转换策略进行转换,得到所述每个用户的历史行为序列;
25.使用用户编码器对所述历史行为序列进行编码,得到每个用户历史行为编码向量;
26.将所述每个用户历史行为编码向量输入至gru循环神经网络模型中进行用户兴趣预测,得到每个用户的最终编码向量。
27.可选地,所述基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型包括:
28.将每个用户的每条新闻的概率分值及对应新闻的点击频率输入至所述逻辑回归的损失函数中,获取预设的新闻推荐模型的损失值;
29.基于所述损失值迭代优化所述预设的新闻推荐模型的参数,直至所述损失值小于或者等于预设的损失阈值,得到目标新闻推荐模型。
30.可选地,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:
31.对所述目标推荐新闻进行分词处理,得到分词结果;计算所述分词结果中每个分词与对应注意力权重之间的乘积,得到每个分词的重要性得分;从所述多个分词的多个重要性得分中选取满足重要性得分阈值的分词作为第一关键词;
32.将所述目标推荐新闻输入标注模型,得到标注结果;从所述标注结果中提取第二关键词;
33.计算所述第一关键词和所述第二关键词与所述用户的用户画像之间的匹配度;
34.当所述匹配度大于或者等于预设的匹配度阈值时,推荐所述目标推荐新闻;
35.当所述匹配度小于所述预设的匹配度阈值时,拒绝推荐所述目标推荐新闻。
36.可选地,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:
37.识别所述目标推荐新闻是否为所述用户已点击新闻;
38.若所述目标推荐新闻为所述用户已点击新闻,拒绝推荐所述目标推荐新闻;
39.若所述目标推荐新闻不为所述用户已点击新闻,推荐所述目标推荐新闻。
40.本发明的第二方面提供一种基于人工智能的新闻推荐装置,所述装置包括:
41.构建模块,用于构建新闻训练集;
42.新闻编码模块,用于使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量;
43.用户编码模块,用于使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量;
44.计算模块,用于计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值;
45.训练模块,用于基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型;
46.输入模块,用于接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。
47.本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的新闻推荐方法。
48.本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的新闻推荐方法。
49.综上所述,本发明所述的基于人工智能的新闻推荐方法、装置、电子设备及介质,能够推动智慧城市的建设,应用于智慧建筑、智慧安防、智慧社区、智慧生活、物联网等领域。通过使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量,在进行新闻内容的编码时,通过使用预先训练的词袋模型,可以有效的挖掘新闻的内容信息,获取新闻的关键词和主题信息,获取更为准确的新闻编码向量,进而提高新闻推荐的准确率。使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量,在使用用户编码器对用户历史行为进行编码时,使用gru模型块中的门控机制,有效的过滤掉新闻内容中的噪音信息,即用户的误点记录,从而将用户真正感兴趣的新闻获取出来,提高了获取的每个用户的最终编码向量的准确率,在后续进行新闻推荐时,考虑了每个用户的最终编码向量,进而提高了新闻推荐的准确率。进一步计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型,通过逻辑回归的损失函数不断优化预设的新闻推荐模型参数降低模型的损失,提高了训练得到的目标新闻推荐模型的鲁棒性,进而提高了新闻推荐的准确率。
附图说明
50.图1是本发明实施例一提供的基于人工智能的新闻推荐方法的流程图。
51.图2是本发明实施例一提供的获取每个用户的最终编码向量的示意图。
52.图3是本发明实施例二提供的基于人工智能的新闻推荐装置的结构图。
53.图4是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
54.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
55.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
56.实施例一
57.图1是本发明实施例一提供的基于人工智能的新闻推荐方法的流程图。
58.在本实施例中,所述基于人工智能的新闻推荐方法可以应用于电子设备中,对于需要进行基于人工智能的新闻推荐的电子设备,可以直接在电子设备上集成本发明的方法所提供的基于人工智能的新闻推荐的功能,或者以软件开发工具包(software development kit,sdk)的形式运行在电子设备中。
59.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
60.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
61.如图1所示,所述基于人工智能的新闻推荐方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
62.101,构建新闻训练集,其中,所述新闻训练集中包含有多个用户及每个用户的历史推荐列表,所述历史推荐列表中包含有至少一条新闻。
63.本实施例中,在对用户进行数据推荐,特别是新闻数据推荐时,需要构建新闻训练集。
64.在一个可选的实施例中,所述构建新闻训练集包括:
65.从多个预设的数据源获取预设时间段内多个用户及每个用户的历史推荐列表;
66.从每个用户的历史推荐列表中,获取每条新闻的阅读参数;
67.判断所述每条新闻的阅读参数是否满足构建训练集要求;
68.将满足所述构建训练集要求的阅读参数对应的历史新闻,构建为新闻训练集。
69.本实施例中,可以预先设置多个数据源,具体地,所述数据源可以为发布新闻的第三方应用平台,也可以为新闻推荐系统。
70.本实施例中,由于新闻实时更新快,构建新闻训练集时,可以预先设置获取历史新闻的时间段,例如,预设时间段可以设置为1个周或者2个周,具体地可以根据实际需求进行设置。
71.本实施例中,为了提高新闻推荐模型的准确率,在构建新闻训练集时,获取的为历史新闻推荐记录中的历史新闻,同时,从每个用户的历史新闻中获取满足构建训练集要求
的历史新闻,具体地,获取每条新闻的阅读参数,其中,所述阅读参数可以为用户对每条新闻的阅读时长、点击频率、用户是否点赞、用户是否收藏、用户是否关注或者用户是否评论。判断所述阅读参数是否满足构建训练集要求。
72.本实施例中,所述构建训练集要求可以预先设置为以下一种或者多种的组合:用户对每条新闻的阅读时长大于或者等于m分钟;用户对每条新闻的点击频率大于或者等于n次;用户对该条新闻进行了点赞操作;用户收藏了该条新闻;用户关注了该条新闻;用户评论了该条新闻。
73.示例性地,基于用户的历史推荐列表中的,满足构建训练集要求的点击频率对应的历史新闻作为新闻训练集。
74.具体地,新闻训练集d可表述为d={(u1,r1),

,(ui,ri),

,(un,rn),},其中,ui表示新闻训练集d中第i个用户,ri=[(x
i1
,y
i1
),

,(x
ij
,y
ij
)

,(x
im
,y
im
)]表示用户ui的历史推荐列表,x
ij
表示用户ui的第j条历史记录,y
ij
表示用户ui对新闻x
ij
的点击频率,n表示新闻训练集d中用户的数量,m表示该推荐系统预设时间段内为ui用户推荐的新闻数量。
[0075]
本实施例中,根据预设时间段的用户的历史推荐列表中,且同时满足构建训练集要求的历史新闻构建的新闻训练集,从历史推荐方面进行了考虑,而不是获取所有的新闻,提高了构建的新闻训练集的精确性。
[0076]
102,使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量。
[0077]
本实施例中,在对用户进行新闻推荐时,通过对所述新闻训练集中的新闻内容进行编码。
[0078]
在一个可选的实施例中,所述使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量包括:
[0079]
对所述新闻训练集中的每个用户的每条新闻的新闻内容进行预处理;
[0080]
使用分词工具对预处理后的新闻内容中的每个句子进行分词,得到所述每个句子的多个分词;
[0081]
将所述每个句子的多个分词输入至预先训练的词袋模型中,得到每个用户对应的每条新闻的新闻编码向量。
[0082]
本实施例中,所述预处理包括去除空白消息、网页标签等,去除所述新闻训练集中的每个用户的每条新闻的新闻内容中的空白消息或者网页标签等,避免空白消息或者网页标签对新闻编码向量准确性的影响。
[0083]
本实施例中,可以采用现有的分词工具对预处理后的新闻内容进行分词,其中,现有的分词工具可以为jieba分词工具、snownlp分词工具、pkuseg分词工具、thulac分词工具、hanlp分词工具、哈工大ltp分词工具。
[0084]
示例性地,以jieba分词工具为例,根据所述jieba分词工具对应的前缀词典生成字典树,从所述字典树中匹配出所述预处理后的每条新闻的新闻内容中的每个句子对应的所有的词,根据匹配出的词生成有向无环图,并查找所述每个句子中已经切分好的词语,记录每个词语出现的频次,根据每个词语出现的频次,采用动态规划查找所述有向无环图中最大概率路径,并将所述有向无环图中的没有被前缀词典中查到的字,组合成一个新的片段短语,使用隐马尔可夫(hidden markov model,hmm)模型对新的片段短语进行分词,得到
对应句子的多个新词,将在前缀词典中查到的每个句子对应的所有的词和对应句子的多个新词,确定为所述新闻内容的对应句子的多个分词。
[0085]
本实施例中,在得到每个句子的多个分词之后,将每个句子的多个分词输入至预先训练的词袋模型中进行新闻内容的编码,得到每个句子的新闻编码向量,具体地,所述词袋模型表示为sentence embedding模型,将每个句子的多个分词输入至词袋模型之后,词袋模型对每个分词进行编码,得到每个分词的词向量,并对多个分词的词向量进行相加取平均,得到每个句子的新闻编码向量,进一步合并所述新闻内容的所有句子的编码向量,得到每个用户对应的每条新闻的新闻编码向量。
[0086]
示例性地,用户ui的历史推荐列表对应的新闻编码向量可表示为ei=[(z
i1
,y
i1
),

,(z
ij
,y
ij
)

,(z
im
,y
im
)],其中,z
ij
表示用户ui的历史推荐列表中每条新闻内容x
ij
的新闻编码向量,且z
ij
∈rd,r表示实数集,d表示编码后的向量维度,对于每个用户的历史推荐列表中的每条新闻内容做同样的处理,获取每条新闻的新闻编码向量。
[0087]
本实施例中,相较于人工构造特征的方法,通过使用预先训练的词袋模型,将每个句子的多个分词的词向量进行相加取平均,确定每个分词对于表达每个句子含义同样重要,进而可以有效的挖掘新闻的内容信息,获取新闻的关键词和主题信息,获取更为准确的新闻编码向量,进而提高新闻推荐的准确率。
[0088]
103,使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量。
[0089]
本实施例中,在对新闻内容进行编码之后,对用户历史行为进行预测,确定用户感兴趣的新闻,得到每个用户的最终编码向量,其中,用户历史行为表示用户历史曾经点击过的新闻。
[0090]
在一个可选的实施例中,所述使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量包括:
[0091]
获取影响每个用户历史行为的多个指标,及每个指标的数据转换策略;
[0092]
基于所述多个指标对所述新闻训练集中的新闻内容进行划分,得到每个指标的数据集;
[0093]
将每个指标的数据集,按照对应的数据转换策略进行转换,得到所述每个用户的历史行为序列;
[0094]
使用用户编码器对所述历史行为序列进行编码,得到每个用户历史行为编码向量;
[0095]
将所述每个用户历史行为编码向量输入至gru循环神经网络模型中进行用户兴趣预测,得到每个用户的最终编码向量。
[0096]
本实施例中,获取影响用户历史行为对应的多个指标,其中,所述指标可以包括新闻形式、新闻体裁、新闻类别等。
[0097]
具体地,新闻形式可以包括:消息、通讯、特写、调查报告、图片新闻等;新闻体裁可以包括:新闻报道、新闻评论、新闻副刊等;新闻类别可以包括体育、彩票、房产、股票、家居等。
[0098]
本实施例中,每个指标对应有数据转换规则,例如,将新闻类别为体育的数据集,按照体育新闻对应的数据转换规则,将所述数据集中的每条新闻转换为对应格式的新闻内
容,并从转换后的新闻内容中读取每条新闻的点击时间,根据每条新闻的点击时间得到每个用户的历史行为序列,所述历史行为序列是指用户历史曾经点击过的新闻,按照点击的时间顺序组成的序列,例如,用户a对应的历史行为序列为:体育新闻-篮球新闻-nba新闻-球星新闻。
[0099]
本实施例中,可以将所述每个用户历史行为编码向量输入至gru循环神经网络模型中,所述gru循环神经网络模型为双向gru模型,参阅图2所示,e
i1
,e
i2
,e
ih
,e
im
表示用户ui的历史行为编码向量,gru为gru模型块,e
ui
为用户ui的最终编码向量,所述最终编码向量表示根据每个用户的历史行为编码向量预测出的用户感兴趣的新闻内容对应的编码向量。
[0100]
本实施例中,每个用户的历史行为编码向量在gru模型块从左到右或者从右到左的传递过程中,使用门控机制,可以有效的过滤掉用户的误点记录,例如,使用门控机制可以过滤掉被用户收藏但没有进行阅读的新闻,从而将用户真正感兴趣的新闻获取出来,提高了获取的每个用户的最终编码向量的准确率,在后续进行新闻推荐时,考虑了每个用户的最终编码向量,进而提高了新闻推荐的准确率。
[0101]
104,计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值。
[0102]
本实施例中,每条新闻的概率分值可以用每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积表示,例如,每条新闻的概率分值可表示s
ij
=z
ij
*e
ui
,其中,e
ui
表示用户ui的最终编码向量,z
ij
表示用户ui的历史推荐列表中每条新闻内容x
ij
的新闻编码向量。
[0103]
105,基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型。
[0104]
本实施例中,逻辑回归的损失函数可以为log loss,也就是对数似然函数。
[0105]
在一个可选的实施例中,所述基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型包括:
[0106]
将每个用户的每条新闻的概率分值及对应新闻的点击频率输入至所述逻辑回归的损失函数中,获取预设的新闻推荐模型的损失值;
[0107]
基于所述损失值迭代优化所述预设的新闻推荐模型的参数,直至所述损失值小于或者等于预设的损失阈值,得到目标新闻推荐模型。
[0108]
在一个可选的实施例中,预设的新闻推荐模型中包含有预先训练的词袋模型和gru循环神经网络模型,在将每个用户的每条新闻的概率分值及对应新闻的点击频率输入到逻辑回归的损失函数中,获取预设的新闻推荐模型的损失值,基于所述损失值不断的优化预设的新闻推荐模型中的词袋模型和gru循环神经网络模型的参数,以降低新闻推荐模型的损失,进而完成目标新闻推荐模型的训练。
[0109]
本实施例中,通过获取的新闻推荐模型的损失值,不断优化预设的新闻推荐模型中的词袋模型和gru循环神经网络模型的参数,降低了新闻推荐模型的损失,提高了训练得到的目标新闻推荐模型的鲁棒性,进而提高了新闻推荐的准确率。
[0110]
106,接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。
[0111]
本实施例中,针对用户进行新闻推荐时,获取用户输入的推荐内容,将所述推荐内
容输入至所述目标新闻推荐模型中,具体地,在所述目标新闻推荐模型中,获取所述推荐内容对应的候选新闻,针对每条候选新闻,使用新闻内容编码器对所述候选新闻进行编码,获取所述候选新闻的新闻编码向量;及使用用户编码器对所述候选新闻进行编码,得到用户的最终编码向量,将所述新闻编码向量和所述最终编码向量做内积,即可判断出该用户是否对所述候选新闻感兴趣,进而根据判断结果输出目标推荐新闻。
[0112]
示例性地,本实施例以新闻推荐系统为背景,选取m名用户的历史新闻推荐列表中的历史新闻作为训练语料,每个用户选取列表中最新的n条历史新闻;并清洗过滤n条历史新闻的文本内容,使用哈工大ltp分词工具分词,使用预先训练的词袋模型获取新闻编码向量,及在用户编码器中,使用双向gru模型获取用户的最终编码向量;计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,不断优化预设的新闻推荐模型参数,降低预设的新闻推荐模型的损失,通过实验结果发现,本实施例提出的基于gru机制获取的用户的最终编码向量后进行新闻推荐,目标新闻推荐的点击率提升p%,其中,m约为20333,n约为10,p约为4.3。
[0113]
在一个可选的实施例中,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:
[0114]
对所述目标推荐新闻进行分词处理,得到分词结果;计算所述分词结果中每个分词与对应注意力权重之间的乘积,得到每个分词的重要性得分;从所述多个分词的多个重要性得分中选取满足重要性得分阈值的分词作为第一关键词;
[0115]
将所述目标推荐新闻输入标注模型,得到标注结果;从所述标注结果中提取第二关键词;
[0116]
计算所述第一关键词和所述第二关键词与所述用户的用户画像之间的匹配度;
[0117]
当所述匹配度大于或者等于预设的匹配度阈值时,推荐所述目标推荐新闻;
[0118]
当所述匹配度小于所述预设的匹配度阈值时,拒绝推荐所述目标推荐新闻。
[0119]
本实施例中,为了提高用户的体验,在得到目标推荐新闻之后,通过对所述目标推荐新闻进行分词,选取出重要性得分高的多个分词作为第一关键词。
[0120]
本实施例中,可以预先为每个分词设置注意力权重,通过计算每个分词与对应注意力权重之间的乘积,可以确定每个分词在所述目标推荐新闻中的重要程度。
[0121]
本实施例中,可以预先训练标注模型,使用训练完毕的标注模型识别目标推荐新闻中的第二关键词。
[0122]
具体地,所述标注模型的训练过程包括:获取已标注的历史新闻,采用所述已标注的历史新闻对预设的深度学习模型进行训练,得到标注模型,其中,所述预设的深度学习模型可以为长短期记忆网络(lstm),条件随机场(crf),highway网络,其中,所述长短期记忆网络(lstm),条件随机场(crf),highway网络为现有网络,本实施例在此不做详述。
[0123]
本实施例中,在得到训练完毕的标注模型之后,将所述目标推荐新闻输入至标注模型,从标注模型中提取第二关键词,所述第二关键词可以为一个或者多个,例如,目标推荐新闻为“北京时间x月y日,nba分析师q谈到了的现状,恳求湖人考虑交易qqq

恳求湖人也考虑交易zzz。”,则可以得到第二关键词:“nba分析师q”、“湖人”、“交易qqq”、“交易zzz”。
[0124]
本实施例中,可以预先为每个用户构建用户画像,具体地,根据用户阅读的历史新
闻,获取所述历史新闻的属性信息,基于所述属性信息为用户构建用户画像,其中,所述历史新闻的属性信息包括:用户偏好的新闻形式、新闻体裁、新闻类别等,例如,获取用户阅读的历史新闻的属性信息为:用户偏好体育新闻、篮球及nba,构建的用户画像为:体育新闻、篮球及nba。
[0125]
本实施例中,在得到第一关键词和第二关键词之后,计算所述第一关键词和所述第二关键词与所述用户的用户画像之间的匹配度,将计算得到的匹配度与预设的匹配度阈值进行对比,根据对比结果确定是否将所述目标推荐新闻推荐给用户,从用户画像的角度进行了考虑,提高了目标新闻推荐的准确率,同时避免了将用户不感兴趣的新闻推荐给用户,提高了用户的体验。
[0126]
在一个可选的实施例中,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:
[0127]
识别所述目标推荐新闻是否为所述用户已点击新闻;
[0128]
若所述目标推荐新闻为所述用户已点击新闻,拒绝推荐所述目标推荐新闻;
[0129]
若所述目标推荐新闻不为所述用户已点击新闻,推荐所述目标推荐新闻。
[0130]
本实施例中,在得到目标推荐新闻之后,判断所述目标推荐新闻之前是否被推荐过,若之前被推荐过,则拒绝推荐所述目标推荐新闻,避免了重复推荐的问题,提高了目标推荐新闻推荐的准确率。
[0131]
综上所述,本实施例所述的基于人工智能的新闻推荐方法,通过使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量,在进行新闻内容的编码时,通过使用预先训练的词袋模型,可以有效的挖掘新闻的内容信息,获取新闻的关键词和主题信息,获取更为准确的新闻编码向量,进而提高新闻推荐的准确率。使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量,在使用用户编码器对用户历史行为进行编码时,使用gru模型块中的门控机制,有效的过滤掉新闻内容中的噪音信息,即用户的误点记录,从而将用户真正感兴趣的新闻获取出来,提高了获取的每个用户的最终编码向量的准确率,在后续进行新闻推荐时,考虑了每个用户的最终编码向量,进而提高了新闻推荐的准确率。进一步计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型,通过逻辑回归的损失函数不断优化预设的新闻推荐模型参数降低模型的损失,提高了训练得到的目标新闻推荐模型的鲁棒性,进而提高了新闻推荐的准确率。
[0132]
实施例二
[0133]
图3是本发明实施例二提供的基于人工智能的新闻推荐装置的结构图。
[0134]
在一些实施例中,所述基于人工智能的新闻推荐装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的新闻推荐装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于人工智能的新闻推荐的功能。
[0135]
本实施例中,所述基于人工智能的新闻推荐装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:构建模块201、新闻编码模块202、用户编码模块203、计算模块204、训练模块205及输入模块206。本发明所称的模块是指一种能够被至
少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
[0136]
构建模块201,用于构建新闻训练集,其中,所述新闻训练集中包含有多个用户及每个用户的历史推荐列表,所述历史推荐列表中包含有至少一条新闻。
[0137]
新闻编码模块202,用于使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量。
[0138]
用户编码模块203,用于使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量。
[0139]
计算模块204,用于计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值。
[0140]
训练模块205,用于基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型。
[0141]
输入模块206,用于接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。
[0142]
在一个可选的实施例中,所述构建模块201用于:从多个预设的数据源获取预设时间段内多个用户及每个用户的历史推荐列表;从每个用户的历史推荐列表中,获取每条新闻的阅读参数;判断所述每条新闻的阅读参数是否满足构建训练集要求;将满足所述构建训练集要求的阅读参数对应的历史新闻,构建为新闻训练集。
[0143]
在一个可选的实施例中,所述新闻编码模块202用于:对所述新闻训练集中的每个用户的每条新闻的新闻内容进行预处理;使用分词工具对预处理后的新闻内容中的每个句子进行分词,得到所述每个句子的多个分词;将所述每个句子的多个分词输入至预先训练的词袋模型中,得到每个用户对应的每条新闻的新闻编码向量。
[0144]
本实施例中,相较于人工构造特征的方法,通过使用预先训练的词袋模型,可以有效的挖掘新闻的内容信息,获取新闻的关键词和主题信息,获取更为准确的新闻编码向量,进而提高新闻推荐的准确率。
[0145]
在一个可选的实施例中,所述用户编码模块203用于:获取影响每个用户历史行为的多个指标,及每个指标的数据转换策略;基于所述多个指标对所述新闻训练集中的新闻内容进行划分,得到每个指标的数据集;将每个指标的数据集,按照对应的数据转换策略进行转换,得到所述每个用户的历史行为序列;使用用户编码器对所述历史行为序列进行编码,得到每个用户历史行为编码向量;将所述每个用户历史行为编码向量输入至gru循环神经网络模型中进行用户兴趣预测,得到每个用户的最终编码向量。
[0146]
本实施例中,每个用户的历史行为编码向量在gru模型块从左到右或者从右到左的传递过程中,使用门控机制,可以有效的过滤掉用户的误点记录,从而将用户真正感兴趣的新闻获取出来,提高了获取的每个用户的最终编码向量的准确率,在后续进行新闻推荐时,考虑了每个用户的最终编码向量,进而提高了新闻推荐的准确率。
[0147]
在一个可选的实施例中,所述训练模块205用于:将每个用户的每条新闻的概率分值及对应新闻的点击频率输入至所述逻辑回归的损失函数中,获取预设的新闻推荐模型的损失值;基于所述损失值迭代优化所述预设的新闻推荐模型的参数,直至所述损失值小于或者等于预设的损失阈值,得到目标新闻推荐模型。
[0148]
在一个可选的实施例中,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,对所述目标推荐新闻进行分词处理,得到分词结果;计算所述分词结果中每个分词与对应注意力权重之间的乘积,得到每个分词的重要性得分;从所述多个分词的多个重要性得分中选取满足重要性得分阈值的分词作为第一关键词;将所述目标推荐新闻输入标注模型,得到标注结果;从所述标注结果中提取第二关键词;计算所述第一关键词和所述第二关键词与所述用户的用户画像之间的匹配度;当所述匹配度大于或者等于预设的匹配度阈值时,推荐所述目标推荐新闻;当所述匹配度小于所述预设的匹配度阈值时,拒绝推荐所述目标推荐新闻。
[0149]
在一个可选的实施例中,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,识别所述目标推荐新闻是否为所述用户已点击新闻;若所述目标推荐新闻为所述用户已点击新闻,拒绝推荐所述目标推荐新闻;若所述目标推荐新闻不为所述用户已点击新闻,推荐所述目标推荐新闻。
[0150]
综上所述,本实施例所述的基于人工智能的新闻推荐装置,通过使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量,在进行新闻内容的编码时,通过使用预先训练的词袋模型,可以有效的挖掘新闻的内容信息,获取新闻的关键词和主题信息,获取更为准确的新闻编码向量,进而提高新闻推荐的准确率。使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量,在使用用户编码器对用户历史行为进行编码时,使用gru模型块中的门控机制,有效的过滤掉新闻内容中的噪音信息,即用户的误点记录,从而将用户真正感兴趣的新闻获取出来,提高了获取的每个用户的最终编码向量的准确率,在后续进行新闻推荐时,考虑了每个用户的最终编码向量,进而提高了新闻推荐的准确率。进一步计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型,通过逻辑回归的损失函数不断优化预设的新闻推荐模型参数降低模型的损失,提高了训练得到的目标新闻推荐模型的鲁棒性,进而提高了新闻推荐的准确率。
[0151]
实施例三
[0152]
参阅图4所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
[0153]
本领域技术人员应该了解,图4示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
[0154]
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
[0155]
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
[0156]
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于人工智能的新闻推荐装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(read-only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子擦除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0157]
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(control unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
[0158]
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
[0159]
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0160]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0161]
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
[0162]
在进一步的实施例中,结合图3,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的新闻推荐装置20)、程序代码等,例如,上述的各个模块。
[0163]
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图3中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于人工智能的新闻推荐的目的。
[0164]
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成构建模块
201、新闻编码模块202、用户编码模块203、计算模块204、训练模块205及输入模块206。
[0165]
在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的新闻推荐的功能。
[0166]
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1和图2对应实施例中相关步骤的描述,在此不赘述。
[0167]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0168]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0169]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0170]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
[0171]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.一种基于人工智能的新闻推荐方法,其特征在于,所述方法包括:构建新闻训练集,其中,所述新闻训练集中包含有多个用户及每个用户的历史推荐列表,所述历史推荐列表中包含有至少一条新闻;使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量;使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量;计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值;基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型;接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。2.如权利要求1所述的基于人工智能的新闻推荐方法,其特征在于,所述构建新闻训练集包括:从多个预设的数据源获取预设时间段内多个用户及每个用户的历史推荐列表;从每个用户的历史推荐列表中,获取每条新闻的阅读参数;判断所述每条新闻的阅读参数是否满足构建训练集要求;将满足所述构建训练集要求的阅读参数对应的历史新闻,构建为新闻训练集。3.如权利要求1所述的基于人工智能的新闻推荐方法,其特征在于,所述使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量包括:对所述新闻训练集中的每个用户的每条新闻的新闻内容进行预处理;使用分词工具对预处理后的新闻内容中的每个句子进行分词,得到所述每个句子的多个分词;将所述每个句子的多个分词输入至预先训练的词袋模型中,得到每个用户对应的每条新闻的新闻编码向量。4.如权利要求1所述的基于人工智能的新闻推荐方法,其特征在于,所述使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量包括:获取影响每个用户历史行为的多个指标,及每个指标的数据转换策略;基于所述多个指标对所述新闻训练集中的新闻内容进行划分,得到每个指标的数据集;将每个指标的数据集,按照对应的数据转换策略进行转换,得到所述每个用户的历史行为序列;使用用户编码器对所述历史行为序列进行编码,得到每个用户历史行为编码向量;将所述每个用户历史行为编码向量输入至gru循环神经网络模型中进行用户兴趣预测,得到每个用户的最终编码向量。5.如权利要求1所述的基于人工智能的新闻推荐方法,其特征在于,所述基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新
闻推荐模型包括:将每个用户的每条新闻的概率分值及对应新闻的点击频率输入至所述逻辑回归的损失函数中,获取预设的新闻推荐模型的损失值;基于所述损失值迭代优化所述预设的新闻推荐模型的参数,直至所述损失值小于或者等于预设的损失阈值,得到目标新闻推荐模型。6.如权利要求5所述的基于人工智能的新闻推荐方法,其特征在于,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:对所述目标推荐新闻进行分词处理,得到分词结果;计算所述分词结果中每个分词与对应注意力权重之间的乘积,得到每个分词的重要性得分;从所述多个分词的多个重要性得分中选取满足重要性得分阈值的分词作为第一关键词;将所述目标推荐新闻输入标注模型,得到标注结果;从所述标注结果中提取第二关键词;计算所述第一关键词和所述第二关键词与所述用户的用户画像之间的匹配度;当所述匹配度大于或者等于预设的匹配度阈值时,推荐所述目标推荐新闻;当所述匹配度小于所述预设的匹配度阈值时,拒绝推荐所述目标推荐新闻。7.如权利要求1所述的基于人工智能的新闻推荐方法,其特征在于,在所述将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻之后,所述方法还包括:识别所述目标推荐新闻是否为所述用户已点击新闻;若所述目标推荐新闻为所述用户已点击新闻,拒绝推荐所述目标推荐新闻;若所述目标推荐新闻不为所述用户已点击新闻,推荐所述目标推荐新闻。8.一种基于人工智能的新闻推荐装置,其特征在于,所述装置包括:构建模块,用于构建新闻训练集;新闻编码模块,用于使用新闻内容编码器对所述新闻训练集中的新闻内容进行编码,得到每个用户对应的每条新闻的新闻编码向量;用户编码模块,用于使用用户编码器对所述新闻训练集中的用户历史行为进行编码,得到每个用户的最终编码向量;计算模块,用于计算所述每个用户对应的每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积,得到对应用户的每条新闻的概率分值;训练模块,用于基于每个用户的每条新闻的概率分值,使用逻辑回归的损失函数训练预设的新闻推荐模型,得到目标新闻推荐模型;输入模块,用于接收用户输入的推荐内容,及将所述推荐内容输入至所述目标新闻推荐模型中,得到目标推荐新闻。9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的新闻推荐方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的新闻推荐方法。

技术总结
本发明涉及人工智能技术领域,提供一种基于人工智能的新闻推荐方法、装置、电子设备及介质,所述方法包括:构建新闻训练集;使用新闻内容编码器对新闻训练集中的新闻内容进行编码,得到每条新闻的新闻编码向量;使用用户编码器对用户历史行为进行编码,得到每个用户的最终编码向量;计算每条新闻的新闻编码向量和对应用户的最终编码向量之间的向量内积作为概率分值,基于每个用户的每条新闻的概率分值,训练预设的新闻推荐模型,得到目标新闻推荐模型;将用户输入的推荐内容输入至目标新闻推荐模型中,得到目标推荐新闻。本发明通过使用用户编码器对用户历史行为进行编码,有效的过滤掉新闻内容中的噪音信息,提高了新闻推荐的准确率。的准确率。的准确率。


技术研发人员:陈浩
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.19
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐