一种基于语义特征的中文儿童故事生成方法

未命名 09-08 阅读:146 评论:0


1.本发明涉及自然语言处理技术领域,特别是涉及一种基于语义特征的中文儿童故事生成方法。


背景技术:

2.文本生成任务是自然语言处理领域的一个重要研究方向,能够实现高质量的文本生成也是人工智能走向成熟的一个重要标志,也是人工智能迈向认知智能的关键。作为计算语言学的重要子领域,自然语言生成技术可以应用于开放域对话机器人、自动文摘等生活场景,用来实现更为智能便捷的人机交互。故事生成任务通常是以故事的开头作为输入,生成接下来的故事作为输出。由于只受到故事开头信息的引导,后续生成的内容往往无法妥善受控,存在缺乏逻辑或应用价值等问题。该任务对于人类来说需要较高的逻辑思维能力以及语言组织能力,因此对于机器会更加困难。
3.目前在自然语言处理领域中,中文故事生成相关研究存在着以下不足:
4.1.目前缺少相应的训练语料,缺少高质量的中文故事集;
5.2.存在难以捕捉语义信息的问题。生成连贯的长文本的能力在许多自然语言生成应用中起着重要作用,特别是对于开放式语言生成任务,如故事生成。虽然现有的一些生成模型可以生成具有良好句子内连贯性的文本,但如果没有更高层次的信息加以指导,仍然难以在整个文本中规划连贯的情节,保证输出内容的内在逻辑与语义连贯性。


技术实现要素:

6.本发明目的是为了解决现有技术中的问题,提供了一种基于语义特征的中文儿童故事生成方法。
7.本发明是通过以下技术方案实现的,本发明提出一种基于语义特征的中文儿童故事生成方法,所述方法包括以下步骤:
8.步骤1,构建中文儿童故事数据集;
9.步骤2,将儿童故事数据集作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;
10.步骤3,将关键词或者儿童故事开头输入模型;
11.步骤4,模型通过自编码迭代生成预先设定长度的中文儿童故事。
12.进一步地,在步骤1中,中文儿童故事数据集中存储的每条数据包含:关键词,故事开头和中文故事。
13.进一步地,所述步骤2中模型主体为t5预训练语言模型,包括t5编码器模块、t5解码器模块、bert编码器模块和语义相似度计算模块。
14.进一步地,所述引入句子级语义特征的方法,具体为:所述t5预训练语言模型通过句子相似度预测微调方法进行学习,达到让模型学习到句子级语义信息的目的;在t5模型解码器端每个句子后面都引入一个特殊标记符《sen》,用于聚合本句的语义信息;目标文本
句子通过bert编码器进行编码,然后利用余弦相似度公式计算语义相似度标准值;《sen》标记得到的编码也计算语义相似度;通过句子语义预测任务损失进行反向传播,来控制模型能生成更连贯的句子;其损失计算公式如下:
[0015][0016]
si=sigmoid((hi)
t
·hi+1
)
[0017]
其中,k为目标句子数,第i个目标句子与输入使用中文bert模型编码后的句子级余弦相似度,再经过线性缩放后获得ti;该编码通过对输出字向量求均值获得;hi表示目标文本中第i个句子对应《sen》的输出,h
i+1
表示目标文本中第i+1个位置《sen》对应的输出。
[0018]
进一步地,在步骤3中,如果输入的是关键词,那么在输入模型之前需要进行拼接后作为句子输入。
[0019]
进一步地,在步骤4中,当关键词或故事开头输入模型后,模型通过编码器,解码器得到输出,将输入和输出进行拼接作为下一轮的输入,进行迭代,直到输出的长度达到预设的文本长度为止。
[0020]
本发明的有益效果为:
[0021]
本发明设计的一种基于语义特征的中文儿童故事生成方法,针对当前缺少相应的训练语料,模型存在难以捕捉语义信息的问题,收集并标注相关数据。通过设计一种引入句子级语义特征的方法对模型进行训练,可以让模型学习到更高层次的句子级信息,指导文本生成,提升模型生成的连贯性;本发明可以在给定关键词或故事开头的情况下,自动生成完整的儿童故事,无需人工处理,可以用于辅助创作儿童故事。
附图说明
[0022]
图1是基于语义特征的中文儿童故事生成方法流程图;
[0023]
图2是引入句子级语义特征的方法的模型结构图;
[0024]
图3是使用关键词作为输入的结果示例图;
[0025]
图4是使用故事开头作为输入的结果示例图。
具体实施方式
[0026]
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027]
参照图1所示,本发明提出一种基于语义特征的中文儿童故事生成方法,所述方法包括以下步骤:
[0028]
步骤1,构建中文儿童故事数据集;
[0029]
步骤2,将儿童故事数据集作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;
[0030]
步骤3,将关键词或者儿童故事开头输入模型;
[0031]
步骤4,模型通过自编码迭代生成预先设定长度的中文儿童故事。
[0032]
在步骤1中,中文儿童故事数据库中存储的每条数据包含:关键词,故事开头和中文故事。
[0033]
所述的步骤2中,具体包括:
[0034]
主体为t5预训练语言模型,包括t5编码器模块、t5解码器模块,bert编码器模块和语义相似度计算模块,所述t5预训练语言模型通过句子相似度预测微调方法进行学习,达到让模型学习到句子级语义信息的目的。
[0035]
所述的引入句子级语义特征的方法,其模型结构如图2所示,具体包括以下步骤:
[0036]
1.在t5模型解码器端每个句子后面都引入一个特殊标记符《sen》,用于聚合本句的语义信息;
[0037]
2.目标文本句子通过bert编码器进行编码,然后利用余弦相似度公式计算语义相似度标准值;
[0038]
3.《sen》标记得到的编码也计算语义相似度;
[0039]
4.通过句子语义预测任务损失进行反向传播,来控制模型能生成更连贯的句子;其损失计算公式如下:
[0040][0041]
si=sigmoid((hi)
t
·hi+1
)
[0042]
其中,k为目标句子数,第i个目标句子与输入使用中文bert模型编码后的句子级余弦相似度,再经过线性缩放后获得ti。该编码通过对输出字向量求均值获得。hi表示目标文本中第i个句子对应《sen》的输出,h
i+1
表示目标文本中第i+1个位置《sen》对应的输出。
[0043]
在步骤3中,具体的,如果输入的是关键词,那么在输入模型之前需要进行拼接后作为句子输入。
[0044]
在步骤4中,具体的,当关键词或故事开头输入模型后,模型通过编码器,解码器得到输出,将输入和输出进行拼接作为下一轮的输入,进行迭代,直到输出的长度达到预设的文本长度为止。
[0045]
下面为本发明的两个实施例:
[0046]
本发明提出一种基于语义特征的中文儿童故事生成方法,根据输入的内容不同,会有不同的方法。下面是具体实施例。
[0047]
实施例一、输入的内容为关键词
[0048]
模型的生成方法如下:
[0049]
1、将关键词拼接为完整的句子后输入模型;
[0050]
2、输入通过编码器进行编码;
[0051]
3、通过解码器后获得输出;
[0052]
4、将输入和输出进行拼接作为下一轮的输入,进行迭代,直到输出的长度达到预设的文本长度为止。
[0053]
最后得到的故事生成结果如图3所示。
[0054]
实施例二、输入的内容为故事开头
[0055]
论据匹配及论证生成方法如下:
[0056]
1、将故事开头输入通过编码器进行编码;
[0057]
2、通过解码器后获得输出;
[0058]
3、将输入和输出进行拼接作为下一轮的输入,进行迭代,直到输出的长度达到预设的文本长度为止。
[0059]
最后得到的故事生成结果如图4所示。

技术特征:
1.一种基于语义特征的中文儿童故事生成方法,其特征在于:所述方法包括以下步骤:步骤1,构建中文儿童故事数据集;步骤2,将儿童故事数据集作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;步骤3,将关键词或者儿童故事开头输入模型;步骤4,模型通过自编码迭代生成预先设定长度的中文儿童故事。2.根据权利要求1所述的方法,其特征在于,在步骤1中,中文儿童故事数据集中存储的每条数据包含:关键词,故事开头和中文故事。3.根据权利要求2所述的方法,其特征在于,所述步骤2中模型主体为t5预训练语言模型,包括t5编码器模块、t5解码器模块、bert编码器模块和语义相似度计算模块。4.根据权利要求3所述的方法,其特征在于,所述引入句子级语义特征的方法,具体为:所述t5预训练语言模型通过句子相似度预测微调方法进行学习,达到让模型学习到句子级语义信息的目的;在t5模型解码器端每个句子后面都引入一个特殊标记符<sen>,用于聚合本句的语义信息;目标文本句子通过bert编码器进行编码,然后利用余弦相似度公式计算语义相似度标准值;<sen>标记得到的编码也计算语义相似度;通过句子语义预测任务损失进行反向传播,来控制模型能生成更连贯的句子;其损失计算公式如下:
s
i=sigmoid((h
i
)
t
·
h
i+1
)其中,k为目标句子数,第i个目标句子与输入使用中文bert模型编码后的句子级余弦相似度,再经过线性缩放后获得t
i
;该编码通过对输出字向量求均值获得;h
i
表示目标文本中第i个句子对应<sen>的输出,h
i+1
表示目标文本中第i+1个位置<sen>对应的输出。5.根据权利要求4所述的方法,其特征在于,在步骤3中,如果输入的是关键词,那么在输入模型之前需要进行拼接后作为句子输入。6.根据权利要求5所述的方法,其特征在于,在步骤4中,当关键词或故事开头输入模型后,模型通过编码器,解码器得到输出,将输入和输出进行拼接作为下一轮的输入,进行迭代,直到输出的长度达到预设的文本长度为止。

技术总结
本发明提出一种基于语义特征的中文儿童故事生成方法。所述方法包括构建中文儿童故事数据集;将儿童故事作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;将关键词或者儿童故事开头输入模型;模型通过自编码迭代生成预先设定长度的中文儿童故事。本发明可以在给定关键词或故事开头的情况下,自动生成完整的儿童故事,无需人工处理。本发明可以用于创作儿童故事。事。事。


技术研发人员:赵铁军 徐冰 朱聪慧 曹海龙 杨沐昀 姜海龙
受保护的技术使用者:哈尔滨工业大学
技术研发日:2023.05.16
技术公布日:2023/9/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐