识别演示文稿内图片类型的方法及装置、电子设备与流程
未命名
09-21
阅读:82
评论:0

1.本技术涉及智能办公技术领域,例如涉及一种识别演示文稿内图片类型的方法及装置、电子设备。
背景技术:
2.如图1所示,现有演示文稿具备单页美化功能或全文美化功能,单页美化功能的作用范围是演示文稿的单一页面,全文美化功能的作用范围是完整的演示文稿。单页美化或全文美化均需要获得页面的类型,并根据页面的类型提供相应美化方案。以下结合图2对现有技术中的单页美化功能进行进一步说明:首先确定当前页的页面类型,页面类型可包括封面、目录、章节页、正文页以及结束页,再展示当前页的页面类型对应的多种美化风格,以供用户选择。
3.在实现本技术实施例的过程中,发现相关技术中至少存在如下问题:
4.用户在演示文稿中插入不同类型的图片后,通常会有对应于图片类型的相关操作,例如,在图片类型为标志(logo)的情况下,则应当使该插图缩小居边,而不是放大居中;若实现为不同类型的图片推荐对应的操作,则首先需要对演示文稿内包含的图片进行分类。现有技术仅可对演示文稿的页面类型进行分类,无法对演示文稿内包含的图片进行分类,进而无法为不同类型的图片提供对应的操作。
技术实现要素:
5.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
6.本技术实施例提供了一种识别演示文稿内图片类型的方法及装置、电子设备,以在用户操作需求的角度,对演示文稿中的图片类型进行识别,以便于继续为用户推荐与图片类型对应的操作。
7.在一些实施例中,识别演示文稿内图片类型的方法包括:获得演示文稿中的图片以及文本框中的文本内容;提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;对所述待识别特征向量进行分类处理,获得所述图片的类型。
8.可选地,获得演示文稿中的文本框中的文本内容,包括:获得演示文稿中的全部文本框;在全部文本框中选定设定数量的特征文本框;将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。
9.可选地,在所述全部文本框的数量小于所述设定数量的情况下,以空文本框补足。
10.可选地,提取文本框中的文本内容的文本特征向量,包括:提取每个文本框中的文本内容的子文本特征向量;拼接全部子文本特征向量,获得所述文本特征向量。
11.可选地,提取每个文本框中文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:将文本框中文本内容进行文本嵌入和位置嵌入,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。
12.可选地,获得每个文本框中文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:通过孪生神经网络(siamese neural network)的子网络对所述文本框的文本内容进行特征提取处理,得到所述文本框中文本内容的子文本特征向量;其中,所述孪生神经网络输出的相似度用于表示所述孪生神经网络在训练过程中的训练目标。
13.可选地,提取所述图片的图片特征向量,包括:利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。
14.可选地,对所述待识别特征向量进行识别,获得所述图片的类型,包括:
15.将所述待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;将所述特征表征整合向量确定为分类器的输入量;根据所述分类器的输出量确定所述图片的类型。
16.在一些实施例中,识别演示文稿内图片类型的装置包括获得模块、提取模块、拼接模块和识别模块;所述获得模块用于获得演示文稿中的图片以及文本框中的文本内容;所述提取模块用于提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;所述拼接模块用于拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;所述识别模块用于对所述待识别特征向量进行分类处理,获得所述图片的类型。
17.可选地,所述获得模块包括第一获得单元、选定单元和第一确定单元;所述第一获得单元用于获得演示文稿中的全部文本框;所述选定单元用于在全部文本框中选定设定数量的特征文本框;所述第一确定单元用于将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。
18.可选地,所述提取模块包括提取单元和第二获得单元;所述提取单元用于获得每个文本框中文本内容的子文本特征向量;所述第二获得单元用于拼接全部子文本特征向量,获得所述文本特征向量。
19.可选地,所述提取单元具体用于针对每个所述文本框执行如下处理:将所述文本框中文本内容进行文本嵌入和位置嵌入,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。
20.可选地,所述提取单元具体用于针对每个所述文本框执行如下处理:通过孪生神经网络的子网络对所述文本框的文本内容进行特征提取处理;得到所述文本框中文本内容的子文本特征向量;其中,所述孪生神经网络输出的相似度用于表示所述孪生神经网络在训练过程中的训练目标。
21.可选地,所述提取模块包括第三获得单元,所述第三获得单元用于利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。
22.可选地,所述识别模块包括第四获得单元、第二确定单元和第三确定单元;所述第四获得单元用于将所述待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;所述第二确定单元用于将所述特征表征整合向量确定为分类器的输入量;所述第三确定单元用于根据所述分类器的输出量确定所述图片的类型。
23.在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行前述实施例提供的识别演示文稿内图片类型的方法。
24.在一些实施例中,存储介质存储有程序指令,所述程序指令在运行时执行前述实施例提供的识别演示文稿内图片类型的方法。
25.本技术实施例提供的识别演示文稿内图片类型的方法及装置、电子设备,可以实现以下技术效果:
26.在演示文稿中通常存在文本内容以及图片,结合文本内容的特征与图片内容的特征,可识别出符合演示文稿的演示场景的图片类型,在识别出符合演示文稿的演示场景的图片类型后,便于继续为用户推荐与图片类型对应的操作,以提高用户的使用体验。
27.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。
附图说明
28.一个或一个以上实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件视为类似的元件,并且其中:
29.图1是本技术实施例提供的一种具备单页美化或全文美化的演示文稿的界面示意图;
30.图2是本技术实施例提供的一种推荐美化风格的演示文稿的界面示意图;
31.图3是本技术实施例提供的一种识别演示文稿内图片类型的方法的流程示意图;
32.图4是本技术实施例提供的一种识别演示文稿内图片类型的模型的训练过程的示意图;
33.图5是本技术实施例提供的一种孪生神经网络的示意图;
34.图6是本技术实施例提供的一种用于识别演示文稿内图片类型的模型示意图;
35.图7是本技术实施例提供的一种识别演示文稿内图片类型的装置的示意图;
36.图8是本技术实施例提供的一种电子设备的示意图。
具体实施方式
37.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本技术实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
38.本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在
适当情况下可以互换,以便这里描述的本技术实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
39.除非另有说明,术语“多个”表示两个以上。
40.本技术实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示:a或b。
41.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/或b,表示:a或b,或,a和b这三种关系。
42.在本技术实施例中,将演示文稿中的文本内容以及图片作为演示文稿的演示场景的构成要素,基于演示文稿中的文本内容以及图片,实现了对图片类型的识别,便于继续为用户推荐与图片类型对应的操作,以提高用户的使用体验。另外,这样识别出的图片类型更加符合演示文稿的演示场景,基于符合演示场景的图片类型推荐的相关操作更加符合用户需求,进一步地提高了用户的使用体验。
43.以下对符合演示文稿的演示场景的图片类型进行示例性说明:本技术实施例中的图片类型包括但不限于:表格截图、图表截图、logo、文件截图与实拍、文字截图、手机截屏、执照(证书以及奖状)、带电脑/手机外框的图、肖像、任务场景、装饰图片、风景等。
44.再对为用户推荐与图片类型对应的操作的过程进行示例性说明:在图片类型为肖像的情况下,可为用户推荐人工智能(artificial intelligence,ai)抠图操作;在图片类型为风景的情况下,可为用户推荐图片美化或创意剪裁操作;在图片类型为logo的情况下,为用户提供缩小、居边(居上、居下、居左以及居右)操作。上述图片类型与相关操作的对应关系仅为示例性说明,不对实际应用场景构成具体限定,图片类型及其相关操作的对应关系多种多样,在具体应用过程中,本领域技术人员可依据实际的图片类型对应的用户需求,推荐符合用户需求的相关操作,这里不再一一赘述。
45.图3是本技术实施例提供的一种识别演示文稿内图片类型的方法的流程示意图。
46.结合图3所示,识别演示文稿内图片类型的方法包括:
47.s301、获得演示文稿中的图片以及文本框中的文本内容。
48.本技术实施例中的演示文稿可包括一个页面(或称幻灯片页面)或多个页面;演示文稿中通常包括至少一个文本框、以及至少一个图片,这些文本框的内容以及图片构成了完整的演示场景。
49.例如,可通过如下方式获得演示文稿中的文本框中的文本内容:获得演示文稿中的全部文本框;在全部文本框中选定设定数量(取值为正整数)的特征文本框;将特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,特征文本框中的文本内容的长度小于或等于全部文本框中除特征文本框之外的文本框中的文本内容的长度。
50.特征文本框中的文本内容的长度小于或等于全部文本框中除特征文本框之外的文本框中的文本内容的长度,指的是任一特征文本框中文本内容的长度均小于或等于全部文本框中除特征文本框之外的任一文本框中文本内容的长度。
51.上述设定数量可以是两个、三个、四个或更多个。以下仅以设定数量为三个为例,对获得文本框中的文本内容的方式进行具体说明:
52.某演示文稿中包括四个文本框,其中,第一个文本框内的文本内容的长度为两个字符、第二个文本框中的文本内容的长度为三个字符、第三个文本框中的文本内容的长度为四个字符、第四个文本框中的文本内容的长度为五个字符;按照文本内容的长度由短至
长的顺序对上述四个文本框进行排序,排序结果为:第一个文本框、第二个文本框、第三个文本框以及第四个文本框;此时选定第一个文本框、第二个文本框以及第三个文本框作为特征文本框,并读取第一个文本框、第二个文本框、第三个文本框中的文本内容,将第一个文本框、第二个文本框和第三个文本框中的文本内容确定为该演示文稿中的文本框中的文本内容。
53.在演示文稿包含多个文本框的情况下,标题等概括性文本内容的长度通常较短,解释性文本内容的长度通常较长。这样,特征文本框中的文本内容大概率为概括性文本内容,其他文本框中(非特征文本框)的文本内容大概率为解释性文本内容。依据特征文本框中的文本内容确定文本特征向量,使文本特征向量保留了概括性文本内容所表示的演示文稿的演示场景的相关特征,减少文本特征向量所包含的解释性文本内容的相关特征,降低解释性文本内容对识别结果的影响,提高识别准确度;另外,在特征文本框的数量小于演示文稿中全部文本框的数量的情况下,无需处理全部文本框中的文本内容,即可获得图片的类型,降低了对计算资源的需求。
54.在演示文稿中的全部文本框的数量小于设定数量的情况下,以空文本框补足。即,在原有的文本框的基础上,补充空文本框,构成设定数量的文本框。
55.例如,某演示文稿中包括两个文本框,其中,第一个文本框内的文本内容的长度为两个字符、第二个文本框中的文本内容的长度为三个字符;设定数量为三个,补充一个空文本框(空文本框中的文本内容的长度为零),构成三个文本框;读取第一个文本框、第二个文本框、第三个文本框(即补充的空文本框)中的文本内容,将第一个文本框、第二个文本框和第三个文本框中的文本内容确定为该演示文稿中的文本框中的文本内容。
56.在演示文稿中的全部文本框的数量小于设定数量的情况下,按照上述方式补齐文本框,以便于顺利地确定出特征文本框。
57.s302、提取文本框中的文本内容的文本特征向量,以及提取图片的图片特征向量。
58.演示文稿中文本框的数量通常为至少一个,可通过如下方式提取文本框中的文本内容的文本特征向量:提取每个文本框中文本内容的子文本特征向量;拼接全部子文本特征向量,获得文本特征向量。
59.不同文本框中的文本内容在语义上通常不连续,而提取自然语言的特征的过程通常会参考前后文内容,如果先拼接文本框中的文本内容,再提取拼接后的文本内容的文本特征向量,则不连续的文本内容会对文本特征向量的准确性造成不利影响;在上述获得文本特征向量的过程中,单独提取每个文本框中的文本内容的子文本特征向量,不同文本框的文本内容对提取子文本特征向量的过程不存在不利影响,有利于提取出比较准确的文本特征向量。
60.可提取全部文本框中每个文本框中文本内容的子文本特征向量;拼接全部子文本特征向量,获得文本特征向量。
61.例如,可按照文本内容的长度由短至长的顺序,依次获得各个文本框中文本内容的子文本特征向量,并按照文本内容的长度由短至长的顺序,依次拼接全部子文本特征向量,获得文本特征向量。
62.进一步地,可提取每个特征文本框中文本内容的子文本特征向量;拼接全部子文本特征向量,获得文本特征向量。在演示文稿包括多个文本框的情况下,标题等概括性文本
内容的长度通常较短,解释性文本内容的长度通常较长,按照上述方式获得文本内容的文本特征向量,未对演示文稿中的全部文本内容进行处理,降低了对计算资源的需求;同时,概括性文本内容对演示文稿的演示场景的代表程度高于解释性文本对演示文稿的演示场景的代表程度,按照上述方式获得文本内容的文本特征向量,减少解释性文本内容对概括性文本内容的干扰,提高了识别准确度。
63.以下对提取文本框中文本内容的子文本特征向量的过程进行详细说明:
64.针对每个文本框执行如下处理:将文本框中文本内容进行文本嵌入(word embedding)和位置嵌入(position embedding),获得原始嵌入向量;利用至少一个子编码器对原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为子文本特征向量。
65.其中,在文本嵌入过程中,将文本框中文本内容由自然语言转换成词嵌入向量;在位置嵌入过程中,对文本框中文本内容的每个词进行标记,获得文本框中文本内容的位置嵌入向量,并且,文本框中文本内容的词嵌入向量与位置嵌入向量的维度相同;将词嵌入向量和位置嵌入向量的加和确定为原始嵌入向量。
66.在本技术实施例中,将上述获得文本框中文本内容的子文本特征向量的过程称为编码过程,执行该编码过程的模块可称为编码器。在本技术实施例中,至少一个编码器可包括多个子编码器,其中,多个子编码器顺次连接;利用至少一个子编码器对输入向量依次进行编码处理,可包括:利用第一个子编码器对原始嵌入向量进行编码处理,利用非第一个子编码器对上一个子编码器的输出进行编码处理,以此类推,直至最后一个子编码器对上一个子编码器的输出进行编码处理后停止。这样,即可提取出每个文本框中的文本内容的子文本特征向量。
67.在任一子编码器中,可包括多头自注意力网络以及前馈神经网络,多头自注意力网络的输入为该子编码器的输入,多头自注意力网络的输出为前馈神经网络的输入,前馈神经网络的输出为该子编码器的输出。
68.进一步地,还可利用残差网络对多头自注意力网络以及前馈神经网络进行优化处理。
69.上述编码器可为预训练语言模型,例如预训练语言表征模型(bidirectional encoder representation from transformers,bert)或经过严格优化的bert预训练方法的模型(robustly optimized bert pretraining approach,roberta)。这样,可以通过bert模型或roberta模型获得每个文本框中文本内容的子文本特征向量,具体地,将原始嵌入向量输入值bert模型或roberta模型,将bert模型或roberta模型的输出确定为子文本特征向量。
70.通常情况下,可将预训练语言模型直接应用在本技术方案中,实现对每个文本框中文本内容的编码,最终获得子文本特征向量。
71.下面对编码器的训练过程进行简要说明。
72.对训练样本中的文本内容进行嵌入处理,获得原始嵌入向量;将原始嵌入向量复制为设定份数(取值为正整数)的预处理向量;在每份预处理向量中随机选择设定比例(取值为大于0且小于1的实数)的多个令牌(token)进行掩码处理(masking);对每份masking之后的预处理向量进行编码处理,获得子文本特征向量。
73.其中,对每个文本框中的文本内容进行嵌入处理包括文本嵌入、位置嵌入以及token嵌入(token type embedding),计算文本嵌入、位置嵌入以及token嵌入获得的嵌入向量的和,获得原始嵌入向量。
74.上述设定份数可以是5~15份中的任意一份,例如,设定份数可为5份、6份、7份、8份、9份、10份、11份、12份、13份、14份或15份。将原始嵌入向量复制为设定份数的预处理向量,则预处理向量中包含设定份数的相同的原始嵌入向量。
75.上述设定比例可以是10%~20%中的任意一个,例如,上述设定比例可为10%、11%、12%、13%、14%、15%、16%、17%、18%、19%或20%。对每份预处理向量中随机设定比例的tokens进行masking,则可获得设定份数的masking之后的预处理向量。
76.之后可对每份masking之后的预处理向量进行多次编码处理,获得子文本特征向量。可按照预设顺序依次对每份masking之后的预处理向量进行多次编码处理,以获得子文本特征向量。上述对每份masking之后的预处理向量进行多次编码处理,获得子文本特征向量,可包括:对每份masking之后的预处理向量进行第一次编码处理,对第一次编码处理的结果进行第二次编码处理,对第二次编码处理的结果进行第三次编码处理,
…
,以此类推,获得每份masking之后的预处理向量的编码结果;对全部masking之后的预处理向量的编码结果进行池化(pool)处理,将池化处理结果确定为子文本特征向量。
77.在具体应用中,对每份masking之后的预处理向量进行编码处理的次数可相同。例如,对每份masking之后的预处理向量进行n1次编码处理,设定份数为n2,则总编码处理的次数为:n1×
n2。
78.识别子文本特征向量,获得训练样本中的文本内容的识别结果,比较训练样本中的文本内容的识别结果与训练样本中的文本内容的标记结果,根据比较结果对编码器中的参数进行优化。
79.不断重复上述过程,直至训练样本中的文本内容的识别结果与标记结果的误差满足预设需求,结束训练过程。
80.以上对文本框中文本内容的子文本特征向量进行了说明。进一步地,在已选定设定数量的特征文本框的情况下,为提取特征文本框中文本内容的子文本特征向量,可针对每个特征文本框执行以下处理:将文本框中的文本内容进行文本嵌入处理和位置嵌入处理,获得原始嵌入向量;利用至少一个子编码器对原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为子文本特征向量。
81.以下在获得子文本特征向量的神经网络的总体结构方面进行说明:
82.可选地,提取每个文本框中文本内容的子文本特征向量,包括:针对每个文本框执行如下处理:通过孪生神经网络的子网络对文本框的文本内容进行特征提取处理;得到文本框中文本内容的子文本特征向量;其中,孪生神经网络输出的相似度用于表示孪生神经网络在训练过程中的训练目标。
83.孪生神经网络通常包括两个子网络,该两个子网络共享权重参数,将两个输入量分别输入至两个子网络,再利用欧式距离、余弦距离或曼哈顿距离等计算两个子网络输出的特征向量之间的相似度,孪生神经网络的输出结果通常用于表示两个子网络的输入量的相似度,通常应用于小样本/单样本的学习(one-shot learning)。在一些应用场景中,可将roberta模型或bert模型作为孪生神经网络的子网络。
84.而在本技术实施例中,没有采用上述方式,而是对孪生神经网络的使用方式进行变化,具体的:在识别图像类型的过程中并未涉及孪生神经网络输出的相似度,孪生神经网络输出的相似度仅作为训练过程中的训练目标;这里的训练目标指的是:在孪生神经网络的训练过程中,将两个已知相似度的文本内容分别输入至孪生神经网络的两个子网络并获得两个文本内容的计算相似度,通过调整子网络的参数,使计算相似度与已知相似度的偏差在预期偏差范围内。如果计算相似度与已知相似度的偏差在预期偏差范围外,则依据该计算相似度和已知相似度的差值对孪生神经网络的子网络的参数进行进一步优化,直至两个文本内容的计算相似度与已知相似度的偏差在预期偏差范围内。
85.在本技术实施例中,演示文稿中文本框中的文本内容通常较少,即,在训练过程中每个训练样本的特征较少,利用孪生神经网络,可减少训练过程中错误样本的干扰,训练出比较准确的处理文本框中文本内容的神经网络(孪生神经网络的子网络)。
86.以上在神经网络的总体结构的方面对子文本特征向量的提取方式进行了解释说明。进一步地,在已选定设定数量的特征文本框的情况下,为提取每个文本框中文本内容的子文本特征向量,可针对每个特征文本框执行如下处理:通过孪生神经网络的子网络对特征文本框的文本内容进行特征提取处理;得到特征文本框中文本内容的子文本特征向量;其中,孪生神经网络输出的相似度用于表示孪生神经网络在训练过程中的训练目标。
87.以下再对提取图片的图片特征向量的过程进行详细说明:
88.可选地,提取图片的图片特征向量,包括:利用卷积神经网络的每个输入通道对应的卷积核对图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得图片特征向量。
89.在上述提取图片的图片特征向量的过程中,卷积神经网络的每个输入通道均对应独立的卷积核,该卷积核可对输入通道的输入量进行卷积处理,再利用一个卷积核对全部输入通道对应的卷积输出进行线性化组合,此时即可提取出图片特征,获得图片特征向量。通过上述方式获得图片特征向量,由于利用与输入通道对应的卷积核对每个输入通道的输入量进行卷积处理,可降低损失的图片的特征,维持了精度较高的图片特征,再利用单个卷积核对全部输入通道对应的卷积输出进行线性化组合,可降低处理过程中所需的内存数量。
90.上述每个输入通道对应的卷积核可为3*3的卷积核,上述单个卷积核可以是1*1的卷积核。
91.卷积神经网络的层数至少为一层,在每层卷积神经网络中,通过与输入通道对应的卷积核对每个输入通道的输入量进行卷积处理,获得卷积输出;利用单个卷积核对全部输入通道对应的卷积输出进行线性化组合,获得每层卷积神经网络的输出。
92.在卷积神经网络的层数为多层的情况下,第一层卷积神经网络的输入量为演示文稿中的图片,非第一层神经网络的输入量为上一层卷积神经网络的输出量,例如,第二层卷积神经网络的输入量为第一层卷积神经网络的输出量,以此类推;最后一层卷积神经网络的输出量为图片特征向量。
93.例如:提取图片的图片特征向量,包括:
94.将图片输入至第一层卷积神经网络的输入通道;利用第一层卷积神经网络的每个输入通道对应的卷积核对本输入通道的输入量进行卷积处理,以获得多个卷积输出量;利
用单个卷积核对第一层卷积神经网络的全部输入通道对应的卷积输出量进行线性化组合,以获得第一层卷积神经网络的输出量;
95.在每个中间层卷积神经网络中执行以下处理:将上一层卷积神经网络的输出量输入至本层卷积神经网络的输入通道;利用本层卷积神经网络的每个输入通道对应的卷积核对本输入通道的输入量进行卷积处理,以获得多个卷积输出量;利用单个卷积核对本层卷积神经网络的全部输入通道对应的卷积输出量进行线性化组合,以获得本层卷积神经网络的输出量;
96.将最后一层卷积神经网络的输出量确定为图片特征向量。
97.进一步地,可通过试验的方式确定卷积网络的层数,例如,逐层改变卷积网络的层数,将图片类型识别准确率最高时卷积网络的层数,确定为最终的卷积网络的层数。
98.通过上述方式即可获得图片特征向量。
99.在一些具体应用中,可采用mobilenetv2对图片进行处理,获得图片特征向量。
100.s303、拼接文本特征向量以及图片特征向量,获得待识别特征向量。
101.例如,文本特征向量为v
t
,图片特征向量为v
p
,则待识别特征为[v
t
;v
p
]。
[0102]
s304、对待识别特征向量进行分类处理,获得图片的类型。
[0103]
例如,可通过如下方式对待识别特征向量进行分类处理,获得图片的类型:将待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;将特征表征整合向量确定为分类器的输入量;根据分类器的输出量确定图片的类型,例如,将分类器的输出量中概率最大的类型确定为图片的类型。
[0104]
在具体应用中,这里的分类器可以是softmax分类器。
[0105]
可通过至少一层全连接神经网络对待识别特征向量进行特征表征整合处理,以获得特征整合向量。在全连接层为多层的情况下,第一层全连接神经网络的输入量为待识别特征向量,非第一层全连接神经网络的输入量为上一层全连接神经网络的输出量,例如,第二层全连接神经网络的输入量为第一层全连接神经网络的输出量,以此类推;最后一层全连接神经网络的输出量为上述的特征表征整合向量。
[0106]
例如,将待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量,包括:通过第一层全连接神经网络对待识别特征向量进行特征表征整合处理,以获得第一层全连接神经网络的输出量;其中,第一层全连接神经网络的输出量的维数小于待识别特征向量的维数;通过中间层全连接神经网络对上一层全连接神经网络的输出量进行特征表征整合处理,以获得本层全连接神经网络的输出量;其中,本层全连接神经网络的输出量的维数小于上一层全连接神经网络的输出量的维数;将输出量的维度小于或等于预设维数的全连接神经网络确定为最后一层全连接神经网络;将最后一层全连接神经网络的输出量确定为特征表征整合向量。进而获得特征表征整合向量,并利用分类器对特征表征整合向量分类处理,最终获得图片的类型。在对特征表征整合处理后,便于通过分类器分类,进而确定出图片的类型。
[0107]
在演示文稿中通常存在文本内容以及图片,在本技术实施例提供的识别演示文稿内图片类型的方法中,结合文本内容的特征与图片内容的特征,可识别出符合演示文稿的演示场景的图片类型,在识别出符合演示文稿的演示场景的图片类型后,便于继续为用户推荐相关操作,以提高用户的使用体验。
[0108]
本技术实施例中提供的识别演示文稿内图片类型的方法可作为前置的ai技术能力,可识别演示文稿内图片(插图)的类型,为广泛支持演示文稿中的“创意剪裁”、“扣除背景”、“单页美化”、“全文美化”等功能。例如,当用户在终端进行插图操作后,可依据插图的类型为用户推荐“创意剪裁”和“扣除背景”等操作;为用户设置“单页美化”和“全文美化”的选项,在终端接收到“单页美化”的选项被触发,则识别演示文稿中图片类型,进而根据图片类型推荐美化方案,在终端接收到“全文美化”的选项被触发后,可依次识别各演示文稿中图片类型,并为每个图片类型推荐对应的美化方案,或者,依据全部图片的图片类型推荐美化方案。
[0109]
图4是本技术实施例提供的一种识别演示文稿内图片类型的模型的训练过程的示意图。
[0110]
结合图4所示,首先由人工对演示文稿中图片的类型进行标注,可通过表1所示的对应关系进行标注:
[0111]
表1编码与类型的对应表
[0112]
编码类型0表格截图1图表截图2logo3文件截图与实拍4文字截图5手机截屏6执照、证书、奖状7带电脑、手机外框的图8肖像9人物场景10装饰图片11风景12其他
[0113]
例如,可人工辨别演示文稿中图片的类型,并利用该类型对应的编码对演示文稿进行标注。
[0114]
之后对演示文稿进行解析,以获得演示文稿中图片以及文本框的文本内容,再提取文本框中的文本内容的文本特征向量,以及提取图片的图片特征向量;拼接文本特征向量以及图片特征向量,获得待识别特征向量。
[0115]
将待识别特征向量及其对应的标注作为训练样本,按照设定优化目标、训练策略对多层全连接神经网络进行训练。待达到设定优化目标后,确定训练完成并停止训练。在多层全连接神经网络的训练过程中,可将交叉熵损失函数作为优化目标,即,以降低交叉熵损失函数的值作为优化目标;利用adam优化器,即,对梯度的一阶矩估计(first moment estimation,梯度的均值)和二阶矩估计(secondmoment estimation,梯度的未中心化的方差)进行综合考虑,计算出更新步长,实现对多层全连接神经网络中权重的更新;并且采用earlystopping的训练策略,即,当交叉熵损失值在10个迭代周期内不再下降时,就停止训
练。
[0116]
之后可将训练完成的多层全连接神经网络部署至服务器,由服务器对图片(插图)的类型进行识别。例如,当用户在终端中为演示文稿插图后,终端将演示文稿的信息发送至服务器,服务器对插图的类型进行识别,并向终端反馈识别结果。
[0117]
在后续应用过程中,可在服务器或终端部署与图片的类型对应的相关操作,当服务器识别出图片的类型后,在终端提示与图片的类型对应的相关操作,进而提高用户的使用体验。
[0118]
图5是本技术实施例提供的一种孪生神经网络的示意图。在该孪生神经网络的训练过程中,可将已知相似度的文本对text1与text2分别输入孪生神经网络的两个子网络中,两个子网络分别输出第一特征向量v1与第二特征向量v2,通过欧式距离、余弦距离或曼哈顿距离等计算第一特征向量v1与第二特征向量v2的相似度,如果计算出的相似度与已知相似度的偏差大于预期偏差范围(例如计算出的相似度小于已知相似度的60%),则同时调整孪生神经网络的两个子网络的权重参数,以使计算出的相似度尽可能地逼近已知相似度。
[0119]
图6是本技术实施例提供的一种用于识别演示文稿内图片类型的模型示意图。
[0120]
在该实施例中,孪生神经网络首先处理第一个文本框内的文本1,获得第一个312维的子文本特征向量,再处理第二个文本框内的文本2,获得第二个312维的子文本特征向量,最后处理第三个文本框内的文本3,获得第三个312维的子文本特征向量,拼接该三个子文本特征向量,获得936维的文本特征向量。
[0121]
利用mobilenetv2网络对图片进行处理,获得960维的图片特征向量,拼接936维的文本特征向量和960维的图片特征向量,获得1896维的待识别特征向量。
[0122]
将1896维的待识别特征向量输入至第一层全连接神经网络,获得第一层全连接神经网络输出的512维的输出量,将该512维的输出量输入至第二层全连接神经网络,获得128维的输出量,将该128维的输出量输入至第三层全连接神经网络,第三层全连接神经网络的输出量再输入至softmax分类器,将softmax分类器的输出量中概率最高的类型确定为图片的类型。
[0123]
图7是本技术实施例提供的一种识别演示文稿内图片类型的装置的示意图。该装置可通过软件、硬件或二者结合的形式实现。
[0124]
结合图7所示,识别演示文稿内图片类型的装置包括获得模块71、提取模块72、拼接模块73以及识别模块74;获得模块71用于获得演示文稿中的图片以及文本框中的文本内容;提取模块72用于提取文本框中的文本内容的文本特征向量,以及提取图片的图片特征向量;拼接模块73用于拼接文本特征向量以及图片特征向量,获得待识别特征向量;识别模块74用于对待识别特征向量进行分类处理,获得图片的类型。
[0125]
可选地,获得模块71包括第一获得单元、选定单元和第一确定单元;第一获得单元用于获得演示文稿中的全部文本框;选定单元用于在全部文本框中选定设定数量的特征文本框;第一确定单元用于将特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,特征文本框中文本内容的长度小于或等于全部文本框中除特征文本框之外的文本框中的文本内容的长度。
[0126]
可选地,在全部文本框的数量小于设定数量的情况下,以空文本框补足。
[0127]
可选地,提取模块72包括提取单元和第二获得单元;提取单元用于提取每个文本
框中的文本内容的子文本特征向量;第二获得单元用于拼接全部子文本特征向量,获得文本特征向量。
[0128]
可选地,提取单元具体用于将每个文本框中文本内容进行文本嵌入和位置嵌入,获得原始嵌入向量;利用至少一个子编码器对原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为子文本特征向量。
[0129]
可选地,提取单元具体用于针对每个文本框执行以下处理:通过孪生神经网络的子网络对每个文本框的文本内容进行特征提取处理;得到文本框中文本内容的子文本特征向量;其中,孪生神经网络输出的相似度用于表示孪生神经网络在训练过程中的训练目标。
[0130]
可选地,提取模块72包括第三获得单元,第三获得单元用于利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。
[0131]
可选地,识别模块74包括第四获得单元、第二确定单元和第三确定单元;第四获得单元用于将待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;第二确定单元用于将特征表征整合向量确定为分类器的输入量;第三确定单元用于根据分类器的输出量确定图片的类型。
[0132]
在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行前述实施例提供的识别演示文稿内图片类型的方法。
[0133]
图8是本技术实施例提供的一种电子设备的示意图。结合图8所示,电子设备包括:
[0134]
处理器(processor)81和存储器(memory)82,还可以包括通信接口(communication interface)83和总线84。其中,处理器81、通信接口83、存储器82可以通过总线84完成相互间的通信。通信接口83可以用于信息传输。处理器81可以调用存储器82中的逻辑指令,以执行前述实施例提供的识别演示文稿内图片类型的方法。
[0135]
此外,上述的存储器82中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0136]
存储器82作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本技术实施例中的方法对应的程序指令/模块。处理器81通过运行存储在存储器82中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
[0137]
存储器82可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非易失性存储器。
[0138]
本技术实施例提供了一种存储介质,存储有程序指令,程序指令在运行时执行前述实施例提供的识别演示文稿内图片类型的方法。
[0139]
本技术实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行前述实施例提供的识别演示文稿内图片类型的方法。
[0140]
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
[0141]
本技术实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存
储在一个存储介质中,包括一个或一个以上指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术实施例中方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机读取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0142]
以上描述和附图充分地示出了本技术的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。另外,当用于本技术中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
[0143]
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0144]
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本技术实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0145]
附图中的流程图和框图显示了根据本技术实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以
不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
技术特征:
1.一种识别演示文稿内图片类型的方法,其特征在于,包括:获得演示文稿中的图片以及文本框中的文本内容;提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;对所述待识别特征向量进行分类处理,获得所述图片的类型。2.根据权利要求1所述的方法,其特征在于,获得演示文稿中的文本框中的文本内容,包括:获得演示文稿中的全部文本框;在全部文本框中选定设定数量的特征文本框;将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。3.根据权利要求1所述的方法,其特征在于,提取文本框中的文本内容的文本特征向量,包括:提取每个文本框中的文本内容的子文本特征向量;拼接全部子文本特征向量,获得所述文本特征向量。4.根据权利要求3所述的方法,其特征在于,提取每个文本框中的文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:将所述文本框中的文本内容进行文本嵌入处理和位置嵌入处理,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。5.根据权利要求3所述的方法,其特征在于,提取每个文本框中的文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:通过孪生神经网络的子网络对所述文本框的文本内容进行特征提取处理,得到所述文本框中的文本内容的子文本特征向量;其中,所述孪生神经网络输出的相似度用于表示所述孪生神经网络在训练过程中的训练目标。6.根据权利要求1至5任一项所述的方法,其特征在于,提取所述图片的图片特征向量,包括:利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。7.根据权利要求1至5任一项所述的方法,其特征在于,对所述待识别特征向量进行分类处理,获得所述图片的类型,包括:将所述待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;将所述特征表征整合向量确定为分类器的输入量;根据所述分类器的输出量确定所述图片的类型。
8.一种识别演示文稿内图片类型的装置,其特征在于,包括:获得模块,用于获得演示文稿中的图片以及文本框中的文本内容;提取模块,用于提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;拼接模块,用于拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;识别模块,用于对所述待识别特征向量进行分类处理,获得所述图片的类型。9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的识别演示文稿内图片类型的方法。10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时执行如权利要求1至7任一项所述的识别演示文稿内图片类型的方法。
技术总结
本申请涉及智能办公技术领域,公开了一种识别演示文稿内图片类型的方法。该识别演示文稿内图片类型的方法包括:获得演示文稿内的图片以及文本框中的文本内容;提取文本框中的文本内容的文本特征向量,以及提取图片的图片特征向量;拼接文本特征向量以及图片特征向量,获得待识别特征向量;对待识别特征向量进行识别,获得图片的类型。采用该识别演示文稿内图片类型的方法可识别出符合演示文稿的演示场景的图片类型,便于继续为用户推荐相关操作,以提高用户的使用体验。本申请还公开一种识别演示文稿内图片类型的装置、电子设备和存储介质。质。质。
技术研发人员:潘云嵩 张家瑞 宋超
受保护的技术使用者:北京金山办公软件股份有限公司 武汉金山办公软件有限公司
技术研发日:2022.03.07
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/