手写汉字结构评测方法、装置、设备及存储介质与流程

未命名 07-12 阅读:56 评论:0


1.本发明涉及计算机技术领域,尤其涉及一种手写汉字结构评测方法、装置、设备及存储介质。


背景技术:

2.自动汉字书写评价系统可以快速反馈用户书写的不规范所在,从而帮助用户掌握正确的汉字书写规范。现有的自动汉字书写评价系统通常会从笔画书写是否正确,即笔画类型书写是否正确、笔画数量是否正确、笔顺是否正确等角度进行评价;以及从部件书写是否正确角度进行评价,即部件类型是否正确、部件数量是否正确等。但是,不同的汉字的笔顺与部件组成是有可能完全一致的。如对于汉字“另”和汉字“叻”来说,其笔顺以及部件组成是完全一致的。因此,仅凭笔画和部件书写正确就断言汉字书写正确是不够充分的。


技术实现要素:

3.鉴于以上技术问题,本发明提供了一种手写汉字结构评测方法、装置、设备及存储介质,该方法可以在对所书写汉字的笔画及部件进行相应验证后,进一步从汉字结构角度对汉字书写的正确性进行验证,从而使用户能够掌握更为细致且完整的汉字书写规范。
4.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
5.根据本发明的一方面,提出了一种手写汉字结构评测方法,所述评测方法包括:
6.创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;
7.基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;
8.基于所述结构特征和所述样本标签,训练得到结构识别模型;
9.将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
10.进一步的,在创建汉字对应的所述第一表意文字描述序列时,还包括:
11.创建所有待评测汉字对应的所述第一表意文字描述序列,构建得到所有的所述第一表意文字描述序列的查询表;
12.在将对应的所述结构信息作为所述结构特征的所述样本标签时,具体包括;
13.提取所述查询表中对应的所述第一表意文字描述序列中的所述结构信息,将提取的所述结构信息作为所述结构特征的所述样本标签。
14.进一步的,所述结构信息包括以下的一种或多种:
15.左右结构;上下结构;左中右结构;上中下结构;上包围结构;下包围结构;左包围结构;全包围结构;镶嵌结构。
16.进一步的,所述提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征
组成整个汉字的结构特征,包括:
17.将汉字的所述手写笔迹数据中每条笔画的轨迹点序列按照笔画与部件的归属关系划分至对应的部件中;
18.提取每个部件的坐标特征、标记特征,将所述坐标特征和所述标记特征进行拼接,得到分别与每个部件对应的特征向量;
19.基于所有部件的所述特征向量,组成整个汉字的所述结构特征。
20.进一步的,所述手写笔迹数据包括组成汉字的笔画的轨迹点序列,每个笔画的每个轨迹点具有坐标,所述坐标特征由部件所含所有轨迹点构成的外切矩形框的左下点坐标与右上点坐标以及质心坐标构成,所述标记特征用于标明部件所述外切矩形框中轨迹点区域的存在性。
21.进一步的,所述结构识别模型为基于序列到序列模型结构得到的。
22.进一步的,所述将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果,包括:
23.对所述手写汉字所书写的部件进行判定;
24.当所述手写汉字所书写的部件判定结果为正确时,对所述手写汉字的轨迹点序列的所述结构特征进行提取;
25.根据提取到的所述结构特征以及所述结构识别模型,对所述手写汉字的所述结构信息进行预测;
26.将所述结构信息的预测结果与所述手写汉字的所书写的部件进行组合,得到当前手写汉字的第二表意文字描述序列;
27.将所述第二表意文字描述序列与所述手写汉字对应的正确的所述第一表意文字描述序列进行对比,得到所述评测结果。
28.根据本公开的第二方面,提供一种手写汉字结构评测装置,包括信息创建模块,用于创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;特征提取模块,用于基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;模型生成模块,用于基于所述结构特征和所述样本标签,训练得到结构识别模型;评测模块,用于将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
29.根据本公开的第三方面,提供一种手写汉字结构评测设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;基于所述结构特征和所述样本标签,训练得到结构识别模型;将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
30.根据本公开的第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时上述的评测方法。
31.本公开的技术方案具有以下有益效果:
32.1、在对所书写汉字进行了部件层次的正确性判定的基础上,进一步的汉字结构判定,可以给到用户更为细致且完整的汉字书写正确性反馈;
33.2、在进行汉字结构预测时,只利用了部件笔迹的抽象特征,从而使得模型在进行汉字结构预测时仅利用部件的位置与形状信息,从而提升模型的泛化能力;
34.3、采用基于模型的评测方式,能应付各种特殊场景下的汉字结构预测,并能提供更高的准确率,从而更适用于有着不同书写风格与书写习惯的用户。
附图说明
35.图1为本说明书实施例中的一种手写汉字结构评测方法的流程图;
36.图2为本说明书实施例中示范性的手写汉字的示意图;
37.图3说明书实施例中的利用结构识别模型对手写汉字进行评测的方法的流程图;
38.图4说明书实施例中的汉字结构正确书写时的评测示例图;
39.图5说明书实施例中的汉字结构错误书写时的评测示例图;
40.图6为本说明书实施例中一种手写汉字结构评测装置的示意图;
41.图7为本说明书实施例中一种用于实现手写汉字结构评测方法的终端设备;
42.图8为本说明书实施例中一种用于实现手写汉字结构评测方法的计算机可读存储介质。
具体实施方式
43.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
44.此外,附图仅为本公开的示意性图解。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
45.如图1所示,本说明书实施例提供一种手写汉字结构评测方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等。该方法具体可以包括以下步骤s101~s104:
46.在步骤s101中,创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息。
47.其中,汉字作为表意文字即通过不同形状的组合来表示含义的文字,其中的形状
通常指部件,根据汉字中的部件数量可以将汉字分为独体字和合体字,其中独体字为单部件汉字,合体字是由多个部件通过特定结构组合而成的汉字。在合体字中,通过将部件与结构进行特定组合即可对任意汉字进行描述,而经过特定组合得到的序列通常被称为表意文字描述序列,不同汉字其表意文字描述序列是不相同的。结构信息即为描述汉字的部件结构的信息,部件信息即为汉字所包含的部件。
48.示范性的,结构信息可以分为:左右结构,以表示;上下结构,以表示、左中右结构,以表示;上中下结构,以表示;右上包围结构,以表示;左上包围结构,以表示;左下包围结构,以表示;上包围结构,以表示;下包围结构,以表示;左包围结构,以表示;全包围结构,以表示;镶嵌结构,以表示。
49.由于不同汉字的第一表意文字描述序列应是不同的,因此,构建得到的第一表意文字描述序列查询表用来作为汉字结构是否正确的判定依据。如对于汉字“结”,其部件信息可以表示为“纟士口”,根据其部件组成结构,即结构信息,可以将“结”的第一表意文字描述序列表示为
50.在步骤s102中,基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签。
51.其中,在创建汉字对应的第一表意文字描述序列的同时,还需要收集足够的训练样本,训练样本由手写汉字的笔迹组成,为使得这些手写笔迹可以被分析,将这些手写笔迹进行数据化,并进行相关部件的特征提取,使得手写的汉字具有可被分析的结构特征,并且,由于是训练样本,这些手写汉字对应的规范汉字的结构信息是已知的,因此,将已知的结构信息作为手写汉字的样本标签,使得对应模型可以被训练。
52.值得注意的是,在此步骤中,可以选择将汉字的第一表意文字描述序列中的部件信息去除,仅留下结构信息,并将结构信息作为当前样本的标签。
53.在步骤s103中,基于所述结构特征和所述样本标签,训练得到结构识别模型。
54.在步骤s104中,将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
55.由于结构识别模型的训练样本是手写汉字的结构特征和对应的结构信息,因此,在应用时,对需要评测的汉字进行分析时,该结构识别模型便可以根据待评测的手写汉字的结构特征反推结构信息,从而进一步对汉字书写正确性从汉字结构角度进行评价。
56.在一实施方式中,在步骤s101中,还包括:
57.创建所有待评测汉字对应的所述第一表意文字描述序列,构建得到所有的所述第一表意文字描述序列的查询表。
58.由于在构建第一表意文字描述序列时,一般会构建所有的汉字或常用汉字的第一表意文字描述序列,因此,构建查询表,使得在后续的模型训练和汉字评测中,可以直接从查询表中获取对应的第一表意文字描述序列,从而提高工作效率。尤其是模型训练中,则可以直接提取查询表中对应的第一表意文字描述序列中的结构信息,使得可以将提取的结构信息作为结构特征的样本标签。
59.在一实施方式中,在步骤s102中,所述提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,包括:
60.将汉字的所述手写笔迹数据中每条笔画的轨迹点序列按照笔画与部件的归属关系划分至对应的部件中。提取每个部件的坐标特征、标记特征,将所述坐标特征和所述标记特征进行拼接,得到分别与每个部件对应的特征向量;基于所有部件的所述特征向量,组成整个汉字的所述结构特征。
61.作为补充的,所述手写笔迹数据包括组成汉字的笔画的轨迹点序列,每个笔画的每个轨迹点具有坐标,所述坐标特征由部件所含所有轨迹点构成的外切矩形框的左下点坐标与右上点坐标以及质心坐标构成,所述标记特征用于标明部件所述外切矩形框中轨迹点区域的存在性。
62.以下将示范性解释训练样本获取原理和模型的训练原理。
63.在手写笔迹数据中,在设定汉字具有n条笔画时,第i条笔画在书写时的轨迹点的数量为ci,将手写笔迹数据表示为s={(x
11
,y
11
),(x
12
,y
12
),...,(x
1c1
,y
1c1
),...,(x
ncn
,y
ncn
)},其中,(x
ij
,y
ij
)表示为汉字第i条笔画的第j个轨迹点坐标。
64.基于该公式s,使得手写笔迹数据可以被收集和分析,进而可以作为构建汉字结构识别模型的训练样本。结构识别模型的构建过程包括将汉字的手写笔迹数据中每条笔画的轨迹点序列按照笔画与部件的归属关系划分至对应的部件之中,然后在每个部件中提取相应的特征,并将从每个部件中提取到的特征组成该汉字的特征。在每个部件中提取特征的具体步骤为:
65.提取由该部件所含所有轨迹点构成的外接矩形框的左下坐标与右上坐标以及质心坐标构成的坐标特征。假设该部件共拥有m个轨迹点,其轨迹点序列可以表示为ri={(x1,y1),...,(xm,ym)}。这m个轨迹点中在x轴和y轴上的最小值分别为x
min
和y
min
,最大值分别为x
max
和y
max

66.m个轨迹点在x轴上的平均值表示为:
[0067][0068]
m个轨迹点在y轴上的平均值表示为:
[0069][0070]
则外接矩形框的左下坐标可以表示为(x
min
,y
min
),右下坐标可以表示为(x
max
,y
max
),质心坐标可以表示为(x
mean
,y
mean
),坐标特征可以表示为[x
min
,y
min
,x
max
,y
max
,x
mean
,y
mean
]。
[0071]
标记特征需要提取,使得部件外接矩形框中轨迹点区域存在性可以被标明。根据预设参数grid将该部件的外接矩形框划分成大小相等的grid*grid个区域,然后依次检测在这grid*grid个区域中是否存在属于该部件的轨迹点,若存在,则标记为1,否则标记为0,最终得到长度为grid*grid的标记特征向量[g1,g2,...,g
grid*grid
],其中,gi∈{01}。
[0072]
将坐标特征向量与标记特征向量进行拼接,从而得到长度为l的该部件的特征向量:
[0073]
feature=[x
min
,y
min
,x
max
,y
max
,x
mcan
,y
mean
,g1,g2,...,g
grid*grid
]
[0074]
其中,l=6+grid*grid。
[0075]
将汉字的表意文字描述序列中的部件信息去除仅留下结构信息,并将结构信息作
为当前样本的标签。
[0076]
具体的,如图2所示,给定汉字“结”以及其手写笔迹数据,并构建其所含部件的外接矩形框,其对应的表意文字描述序列可以表示为则其结构预测的真实标签为其中“*”为部件占位符,用于表示任意部件,从而使得模型在进行预测时只需要考虑汉字结构而不需要考虑是由哪些部件所构成的结构。经过以上步骤,汉字“结”对应的训练样本可以表示为{feature1,feature2,feature3,label},其中,featurei表示为第i个部件上提取的特征向量,
[0077]
在一实施方式中,所述结构识别模型为基于序列到序列模型结构得到的。
[0078]
其中,基于序列到序列模型结构构建汉字结构识别模型,并利用构建得到的训练样本进行训练。序列到序列模型通常由两部分组成,分别为编码器与解码器。其中编码器用于接收输入特征进行深层特征提取,解码器用于接收编码器提取的深层特征从而进行输出序列的预测。在进行汉字结构识别模型构建时,编码器可以采用多层的bilstm,即双向长短时记忆网络,用于接收汉字结构特征并进行深层特征提取。解码器可以采用的是结合了注意力机制的多层的gru,gru即门控循环单元模型,用于接收由编码器提取的深层特征进行结构序列的预测。
[0079]
在一实施方式中,在获得了结构识别模型后,便可以进行汉字书写正确性评测。如图3所示,评测的过程包括步骤s301-s305:
[0080]
在步骤s301中,对所述手写汉字所书写的部件进行判定。
[0081]
在步骤s302中,当所述手写汉字所书写的部件判定结果为正确时,对所述手写汉字的轨迹点序列的所述结构特征进行提取。
[0082]
在步骤s303中,根据提取到的所述结构特征以及所述结构识别模型,对所述手写汉字的所述结构信息进行预测。
[0083]
在步骤s304中,将所述结构信息的预测结果与所述手写汉字的所书写的部件进行组合,得到当前手写汉字的第二表意文字描述序列。
[0084]
在步骤s305中,将所述第二表意文字描述序列与所述手写汉字对应的正确的所述第一表意文字描述序列进行对比,得到所述评测结果。
[0085]
其中,如图4所示,提供一种汉字结构正确书写时的评测示例。图4为汉字“前”的汉字结构正确书写示例。汉字“前”的部件组成为其在表意汉字描述序列查询表中的正确的第一表意汉字描述序列为使用汉字结构识别模型对图4对应的书写汉字进行汉字书写正确性评测得到的第二表意汉字描述序列为写汉字进行汉字书写正确性评测得到的第二表意汉字描述序列为因此可以判定当前书写汉字的汉字结构是正确的。
[0086]
如图5所示,图5为汉字“前”的汉字结构错误书写示例。使用汉字结构识别模型对图5对应的书写汉字进行汉字书写正确性评测得到的第二表意汉字描述序列为图5对应的书写汉字进行汉字书写正确性评测得到的第二表意汉字描述序列为其不符合正确表意汉字描述序列。因此可以判定当前书写汉字的汉字结构是错误的,当前书写的汉字“前”由原来的上下结构写成了左右结构。
[0087]
基于同样的思路,如图6所示,本公开的示例性实施方式还提供了一种手写汉字结构评测装置600,包括信息创建模块601,用于创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;特
征提取模块602,用于基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;模型生成模块603,用于基于所述结构特征和所述样本标签,训练得到结构识别模型;评测模块604,用于将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
[0088]
采用上述手写汉字结构评测装置600,在对所书写汉字进行了部件层次的正确性判定的基础上,进一步的汉字结构判定,可以给到用户更为细致且完整的汉字书写正确性反馈;在进行汉字结构预测时,只利用了部件笔迹的抽象特征,从而使得模型在进行汉字结构预测时仅利用部件的位置与形状信息,从而提升模型的泛化能力;采用基于模型的评测方式,能应付各种特殊场景下的汉字结构预测,并能提供更高的准确率,从而更适用于有着不同书写风格与书写习惯的用户。
[0089]
上述装置中各模块/单元的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
[0090]
基于同样的思路,本说明书实施例还提供一种手写汉字结构评测设备,如图7所示。
[0091]
手写汉字结构评测设备可以为上述实施例提供的终端设备或服务器。
[0092]
手写汉字结构评测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以进一步包括只读存储单元。存储在存储器702的应用程序可以包括一个或一个以上程序模块(图示未示出),这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。更进一步地,处理器701可以设置为与存储器702通信,在手写汉字结构评测设备上执行存储器702中的一系列计算机可执行指令。手写汉字结构评测设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上i/o接口(输入输出接口)705,一个或多个外部设备706(例如键盘、手绘板、蓝牙设备等)通信,还可与一个或一个以上使得用户能与该设备交互的设备通信,和/或与使得该设备能与一个或一个以上其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过i/o接口705进行。并且,设备还可以通过有线或无线接口704与一个或一个以上网络(例如局域网(lan)通讯。
[0093]
具体在本实施例中,手写汉字结构评测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对手写汉字结构评测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
[0094]
创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;基于所述结构特征和所述样本
标签,训练得到结构识别模型;将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。
[0095]
基于同样的思路,本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0096]
参考图8所示,描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0097]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0098]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0099]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0100]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言一诸如java、c++等,还包括常规的过程式程序设计语言一诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0101]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。
[0102]
此外,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0103]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0104]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0105]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:
1.一种手写汉字结构评测方法,其特征在于,所述评测方法包括:创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;基于所述结构特征和所述样本标签,训练得到结构识别模型;将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。2.根据权利要求1所述的手写汉字结构评测方法,其特征在于,在创建汉字对应的所述第一表意文字描述序列时,还包括:创建所有待评测汉字对应的所述第一表意文字描述序列,构建得到所有的所述第一表意文字描述序列的查询表;在将对应的所述结构信息作为所述结构特征的所述样本标签时,具体包括;提取所述查询表中对应的所述第一表意文字描述序列中的所述结构信息,将提取的所述结构信息作为所述结构特征的所述样本标签。3.根据权利要求1所述的手写汉字结构评测方法,其特征在于,所述结构信息包括以下的一种或多种:左右结构;上下结构;左中右结构;上中下结构;上包围结构;下包围结构;左包围结构;全包围结构;镶嵌结构。4.根据权利要求1所述的手写汉字结构评测方法,其特征在于,所述提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,包括:将汉字的所述手写笔迹数据中每条笔画的轨迹点序列按照笔画与部件的归属关系划分至对应的部件中;提取每个部件的坐标特征、标记特征,将所述坐标特征和所述标记特征进行拼接,得到分别与每个部件对应的特征向量;基于所有部件的所述特征向量,组成整个汉字的所述结构特征。5.根据权利要求4所述的手写汉字结构评测方法,其特征在于,所述手写笔迹数据包括组成汉字的笔画的轨迹点序列,每个笔画的每个轨迹点具有坐标,所述坐标特征由部件所含所有轨迹点构成的外切矩形框的左下点坐标与右上点坐标以及质心坐标构成,所述标记特征用于标明部件所述外切矩形框中轨迹点区域的存在性。6.根据权利要求1所述的手写汉字结构评测方法,其特征在于,所述结构识别模型为基于序列到序列模型结构得到的。7.根据权利要求1所述的手写汉字结构评测方法,其特征在于,所述将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果,包括:对所述手写汉字所书写的部件进行判定;当所述手写汉字所书写的部件判定结果为正确时,对所述手写汉字的轨迹点序列的所述结构特征进行提取;根据提取到的所述结构特征以及所述结构识别模型,对所述手写汉字的所述结构信息进行预测;
将所述结构信息的预测结果与所述手写汉字的所书写的部件进行组合,得到当前手写汉字的第二表意文字描述序列;将所述第二表意文字描述序列与所述手写汉字对应的正确的所述第一表意文字描述序列进行对比,得到所述评测结果。8.一种手写汉字结构评测装置,包括:信息创建模块,用于创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;特征提取模块,用于基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;模型生成模块,用于基于所述结构特征和所述样本标签,训练得到结构识别模型;评测模块,用于将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。9.一种手写汉字结构评测设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:创建汉字对应的第一表意文字描述序列,所述第一表意文字描述序列包括部件信息和用于描述所述部件信息的组成结构的结构信息;基于收集的汉字的手写笔迹数据,提取所述手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的所述结构信息作为所述结构特征的样本标签;基于所述结构特征和所述样本标签,训练得到结构识别模型;将待评测的手写汉字输入至所述结构识别模型中进行评测,得到评测结果。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的手写汉字结构评测方法。

技术总结
本发明公开一种手写汉字结构评测方法、装置、设备及存储介质,评测方法包括:创建汉字对应的第一表意文字描述序列,第一表意文字描述序列包括部件信息和用于描述部件信息的组成结构的结构信息;基于收集的汉字的手写笔迹数据,提取手写笔迹数据中每个部件的特征,并将每个部件的特征组成整个汉字的结构特征,以及将对应的结构信息作为结构特征的样本标签;基于结构特征和样本标签,训练得到结构识别模型;将待评测的手写汉字输入至结构识别模型中进行评测,得到评测结果。本发明在对所书写汉字进行了部件层次的正确性判定的基础上,进一步的汉字结构判定,能提供更高的准确率,从而更适用于有着不同书写风格与书写习惯的用户。更适用于有着不同书写风格与书写习惯的用户。更适用于有着不同书写风格与书写习惯的用户。


技术研发人员:庄建明 施明勇
受保护的技术使用者:深圳市泓宇星科技有限公司
技术研发日:2023.03.31
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐