一种分析包括中文字文本的方法和系统与流程
未命名
09-13
阅读:79
评论:0

1.本发明涉及一种以计算机执行用于分析文本的方法和系统,以及特别但非排他地,用于分析包括中文字的文本。
背景技术:
2.信息和计算机技术的进步对包括教育在内的我们生活的各个方面产生显著影响。使用电子化学习资源作为课堂内外的教学的媒介已经成为全球趋势。随着电子化学习普及率的扩大,开发了大量包括电子文本和电子教科书的电子教学资源。
3.然而,与传统学习资料相似,教育工作者和家长所面临的一个困难在于,通常难以评估电子资源是于合适主题或程度以满足特定教学或学习要求。而且还难以确定电子资源的内容是否能满足所需的特定学习目的,例如电子资源是否具有正确的主题、目的和/或类型。通常这些都是根据教育工作者和家长的经验进行评估,这容易受到主观看法的影响,因此可能是不准确的。
4.发明目的
5.本发明的一个目的是提供一种以计算机执行用于分析一段中文字的或包括中文字的电子文本的方法和系统。
6.本发明的另一目的是在某种程度上缓解或消除与已知电子文本分析产品关联的一个或多个问题,或者至少提供有用的备选方案。
7.上述目的通过独立权利要求的特征的组合来实现;从属权利要求公开了本发明的其他有利实施例。
8.本领域的技术人员将从以下描述中得出本发明的其他目的。因此,以上目的陈述不是穷尽的,而是只用来说明本发明的许多目的。
技术实现要素:
9.在第一主要方面,本发明提供一种以计算机执行用于分析包括中文字的文本的方法。所述方法包括步骤:将所述文本截取为多个第一块单元,每个所述第一块单元具有第一预定义数量的n个字符,其中,n是整数并且大于或等于1;对于从每个所述第一块单元的所述n个字符中的选定字符,确定形成所述选定字符的一个或多个部首;通过将所述一个或多个部首与包括语义部首及其关联含义的数据库进行比较,从形成所述选定字符的所述一个或多个部首中识别一个或多个语义部首,并确定与所述选定字符相关的所述一个或多个语义部首的一个或多个含义;基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述确定的一个或多个含义,将所述多个第一块单元分类为一个或多个类别组;以及计算分类在相应的所述一个或多个类别组中的所述第一块单元的数量以表示所述文本的一个或多个特征。
10.在第二主要方面,本发明提供一种系统,包括用于存储数据的存储器和用于运行计算机可读指令的处理器,其中,在用于实现根据第一主要方面所述的方法时,所述处理器
通过所述计算机可读指令来配置。
11.本发明内容部分不是必然公开定义本发明的必不可少的全部特征;本发明可在于所公开特征的子组合来实现。
附图说明
12.通过仅作为举例结合附图来提供的对优选实施例的以下描述,本发明的以上和其他特征将是显而易见的,附图包括:
13.图1是示出根据本发明的一种以计算机执行用于分析包括中文字的文本的方法和系统的示意框图;
14.图2示出了两组七个类别组,每个类别组具有最高数量的块单元,所述数据基于通过图1的方法和系统分析包括中文字的两条示例文本生成,其中所述块单元由组成块单元的字符的形成语义部首的含义将块单元进行分类;
15.图3示出了一组七个类别组,每个类别组具有最高数量的块单元,所述数据通过图1的方法和系统分析包括中文字的示例文本生成,其中所述块单元由组成块单元的字符的形成语义部首的词性将块单元进行分类;
16.图4示出了如图3所示的词性的比率。
具体实施方式
17.以下描述仅作为示例性的优选实施例而不是对实施本发明所必需的特征的组合进行限制。
18.本说明书中提到“一个实施例”或“实施例”表示结合所述实施例所述的具体特征、结构或特性包含在本发明的至少一个实施例中。词语“在一个实施例中”在本说明书的各个位置中的出现不一定都表示同一个实施例,也不是对其他实施例互斥的独立或备选实施例。此外,描述了可由某些实施例而没有由其他实施例来呈现的各种特征。类似地,描述了各种要求,其对于某些实施例是需要的,而对于其他实施例则是不需要的。
19.应当理解,附图所示的元件可通过各种形式的硬件、软件或者其组合来实现。优选地,这些元件通过可包括处理器、存储器和输入/输出界面的一个或多个适当编程的通用装置上以硬件和软件的组合来实现。
20.参照图1,所示的是一种用于分析包括中文字的文本的方法和系统的示意框图。所述文本可为任何形式的书写,例如任何种类的中文或包括中文字的文章、评论、故事、诗歌或文献。在本说明书的上下文中,文本可包括书写或图形字符,例如一种或多种语言的中文字,例如但不限于繁体和简体中文的“汉字(hanzi)”、东亚语言,如日语书写系统中的“汉字(kanji)”、韩语书写系统中的“汉字(hanja)”和越南语书写系统中的“汉字(h
á
n)”。术语“字符”将被给予广泛含意,以包含“字母”、“字”、“数字”、“语标”、“表意文字”等。
21.中文字被认为是世界上最古老的书写系統之一,并在整个东亚和东南亚一直使用。中文字可以是表示字或词素的语标,并且通常可以由称为部首的图形组件形成。在绝大多数中文字中,部首本质上是语音语义的。例如,由两个或多个部首形成的中文字可以具有一个或多个部首作为语义表示符,并且一个或多个部首是表示字符发音的语音组件。部首可以出现在字符的任何位置。例如,部首“言”出现在字符的左侧,如“词”、“话”、“语”和
和“寺”两者本质上是或可以是语义的,而部首“寺”进一步表示所述字符的发音。两个部首的明确含义和隐含含义都将被确定。例如,部首“言”有“言语”的直接含义和隐含含义“语言”;而部首“寺”则有“庙”的直接含义和隐含的含义是与“古庙所存的历史家族规矩”相关联。随后,将分析第二个字符“词”以包括两个形成部首,即,“言”和“司”,其中部首“言”和“司”都是语义性质的,而部首“司”是语音部首。再一次,部首“言”有“言语”的直接含义和隐含含义“语言”;而部首“司”具有“控制、结构化”的关联含义。因此,这两个字符被组合处理,为块单元提供表示性含义,指的是“由规则构成的语言作品”,例如诗歌。
28.在确定块单元的选定字符中的形成部首的确定步骤和从形成部首中识别语义部首的识别步骤之后的结果,优选地存储在字符数据库140中,用于加速处理时间并用于系统的持续学习以提高由相应的模块30b和30c处理的确定和识别步骤的准确性。可选地,结果也可以存储在设备10的存储器14中。这些记录可以帮助确定块单元的使用频率,这可以进一步帮助确定被分析的文本的难度等级或程度。
29.基于确定的每个块单元的选定字符的一个或多个语义部首的一个或多个含义以及因此块单元的表示含义,然后经由分类模块30d将块单元分类为一个或更多个类别组。分类步骤在图1中示为d。当基于确定的所述字符的形成部首的含义来考虑包括块单元的每个字符的含义时,类别组可以包括或与块单元的一个或多个表示性、一般含义和/或关联含义相关。下面将参考示例进一步讨论类别组。
30.在将文本截取为分别具有第一预定义数量的n个字符的多个第一块单元之后,其中,n是整数并且大于或等于1,然后可以将文本连续截取为分别具有第二预定义数量的m个字符的一个或多个第二块单元,其中,m是比n大至少1的整数。然后将重复所述过程并随后进行如上所述的后续确定、识别和分类步骤(b、c、d)。在过程结束时和整段文本被连续截取并基于各种块大小的块单元被分析后,所述过程可能会产生大量类别组,每个类别组概括了形成相应块单元的语义部首的表示性和/或关联的含义。
31.基于具有各种块大小的大量块单元和生成的类别组,然后计算模块30e将计算分类在相应一个或多个类别组中的块单元的数量。所述步骤可以包括生成数据清单,例如以包括每个相应类别组中的块单元的数量的统计形式。由于可以生成大量的类别组,并且根据被分析文本的大小和复杂性,将输出具有最高数量的块单元的预定数量的类别组(例如五到十组)并呈现给用户。计算步骤在图1中示为e。优选地,对于被分析的文本,具有最高数量的块单元的类别组将被存储在字符数据库140或设备10的存储器14中,以加速和/或提高分析的准确性。
32.图2示出了一个示例性统计,所述统计显示了七个具有最高数量的块单元的类别组,每个组中的块单元的数量在相应的类别组旁边的括号中表示。在第一个例子中,被分析的文章标题是“我最敬爱的妈妈”。组成文本的块单元已经由设备10分析并且块单元被分类在与形成所述块单元的语义部首的含义相关或关联的一些类别组下。具有最高数量的块单元的七个类别组为“人物(43)”、“形象(22)”、“态度(18)”、“责任(15)”、“工作(15)”、“情感(15)”和“行为(15)”。在第二个例子中,被分析的文章标题是“长洲游记”,包括最高数量的的块单元的七个类别组为“人物(15)”、“时间(15)”、“情感(7)”、“位置(6)”、“形状(5)”、“地方(4)”和“行动(3)”。
33.因此,具有最高数量的块单元的类别组表示文本的一个或多个特征。特征可以包
括或表示,但不限于文本的主题、类型、程度和/或难度级别中的一个或多个。例如,在“人物”、“时间”、“行动”和“地方”类别组中具有最高数量的块单元的文本可能是与旅行有关的叙述;在“形象”、“颜色”、“表情”和“形状”类别组中具有最高数量的块单元的文章可能是一篇描述性文章;而在“金融”、“工商”和“利益”类别组中具有最高数量的块单元的文本可能与用于商业目的的文本相关等。
34.因此,本发明的分析有助于向用户建议被分析的文本的一个或多个整体特征,和/或确认文本的主题、类型、程度或难度级别是否合适或符合用户的要求。例如,设备10可建议输入的文本对于某个年龄或年级的用户来说太简单或太难,或文本被分析为包括大量与主题相关的字、术语或表达方式,这些主题符合或不同于某个写作主题等。设备10还可以基于被分析的文本的整体特征,建议相关的术语、字、词汇或具有相关含义或应用的表达方式,例如同义词等。
35.在一个实施例中,将块单元分类为一个或多个类别组的步骤可以进一步包括基于每个块单元的字符的一个或多个语义部首的一个或多个含义的词性对块单元进行分类。例如,对于包括字符“骏”的块单元,语义部首“马”可以识别为“马”的明确含义,也可以识别为一些隐含关联含义,例如或与“快速”和“成功”相关等。因此,可以根据词性进一步对含义进行分类,例如,对于“马”的含义,它被子分类为名词的词性;对于“快速”的含义,它被子分类为副词的词性;对于“成功”的含义,它被子分类为形容词的词性。图3示出了一段示例文本的统计,其中具有最高数量的块单元的七个类别组为“名词(90)”、“动词(86)”、“形容词(75)”、“代词(49)”、“副词(44)”、“助词(37)”和“介词(27)”。基于词性的分类进一步允许通过经由计算模块30e计算每个块单元的字符的一个或多个语义部首的一个或多个词性的比率来分析文本的特征。参见图4,如图3所示类别组的词性比率,具体来说,形容词与名词的比率为0.83,副词与动词的比率为0.51,动词与名词的比率为0.96,以及副词与形容词的比率为0.59。最高比率是动词与名词和形容词与名词,因此,表示被分析文本的特征是文本包括具有动词与名词的比率接近1的平衡的句子结构,并且作者使用了很多的形容词来描述文本中的主体。这也表示可以通过使用更多的副词来描述文本中的行动从而进一步改进文本。因此,本发明可以基于生成的统计合理地建议文章的程度、难度级别和/或一个或多个改进的领域等。
36.在一个实施例中,将块单元分类为一个或多个类别组的步骤还可以包括将块单元分类为常用术语、不常用术语、谚语、成语、俚语或行话、基于技术领域和/或行业的术语,如商业术语、法律术语、医疗术语等。
37.本发明的方法还可包括经由搜索模块30f从文本库160中匹配或搜索具有与输入文本相同或相似类别组的一个或多个参考文本的步骤。在匹配和识别出与输入文本具有相同或相似类别组的一个或多个参考文本后,参考文本将根据匹配程度以预定数量(例如每次5个文本)输出给用户以供用户查看和选择。由于输出的参考文本具有与输入文本相同或相似类别组,因此匹配的参考文本具有与输入文本相同或相似的特征,例如在主题、类型、程度和/或难度级别等方面。搜索结果将优选地存储在文本库160或本地存储器14中以加速搜索时间并供系统持续学习以提高搜索的准确性。在一个实施例中,允许用户基于类别组来细化搜索结果,例如通过指定参考文本的主题、类型、程度和/或难度级别等,以及通过指指定其他参数,例如作者、参考文本的出版年份和/或在参考文本中使用的成语、词性等。因
此,本发明有利于允许基于具有与包括中文字的输入文本相同或所需特征以高速和准确的方式搜索包括中文字的参考文本。
38.本发明还涉及存储机器可读指令的计算机可读介质,所述机器可读指令在处理器30上实现时能实现如上所述方法的步骤。
39.本发明还涉及一种系统,其包括用于存储数据的存储器14和用于运行计算机可读介质的处理器30,其中所述处理器30在用于实现如上所述的方法时被计算机可读指令设置。
40.本发明的有利之处在于,它提供一种新颖的设备和方法,用于有效分析和评估包括中文字的文本,结果以易于理解的格式呈现,例如以统计的形式显示具有最高数量的块单元的类别组的预定数量,以允许类别组表示文本的一个或多个特征,例如但不限于文本的主题、类型、程度和/或难度级别中的一个或多个。基于形成包括所述块单元的一个或多个选定字符的语义部首的一个或多个表示性、一般含义和/或关联含义将块单元分类为相应类别组。因此,本发明提供一种基于形成所述字符的部首基于字符的明确和隐含含义来分析中文文本的有系统和准确的方法。本发明还提供一种设备和方法,其基于与包括中文字的输入文本相关的主题、类型、程度和/或难度级别提供对包括中文字的参考文本的快速且有效的搜索。方法和系统在快速、有效和用户友好的计算机界面中实现。在一个实施例中,本发明能够应用于教育、例如电子化学习中,并且具体来说,用于评估一段输入的中文文本,例如通过基于生成的统计向用户建议合适的程度、难度级别和/或改进的领域等。本发明能够易于在课堂和家庭学习环境中用于让教师、家长和学生测定学习进度。在另一个实施例中,本发明还能够应用于一般涉及写作、编辑和出版等的任何非教育部门。
41.本发明按照计算有效方式来实现包括中文字的文本的有效分析以便于分级,因为它的一个或多个步骤能防止或减少对数据的不必要处理。例如,具有数百或数千中文字的一段文献的详细分析能够在数秒钟内处理。另外,多个文本也能够同时处理和分析。
42.本描述说明本发明的原理。因此将会理解,本领域的技术人员将能够设计各种布置,其虽然没有在本文中进行明确描述或说明,但是体现了本原理,并且包含在它的精神和范围之内。
43.此外,本文中描述本发明的原理、方面和实施例的所有陈述及其具体示例预计包含其结构和功能等效方面。另外,应理解这类等效方案包括当前已知的等效方案以及将来开发的等效方案、即所开发的执行相同功能的任何元件,而与结构无关。
44.虽然在附图和以上描述中详细示出和描述了本发明,但是其在性质上将被理解为说明性的而不是限制性的,还应理解,仅示例性实施例被示出和描述,它们不会以任何方式来限制本发明的范围。能够理解,本文所述特征的任一个可与任何实施例配合使用。说明性实施例并不是互斥的,或者不排除本文没有叙述的其他实施例。相应地,本发明还提供包括上述说明性实施例的一个或多个的组合的实施例。能够进行如本文所提出的本发明的修改和变更,而没有背离其精神和范围,并且因此仅应当如所附权利要求书所示来施加这类限制。
45.在所附权利要求书中,任何表示为用于执行特定功能的装置的元件预计包含执行所述功能的任何方式,例如包括:a)执行所述功能的电路元件的组合;或者b)任何形式的软件,因此包括固件、微码等,与适当电路相组合以用于运行执行所述功能的软件。通过本权
利要求书所限定的本发明在于如下事实:按照权利要求书所要求的方式来组合和集中各种所述部件所提供的功能性。因此认为能够提供那些功能性的任何部件与本文所示部件是等效的。
46.在以下权利要求书和本发明的先前描述中,除了上下文因表达语言或必要暗示而要求之外,术语“包括”或者其变形体按照包含意义来使用,即,指定所述特征的存在,但是并不排除本发明的各个实施例中的其他特征的存在或添加。
47.要理解,如果本文中参照任何现有技术公开物,则这种参照并不构成对于所述公开物形成本领域的一部分公知常识的认可。
技术特征:
1.一种以计算机执行用于分析包括中文字的一段文本的方法,所述方法包括步骤:将所述文本截取为多个第一块单元,每个所述第一块单元具有第一预定义数量的n个字符,其中,n是整数并且大于或等于1;对于从每个所述第一块单元的所述n个字符中的选定字符,确定形成所述选定字符的一个或多个部首;通过将所述一个或多个部首与包括语义部首及其关联含义的数据库进行比较,从形成所述选定字符的所述一个或多个部首中识别一个或多个语义部首,并确定与所述选定字符相关的所述一个或多个语义部首的一个或多个含义;基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述确定的一个或多个含义,将所述多个第一块单元分类为一个或多个类别组;以及计算分类在相应的所述一个或多个类别组中的所述第一块单元的数量以表示所述文本的一个或多个特征。2.根据权利要求1所述的以计算机执行的方法,其中,将所述多个第一块单元分类为一个或多个类别组的所述方法还包括:基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述一个或多个含义的词性,将所述一个或多个第一块单元分类。3.根据权利要求2所述的以计算机执行的方法,其中,所述文本的所述一个或多个的特征包括所述文本的一个或多个主题、类型、程度和/或难度级别。4.根据权利要求3所述的以计算机执行的方法,其中,所述特征由每个所述第一块单元的所述选定字符的所述一个或多个语义部首的一个或多个所述词性的比率确定。5.根据权利要求1所述的以计算机执行的方法,其中,所述一个或多个语义部首的所述含义包括明确直接含义和隐含关联含义。6.根据权利要求1所述的以计算机执行的方法,其中,所述计算步骤还包括:生成统计的步骤,所述统计包括在每个相应类别组中的所述第一块单元的数量。7.根据权利要求6所述的以计算机执行的方法,还包括输出具有最高数量的所述第一块单元的预定数量的类别组的步骤。8.根据权利要求7所述的以计算机执行的方法,还包括存储关于被分析的所述文本具有最高数量的所述第一块单元的所述类别组。9.根据权利要求8所述的以计算机执行的方法,还包括从文本库中匹配具有相同或相似类别组的一个或多个参考文本的步骤。10.根据权利要求9所述的以计算机执行的方法,还包括输出一个或多个具有相同或相似类别组的匹配参考文本的步骤。11.根据权利要求9所述的以计算机执行的方法,其中,所述一个或多个匹配参考文本具有与被分析的所述文本相同或相似特征。12.根据权利要求1所述的以计算机执行的方法,还包括将所述文本连续截取为一个或多个第二块单元的步骤,每个所述第二块单元具有第二预定义数量的m个字符,其中,m是比n大至少1的整数;以及在所述计算步骤之前重复所述确定、识别和分类的步骤。13.根据权利要求1所述的以计算机执行的方法,其中,所述方法步骤由计算机装置的处理器来实现。14.根据权利要求1所述的以计算机执行的方法,其中,所述步骤由网络服务器来实现。
15.根据权利要求1所述的以计算机执行的方法,还包括将分类在所述一个或多个类别组中的第一块单元的所述计算数量存存储在存储器单元中的步骤。16.一种系统,包括用于存储数据的存储器和用于运行计算机可读指令的处理器,其中,在用于实现根据权利要求1至15中的任一项所述的方法时,所述处理器通过所述计算机可读指令来配置。
技术总结
本发明提供一种以计算机执行分析包括中文字文本的方法。包括步骤:将文本截取为分别具有第一预定义数量的N个字符的多个第一块单元;确定形成选定字符的一个或多个部首;通过将一个或多个部首与包括语义部首及其关联含义的数据库进行比较,识别一个或多个语义部首并确定与选定字符相关的一个或多个语义部首的一个或多个含义;基于每个第一块单元的选定字符的一个或多个语义部首的确定的一个或多个含义,将多个第一块单元分类为一个或多个类别组;计算分类在相应的一个或多个类别组中的第一块单元的数量以表示文本的一个或多个特征。征。征。
技术研发人员:梁伟峰
受保护的技术使用者:衍利行资产有限公司
技术研发日:2022.04.19
技术公布日:2023/9/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:基板结构的制作方法 下一篇:用于车辆中动力电池充电剩余时间的预测方法及装置与流程