文本分类方法、装置、计算机设备和存储介质与流程
未命名
08-02
阅读:126
评论:0

1.本技术涉及人工智能技术领域,特别是涉及一种文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
2.随着自然语言的理解技术的快速发展,文本分类技术在人类生产生活中被广泛应用。在公司数字化知识管理系统的建设与使用中,需要对大量文档做多标签分类后再归档管理,以满足不同用户未来检索与复用的知识共享需求。
3.目前,对文本分类的手段主要有人工分类和算法模型分类。算法模型分类是通过大量的训练数据进行训练后对文本进行分类。这两类分类方法都需要阅读文本的全部内容后进行分类,其分类耗时较长、效率低。
技术实现要素:
4.基于此,有必要针对上述技术问题,提供一种快速高效的文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种文本分类方法。所述方法包括:
6.对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;
7.确定标签集合;其中,所述标签集合包括多个标签元素;
8.根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。
9.在其中一个实施例中,所述对待分类文本的文本内容进行结构化处理,包括:
10.获取所述待分类文本的数据结构特征;
11.根据所述数据结构特征对所述待分类文本的文本内容进行结构化处理。
12.在其中一个实施例中,所述获取所述待分类文本的内容层级集合,包括:
13.根据结构化处理结果,确定层级结构集合;其中,所述层级结构集合包括每一层级的层级结构属性;
14.提取每一层级的层级文本内容,确定层级文本集合;
15.根据所述层级结构集合和所述层级文本集合确定所述内容层级集合。
16.在其中一个实施例中,所述数据结构特征包括格式特征、符号特征和图像特征中的至少一种。
17.在其中一个实施例中,所述根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素,包括:
18.对各所述层级文本内容进行切词处理,获取切词集合;其中,所述切词集合包括多个切词;
19.将所述切词集合中的各个切词和所述标签集合中的各标签元素进行字符串匹配;
20.根据字符串的匹配度确定所述待分类文本的标签元素。
21.在其中一个实施例中,所述切词处理包括机械切词处理、基于语义的切词处理和基于统计的切词处理中的一种。
22.在其中一个实施例中,所述根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素,包括:
23.获取各层级文本内容的字符串长度;
24.针对每一所述层级文本内容,根据所述层级文本内容的字符串长度确定相应的目标模型,以获取所述层级文本内容与所述标签集合中各标签元素的匹配度;
25.根据所述匹配度确定所述待分类文本的标签元素。
26.第二方面,本技术还提供了一种文本分类装置。所述装置包括:
27.结构化处理模块,用于对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;
28.标签获取模块,用于确定标签集合;其中,所述标签集合包括多个标签元素;
29.标签分类模块,用于根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。
30.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
31.对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;
32.确定标签集合;其中,所述标签集合包括多个标签元素;
33.根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。
34.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
35.对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;
36.确定标签集合;其中,所述标签集合包括多个标签元素;
37.根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。
38.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
39.对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;
40.确定标签集合;其中,所述标签集合包括多个标签元素;
41.根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。
42.上述文本分类方法、装置、计算机设备、存储介质和计算机程序产品,通过对待分类文本的文本内容进行结构化处理,获取内容层级集合,并根据内容层级集合的层级文本内容和标签集合中的标签元素的匹配度,确定待分类文本的标签元素。采用上述文本分类方法,不需要获取待分类文本的全文内容,只提取层级文本内容进行标签匹配,缩短了标签匹配时间,极大地提高了文本分类效率。
附图说明
43.图1为一个实施例中文本分类方法的应用环境图;
44.图2为一个实施例中文本分类方法的流程示意图;
45.图3为一个实施例中文本符号示意图;
46.图4为一个实施例中获取内容层级集合的流程示意图;
47.图5为一个实施例中文本分类方法的具体操作流程图;
48.图6为另一个实施例中文本分类方法的具体操作流程图;
49.图7为一个实施例中文本分类装置的结构框图;
50.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
52.本技术实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,计算机设备104和数据存储系统104通过网络进行通信。计算机设备104从数据存储系统102中获取待分类文本和预设的标签集合。数据存储系统102存储需要的待分类文本数据和标签数据等。计算机设备104实现对待分类文本的文本内容进行结构化处理,将标签集合和结构化处理后提取的文本内容进行匹配,确定待分类文本的标签元素的方法。计算机设备104可以但不限于是个人计算机、笔记本电脑、智能手机和平板电脑。
53.在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤202-步骤206。
54.步骤202,对待分类文本的文本内容进行结构化处理,获取待分类文本的内容层级集合。
55.其中,待分类文本的类型包括但不限于word文件、pdf文件、html文件等。
56.内容层级集合包括多个层级数据,每一层级数据包括层级结构属性和层级文本内容。每一层级数据的层级结构属性和层级文本内容均不相同。待分类文本的文本内容进行结构化处理后,可以对应获取该待分类文本的多个层级,以及每一层级对应的层级文本内容。其中,多个层级之间具有相对的结构层级关系,例如,文档的名称、一级标题、二级标题、三级标题之间有递进关系,文档的多个一级标题有并列关系等。层级结构属性表征该层级在文本层级关系中的层级和该层级的唯一属性。
57.文本本身具有一定的内在层级关系,因此计算器设备可以对待分类文本进行结构化处理,找到文本本身具有的层级关系,并根据各层级关系和每层对应的文本内容形成对应的层级数据,以形成该待分类文本的内容层级集合。
58.步骤204,确定标签集合。
59.计算机设备可以预先获取并存储该标签集合。标签集合包括多个标签元素。标签集合可以是由用户提前预设的标签集合,也可以是由算法模型训练得到的标签集合。标签集合内的标签元素可以有等级划分。示例性的,如表1所示,设置“车型”为一级标签,“发动机附件”为二级标签,“油箱材料”为三级标签等。
60.步骤206,根据内容层级集合的各层级文本内容与标签集合中各标签元素的匹配度,确定待分类文本的标签元素。
61.计算机设备对内容层级集合的各层级文本内容进行处理后,把标签集合的各标签元素依次和处理后的层级文本内容进行匹配。然后,计算机设备根据层级文本内容和标签元素的匹配度,确定待分类文本的标签元素。示例性的,层级文本内容为“aabbabc”,标签元素为“abc”,认为该标签元素和待分类文本的层级文本内容匹配度为100%,标签“abc”即为待分类文本的一个标签。匹配度阈值可以在标签匹配算法模型中设置。匹配度超过设置的阈值的标签元素都是该文本的标签,即本技术中待分类文本的标签可能为多个。
[0062][0063]
表1
[0064]
上述文本分类方法中,通过对待分类文本的文本内容进行结构化处理,获取内容层级集合,并根据内容层级集合的层级文本内容和标签集合中的标签元素的匹配度,确定待分类文本的标签元素,不需要遍历待分类文本的全文内容,只提取层级文本内容进行标签匹配,缩短了标签匹配时间,极大地提高了文本分类效率。
[0065]
在一个实施例中,对待分类文本的文本内容进行结构化处理,包括:获取待分类文本的数据结构特征;根据数据结构特征对待分类文本的文本内容进行结构化处理。
[0066]
文本本身具有一定的内在层级关系,该内在层级关系可以通过文本的数据结构特征反应。文本的数据结构特征包括但不限于格式特征、图像特征以及文本自身数据结构特
征。文本的格式特征包括目录页、加粗标题、文档中明显层级特征等,示例性的,可以为“第1章”、“第2章”、“1.2”、“1.3.1”、“1.4.1.3”等。文本的图像特征包括表格、项目符号等,示例性的,可以为如图3所示的符号。文本的自身数据结构特征,示例性的,html文件中的“《title》”、“《h1》”、“《h2》”等即为html文件自身数据结构特征。
[0067]
计算机设备可以根据文本的类型选择合适的结构化处理方式,示例性的,对于pdf文件,可以使用python等编程语言设计程序,划分pdf文件的标题、目录、正文、首页、尾页等,并设置为图像模式,对图像模式文本进行识别,找到能体现其格式特征和图像特征的文本内容,从而确定该pdf文件的层级结构,完成对pdf文件的结构化处理。
[0068]
在本技术实施例中,获取不同类型的文本的数据结构结构,包括格式特征、图像特征以及文本自身数据结构特征等,并基于获取的数据结构特征确定文本的层级结构,对文本进行结构化处理,可以对不同类型的文本进行分类,增加可分类文本类型的广度,提升了文本分类的效率。
[0069]
在一个实施例中,获取待分类文本的内容层级集合,如图4所示,包括步骤402-步骤406。
[0070]
402,根据结构化处理结果,确定层级结构集合;其中,层级结构集合包括每一层级的层级结构属性。
[0071]
对待分类文本进行结构化处理后,文本的层级结构已经确定,文本的层级结构包括各层级之间的关系,因此计算机设备可以根据该层级关系确定文本的层级结构集合。层级结构集合的元素即每一层级的层级结构属性。示例性的,待分类文本d的层级结构集合l为{l0,l1i,l2j,l3k},其中,l0表示文本名称,l1表示结构化处理后的文本的一级标题,l2表示结构化处理后的文本的二级标题,l3表示结构化处理后的文本的三级标题,i,j,k表示该结构化处理后的文本对应的层级结构属性的最大深度。
[0072]
404,提取每一层级的层级文本内容,确定层级文本集合;
[0073]
其中,层级文本内容为每一层级的标题或者每一层级的内容摘要,该内容摘要一般为能概括性描述详细文本内容的语句。计算机设备提取结构化处理后的文档的每一层级对应的层级文本内容,由提取的层级文本内容构建层级文本集合。示例性的,待分类文本d的层级文本集合s可表示为:
[0074][0075]
406,根据层级结构集合和层级文本集合确定内容层级集合。
[0076]
由层级结构集合的元素和层级文本集合中对应的层级文本内容形成层级数据,从而形成内容层级集合。示例性的,待分类文本d的内容层级集合的一个元素,即一个层级数据为
[0077]
在本技术实施例中,基于结构化处理结果,提取待分类文本的层级结构属性和对应的层级文本内容分别构成层级结构集合和层级文本集合,并由层级结构集合和层级文本
transformers),是一种预训练的语言表征模型,能用于相似语句生成和相似语句检索。而lstm(long short term memory)算法模型,则是一种利用循环神经网络模型对文本进行分类的算法。进一步地,可以采用上述目标模型确定标签元素和层级文本内容的匹配度,然后依据该匹配度确定待分类文本的标签元素。
[0086]
在本技术实施例中,根据层级文本内容的字符串长度,采用不同的神经网络算法模型实现层级文本内容的标签匹配,依据标签集合中的标签元素和层级文本内容的匹配度确定待分类文本的标签元素,能提高标签匹配的准确度,提高文本分类效率。
[0087]
在一个实施例中,如图5所示,计算机设备进行文本分类的具体操作包括步骤502-步骤508。
[0088]
步骤502,对待分类文本进行结构化处理。
[0089]
步骤504,提取已结构化处理文本的各层级对应的层级文本内容,组成层级文本集合。
[0090]
步骤506,对层级文本集合的元素进行切词处理,获得切词集合,并与标签集合匹配。
[0091]
采用基于字符串匹配的切词分词方式对层级文本内容进行切词处理,获得切词集合。采用kmp算法将标签集合中的标签元素依次与切词集合中的切词进行字符串匹配,获得与切词匹配度接近100%的标签。
[0092]
步骤508,根据标签集合元素和切词集合的匹配度确定待分类文本的标签。
[0093]
将标签集合中和切词匹配度接近100%的标签作为待分类文本的标签。
[0094]
在本技术实施例中,计算机设备对待分类文本进行结构化处理,并提取已结构化处理文本的各层级对应的层级文本内容,然后,对层级文本内容进行切词处理,获得切词集合,根据切词集合和标签集合的匹配度确定待分类文本的标签。采用上述文本分类方法只需对切词集合中的切词进行遍历,不需遍历全文内容,大幅降低了标签匹配的时间,提高了文本分类效率。
[0095]
在一个实施例中,如图6所示,计算机设备进行文本分类的具体操作包括步骤602-步骤608。
[0096]
步骤602,对待分类文本进行结构化处理。
[0097]
步骤604,提取已结构化处理文本的各层级对应的层级文本内容,组成层级文本集合。
[0098]
步骤606,通过算法模型建立层级文本集合和标签集合的关系,进行标签匹配。
[0099]
获取层级文本集合中单个层级文本内容的字符串长度。在字符串长度大于10的情况下,选用albert模型对标签元素依次检索,确定标签集合中标签元素和层级文本内容的匹配度;在字符串长度小于等于10的情况下,选用simbert模型对标签元素依次检索,确定标签集合中标签元素和层级文本内容的匹配度。
[0100]
步骤608,根据标签集合的标签元素和层级文本集合的匹配度确定待分类文本的标签。
[0101]
将标签集合中和层级文本集合的层级文本内容的匹配度接近80%的标签作为待分类的标签。
[0102]
本技术实施例中,计算机设备对待分类文本进行结构化处理,并提取已结构化处
理文本的各层级对应的层级文本内容,然后,根据层级文本内容的字符串长度选用合适的算法模型,和标签元素进行匹配,根据层级文本内容和标签集合的匹配度确定待分类文本的标签。采用上述文本分类方法只需对层级文本内容进行遍历,不需遍历全文内容,大幅降低了标签匹配的时间,提高了文本分类效率。
[0103]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0104]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。
[0105]
在一个实施例中,如图7所示,提供了一种文本分类装置,包括:结构化处理模块702、标签获取模块704和标签分类模块706,其中:
[0106]
结构化处理模块702,用于对待分类文本的文本内容进行结构化处理,获取待分类文本的内容层级集合;其中,内容层级集合包括多个层级数据,每一层级数据包括层级结构属性和层级文本内容;
[0107]
标签获取模块704,用于确定标签集合;其中,标签集合包括多个标签元素;
[0108]
标签分类模块706,用于根据内容层级集合的各层级文本内容与标签集合中各标签元素的匹配度,确定待分类文本的标签元素。
[0109]
在一个实施例中,结构化处理模块还用于获取待分类文本的数据结构特征;根据数据结构特征对待分类文本的文本内容进行结构化处理。
[0110]
在一个实施例中,结构化处理模块还用于根据结构化处理结果,确定层级结构集合;其中,层级结构集合包括每一层级的层级结构属性;提取每一层级的层级文本内容,确定层级文本集合;根据层级结构集合和层级文本集合确定内容层级集合。
[0111]
在一个实施例中,标签分类模块还用于对各层级文本内容进行切词处理,获取切词集合;其中,切词集合包括多个切词;将切词集合中的各个切词和标签集合中的各标签元素进行字符串匹配;根据字符串的匹配度确定待分类文本的标签元素。
[0112]
在一个实施例中,标签分类模块还用于获取各层级文本的字符串长度;针对每一层级文本,根据层级文本的字符串长度确定相应的目标模型,以获取层级文本与标签集合中各标签元素的匹配度;根据匹配度确定待分类文本的标签元素。
[0113]
上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0114]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元
和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0115]
本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0116]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0117]
对待分类文本的文本内容进行结构化处理,获取待分类文本的内容层级集合;其中,内容层级集合包括多个层级数据,每一层级数据包括层级结构属性和层级文本内容;
[0118]
确定标签集合;其中,标签集合包括多个标签元素;
[0119]
根据内容层级集合的各层级文本内容与标签集合中各标签元素的匹配度,确定待分类文本的标签元素。
[0120]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0121]
对待分类文本的文本内容进行结构化处理,获取待分类文本的内容层级集合;其中,内容层级集合包括多个层级数据,每一层级数据包括层级结构属性和层级文本内容;
[0122]
确定标签集合;其中,标签集合包括多个标签元素;
[0123]
根据内容层级集合的各层级文本内容与标签集合中各标签元素的匹配度,确定待分类文本的标签元素。
[0124]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0125]
对待分类文本的文本内容进行结构化处理,获取待分类文本的内容层级集合;其中,内容层级集合包括多个层级数据,每一层级数据包括层级结构属性和层级文本内容;
[0126]
确定标签集合;其中,标签集合包括多个标签元素;
[0127]
根据内容层级集合的各层级文本内容与标签集合中各标签元素的匹配度,确定待分类文本的标签元素。
[0128]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0129]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0130]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0131]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种文本分类方法,其特征在于,包括:对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;确定标签集合;其中,所述标签集合包括多个标签元素;根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。2.根据权利要求1所述的方法,其特征在于,所述对待分类文本的文本内容进行结构化处理,包括:获取所述待分类文本的数据结构特征;根据所述数据结构特征对所述待分类文本的文本内容进行结构化处理。3.根据权利要求2所述的方法,其特征在于,所述获取所述待分类文本的内容层级集合,包括:根据结构化处理结果,确定层级结构集合;其中,所述层级结构集合包括每一层级的层级结构属性;提取每一层级的层级文本内容,确定层级文本集合;根据所述层级结构集合和所述层级文本集合确定所述内容层级集合。4.根据权利要求2所述的方法,其特征在于,所述数据结构特征包括格式特征、符号特征和图像特征中的至少一种。5.根据权利要求1所述的方法,其特征在于,所述根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素,包括:对各所述层级文本内容进行切词处理,获取切词集合;其中,所述切词集合包括多个切词;将所述切词集合中的各个切词和所述标签集合中的各标签元素进行字符串匹配;根据字符串的匹配度确定所述待分类文本的标签元素。6.根据权利要求5所述的方法,其特征在于,所述切词处理包括机械切词处理、基于语义的切词处理和基于统计的切词处理中的一种。7.根据权利要求1所述的方法,其特征在于,所述根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素,包括:获取各层级文本内容的字符串长度;针对每一所述层级文本内容,根据所述层级文本内容的字符串长度确定相应的目标模型,以获取所述层级文本内容与所述标签集合中各标签元素的匹配度;根据所述匹配度确定所述待分类文本的标签元素。8.一种文本分类装置,其特征在于,所述装置包括:结构化处理模块,用于对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;标签获取模块,用于确定标签集合;其中,所述标签集合包括多个标签元素;标签分类模块,用于根据所述内容层级集合的各所述层级文本内容与所述标签集合中
各标签元素的匹配度,确定所述待分类文本的标签元素。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及一种文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:对待分类文本的文本内容进行结构化处理,获取所述待分类文本的内容层级集合;其中,所述内容层级集合包括多个层级数据,每一所述层级数据包括层级结构属性和层级文本内容;确定标签集合;其中,所述标签集合包括多个标签元素;根据所述内容层级集合的各所述层级文本内容与所述标签集合中各标签元素的匹配度,确定所述待分类文本的标签元素。采用本方法不需要获取待分类文本的全文内容,只提取层级文本内容进行标签匹配,缩短了标签匹配时间,极大地提高了文本分类效率。极大地提高了文本分类效率。极大地提高了文本分类效率。
技术研发人员:王体龙 魏丽莉 刘芳芳 邓建春 詹晨 艾若琳 韩剑平 柏雪 戚乐乐
受保护的技术使用者:一汽解放汽车有限公司
技术研发日:2023.05.22
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/