一种基于深度学习的教材自动结构化方法与流程

未命名 09-10 阅读:97 评论:0


1.本发明涉及高等教育技术领域,尤其涉及一种基于深度学习的教材自动结构化方法。


背景技术:

2.教材是教育出版业服务教育教学的主要内容产品形态,随着信息化不断发展,知识获取方式和传授方式发生了革命性变化,教育领域的数字化改革随之日渐加速。
3.数字化教材,即以数字形态存在、可装载于数字终端阅读、可动态更新内容、可及时记录交互轨迹的新型学习材料。数字化教材的建设有赖于从编辑加工、内容审核、出版发行到教学使用、平台支持等环节的全流程数字化。数字化教材建设是撬动课堂教学数字化转型、实现优质教育资源共享的基础,重点在于探索新型教材建设标准和知识体系编写规范,研发新型教材互动设计与编辑工具,建设知识图谱、支撑平台和示例教材等,探索基于各种应用场景的数字化教学新模式。
4.当前教材数字化面临的挑战是传统教材(pdf、纸质)良莠不齐,教材排版内容各式各样,无法基于固定的规则或模板来结构化这些教材,需要一种更加智能化和灵活的教材自动结构化系统,为此,我们设计一种基于深度学习的教材自动结构化方法,用于对上述技术问题提供另一种技术方案。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种基于深度学习的教材自动结构化方法,解决上述背景技术中提出的技术问题。
6.为了解决上述的技术问题,本发明采用了如下技术方案:
7.一种基于深度学习的教材自动结构化方法,步骤如下:
8.对教材进行收集,并对收集后的教材进行预处理;
9.对预处理后的教材数据进行筛选;
10.根据教材是否能够解析识别不同的内容;
11.通过resnet深度学习技术对教材页进行分类,识别出教材中目录页。
12.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,通过互联网、图书馆、出版社出版的教材对教材进行收集传统教材和电子教材。
13.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,根据收集的教材种类、质量品质来确定不同的处理方式;
14.对传统的纸质教材进行扫描,将每一页的信息转为图像数据;
15.对电子教材直接将每一页的信息转为图像数据。
16.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,所述对预处理后的教材数据进行筛选,步骤如下:
17.去除存在水印、大量手写模糊字体和印刷字体差、内容无法识别或识别困难的教
材。
18.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,当教材能够解析,使用深度学习目标检测yolov5技术,对每一页教材数据进行识别,识别出标题、页眉页脚坐标及内容信息;
19.当教材不能解析,使用深度学习目标检测技术,识别出标题、公式、文本、图片、页眉页脚坐标信息。
20.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,将识别出教材中目录页的图像数据转为文本信息,将获取的目录页文本及坐标信息,进行数据预处理,使用页面上文本的坐标框及文本的内容,去除页码、页眉页脚冗余数据。
21.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,使用以深度学习自然语言处理技术为主,正则规则为辅的方式,获取包含层级关系的目录信息,获取包含层级关系的目录信息;
22.所述正则规则是根据教材的章节名称等常见规则总结而来。
23.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,根据获得的目录信息,对教材中的章、节、小节、小标题等结构信息进行规则校验,通过深度学习技术和规则,将教材内容结构化为相应的章节、小节和标题,并将结构化后的教材数据存储至数据库中,以便后续的检索和管理。
24.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,使用自然语音深度学习方法,对标题进行语义判断章节规范情况,并通过上下文关联,判断段落缺失情况,识别和修复章节编号不符合规范、段落缺失等问题,以提高结构化后的教材的质量。
25.作为本发明提供的所述的一种基于深度学习的教材自动结构化方法的一种优选实施方式,通过用户界面浏览结构化后的教材内容,进行搜索和过滤,以满足不同用户的需求。
26.可以毫无疑义的看出,通过本技术的上述的技术方案,必然可以解决本技术要解决的技术问题。
27.同时,通过以上技术方案,本发明至少具备以下有益效果:
28.本发明提供的一种基于深度学习的教材自动结构化方法,用于提高教材的可读性和可搜索性:由于教材被自动结构化为树形结构的数据模型,用户可以更快速地找到自己需要的内容,提高了教材的可读性和可搜索性;这对于教师备课、学生学习、考生复习等方面都具有重要意义;
29.提高教材的可重复利用性:结构化后的教材可以作为训练样本,用于训练深度学习模型,提高模型的准确率和泛化能力;对于同一类别的教材,可以快速地使用已有的模型进行结构化处理,提高了教材的可重复利用性;
30.为个性化教育提供技术支持:教材结构化后,可以通过对学生的学习情况进行监控,个性化推荐学生的薄弱知识点,为个性化教育提供技术支持;同时,结构化的教材也可以作为构建教育知识图谱的来源数据使用。
31.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的
附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本发明的ocr识别页面;
33.图2为本发明的结构化后的数据。
具体实施方式
34.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
35.为了使本技术领域的人员更好地理解本发明方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
36.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
37.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
38.参照图1-图2,一种基于深度学习的教材自动结构化方法,步骤如下:
39.教材收集和预处理:收集传统教材和电子教材,根据教材的种类、质量品质来确定不同的处理方式;从各种渠道中,获取传统教材,如:互联网、图书馆、国内外出版社出版的教材等;
40.对收集的教材进行预处理,如对纸质教材进行扫描,将每一页的信息转为图像数据,通过使用扫描仪等专业设备,将教材每一页的信息转为图像数据;对电子教材直接将每一页的信息转为图像数据;
41.然后对教材数据进行筛选,去除存在水印、大量手写模糊字体,印刷字体差等质量不好,内容无法识别或识别困难的教材;
42.根据收集的教材数据,进行图像数据处理,
43.根据教材是否可解析分为两种情况:
44.可直接解析,获取内容的教材数据,使用深度学习目标检测yolov5技术,对每一页教材数据进行识别,识别出标题、页眉页脚等坐标及内容信息;
45.无法直接解析的教材数据,使用深度学习目标检测技术,识别出标题、公式、文本、图片、页眉页脚等坐标信息,同时将标题、公式、文本、图片等图像数据转为latex、url或文本信息;
46.同时将使用深度学习目标检测技术识别出的信息,使用不同的检测模型分别处理。
47.教材目录页数据处理:使用resnet深度学习技术对教材页进行分类,自动识别出教材中目录页,并将目录页的图像数据转为文本信息,将获取的目录页文本及坐标信息,进行数据预处理,使用页面上文本的坐标框及文本的内容,去除页码、页眉页脚等冗余数据;
48.使用以深度学习自然语言处理技术为主,正则规则为辅的技术方案,正则规则是根据教材的章节名称等常见规则总结而来,获取包含层级关系的目录信息,获取包含层级关系的目录信息;
49.结构化教材:根据获得的目录信息,对教材中的章、节、小节、小标题等结构信息进行规则校验,通过深度学习技术和规则,自动将教材内容结构化为相应的章节、小节和标题,并将结构化后的教材数据存储至数据库中,以便后续的检索和管理。
50.深度学习技术和规则,通过使用texttiling算法,将长文本分成多个段落,并识别其中的转折点,从而将电子书分成多个章节和小节,然后结合使用正则表达式(一般来说,章节标题有固定的格式,例如“第x章”、“x.x节”等等)和现有技术bert训练的分类模型(语义分析)来预测章节标题;
51.教材结构化的优化:在处理的过程中,可能会存在一些错误或者不规范的结构,比如章节编号不符合规范、段落缺失等问题。因此,我们需要对结构化后的教材进行优化。使用自然语音深度学习方法,对标题进行语义判断章节规范情况,并通过上下文关联,判断段落缺失情况,识别和修复章节编号不符合规范、段落缺失等问题,以提高结构化后的教材的质量;
52.结构化教材的检索和管理:教师或学生可以方便地查找到所需要的教材内容,提高学习效率和质量。为了方便用户使用,系统提供了用户界面。用户可以通过界面浏览结构化后的教材内容,进行搜索和过滤,以满足不同用户的需求。
53.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该本发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

技术特征:
1.一种基于深度学习的教材自动结构化方法,其特征在于,步骤如下:对教材进行收集,并对收集后的教材进行预处理;对预处理后的教材数据进行筛选;根据教材是否能够解析识别不同的内容;通过resnet深度学习技术对教材页进行分类,识别出教材中目录页。2.根据权利要求1所述的一种基于深度学习的教材自动结构化方法,其特征在于,通过互联网、图书馆、出版社出版的教材对教材进行收集传统教材和电子教材。3.根据权利要求2所述的一种基于深度学习的教材自动结构化方法,其特征在于,根据收集的教材种类、质量品质来确定不同的处理方式;对传统的纸质教材进行扫描,将每一页的信息转为图像数据;对电子教材直接将每一页的信息转为图像数据。4.根据权利要求1所述的一种基于深度学习的教材自动结构化方法,其特征在于,所述对预处理后的教材数据进行筛选,步骤如下:去除存在水印、大量手写模糊字体和印刷字体差、内容无法识别或识别困难的教材。5.根据权利要求1所述的一种基于深度学习的教材自动结构化方法,其特征在于,当教材能够解析,通过深度学习目标检测yolov5技术,对每一页教材数据进行识别,识别出标题、页眉页脚坐标及内容信息;当教材不能解析,通过深度学习目标检测技术,识别出标题、公式、文本、图片、页眉页脚坐标信息。6.根据权利要求1所述的一种基于深度学习的教材自动结构化方法,其特征在于,将识别出教材中目录页的图像数据转为文本信息,将获取的目录页文本及坐标信息,进行数据预处理,使用页面上文本的坐标框及文本的内容,去除页码、页眉页脚冗余数据。7.根据权利要求1所述的一种基于深度学习的教材自动结构化方法,其特征在于,使用以深度学习自然语言处理技术为主,正则规则为辅的方式,获取包含层级关系的目录信息,获取包含层级关系的目录信息;所述正则规则是根据教材的章节名称等常见规则总结而来。8.根据权利要求7所述的一种基于深度学习的教材自动结构化方法,其特征在于,根据获得的目录信息,对教材中的章、节、小节、小标题等结构信息进行规则校验,通过深度学习技术和规则,将教材内容结构化为相应的章节、小节和标题,并将结构化后的教材数据存储至数据库中,以便后续的检索和管理。9.根据权利要求1-8任一项所述的一种基于深度学习的教材自动结构化方法,其特征在于,使用自然语音深度学习方法,对标题进行语义判断章节规范情况,并通过上下文关联,判断段落缺失情况,识别和修复章节编号不符合规范、段落缺失等问题,以提高结构化后的教材的质量。10.根据权利要求9所述的一种基于深度学习的教材自动结构化方法,其特征在于,通过用户界面浏览结构化后的教材内容,进行搜索和过滤,以满足不同用户的需求。

技术总结
本发明涉及高等教育技术领域,尤其涉及一种基于深度学习的教材自动结构化方法。步骤如下:对教材进行收集,并对收集后的教材进行预处理;通过互联网、图书馆、出版社出版的教材对教材进行收集传统教材和电子教材;对预处理后的教材数据进行筛选;根据教材是否能够解析识别不同的内容;通过ResNet深度学习技术对教材页进行分类,识别出教材中目录页。本发明提供的一种基于深度学习的教材自动结构化方法,用于提高教材的可读性和可搜索性:由于教材被自动结构化为树形结构的数据模型,用户可以更快速地找到自己需要的内容,提高了教材的可读性和可搜索性;这对于教师备课、学生学习、考生复习等方面都具有重要意义。习等方面都具有重要意义。习等方面都具有重要意义。


技术研发人员:王晖 方明明
受保护的技术使用者:上海卓越睿新数码科技股份有限公司
技术研发日:2023.06.20
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐