一种智能作文批改的方法、系统及存储介质与流程

未命名 09-22 阅读:135 评论:0


1.本发明涉及作文批改领域,尤其涉及一种智能作文批改的方法、系统及存储介质。


背景技术:

2.写作是社会发展的需要,是现代人应具备的一种基本而重要的能力。作文是听说读综合能力的体现,特别是单元习作、考场作文,更是判断一个人综合语文素养的依据,是影响综合成绩的一个关键要素。
3.评价是一种教育方式,作文评改服务,是一种特殊形式的作文讲评课,是真正意义上以学生为核心的一种创新课型。
4.相关技术中,由于教学任务繁重,老师给学生批改作文时,不能进行详细批阅,老师点评的轻描淡写,造成学生的写作能力提升很慢,而老师也不能发现学生的全部优点和缺点。
5.现有的作文批改都是由老师阅读后打分,这种批改方式依靠老师的整体感受,不能进行精准详批,使批改结果不够精准,从而导致作文批改结果不够客观。


技术实现要素:

6.为了克服现有技术存在的缺点与不足,本发明提供一种智能作文批改的方法、系统及存储介质。
7.一种智能作文批改的方法,包括:
8.步骤a1、学生端通过拍照/相册上传手写作文的照片与作文题目要求;
9.步骤a2、图片处理模块对照片进行处理,处理内容包括照片方向纠正操作、区分作文题目与手写作答两部分、二值化处理、去除横线/方格等非手写部分,得到题目图像1与作答图像2;
10.步骤a3、对题目图像1、作答图像2分别进行ocr文字识别得到对应文字1、文字2;如果题目图像1无法识别出对应的文字,则将题目图像1可在图片题库中进行查找;
11.步骤a4、启动卷面整洁度模块,统计作答图像2中非文字部分的数量,数量越多则整洁度越低;
12.步骤a5、将作答图像2中非手写部分进行删除,得到只有手写内容的图像2;
13.步骤a6、启动语言识别模块;
14.步骤a7、启动作文批改流程;
15.步骤a8、将步骤a7中的批改结果发送至老师端,并统计学生出现的通用问题。老师可对批改结果进行修改,并将修改内容自动反馈至学生端;
16.步骤a9、根据老师对批改结果建立自我学习模型,可能用到的技术有人工神经网络、归纳逻辑编程、贝叶斯网络、相似度和度量学习、遗传算法等。
17.一种智能作文批改的系统,包括:
18.字迹评分模块,将图像2中的笔画图像与国标楷体图像进行对比,相似度越高则字
迹得分越高;
19.扣分模块,判断文字中是否存在编造的内容(如杜撰的历史、不符合自然规律的事实)等;可基于现行的法律法规、常用史料库、常用自然定律等进行判断。如果存在扣分情况,则扣分;
20.查重模块,可将文字与常用网络素材(如百度文库、豆丁网等)进行查重比对,重复率超过70%则判为0分;
21.以段落为单位对文字进行遍历对比,对于不同段落中重复度高于70%的部分,将其进行删除,仅对第一次出现的部分进行批改;
22.根据对应文字1或图片题库中查找的结果确定文体,具体可通过关键词确定;
23.卷面整洁度评估模块,整洁度越高,评分越高;
24.对原始图像再次进行预处理,图像增强、去噪和裁剪等操作,以准备进行后续的特征提取和分析。
25.使用边缘检测算法,检测卷面边缘的清晰度和平整度;通过检测白平衡和光照均匀性,以确保整体质量和可读性;
26.污渍检测:使用颜色分析确认潜在的污渍;纹理分析算法,检测是否存在非正常纹理或污渍痕迹;
27.采用计算机视觉和模式识别技术,对学生的笔迹进行分析和评估,主要考察笔记清晰度、笔迹一致性(笔压、线条粗细)和笔迹错误指标。
28.查重模块:
29.使用词嵌入模型(word2vec)将句子转换为高纬向量表示,再将词向量进行平均或加和等操作,得到整篇文章的向量表示;
30.从存储大量作文数据的向量数据库milvus查询相似文章,通过动态阈值判断是否抄袭。
31.详细指标评分模块:
32.语法和拼写错误,使用上下文无关文法(context-free grammar)和句法树(syntax tree)来分析句子的结构,然后检查是否存在不符合语法规则的结构或关系。如果存在错误,可以给出相应的错误提示或建议进行修正。使用事先构建好的词典来检查单词是否存在于词典中,如果不存在,则认为是拼写错误。对于错误,标注错误的文本及其再图片中的位置,并给出提示;
33.文章结构和逻辑,通过分析文本中的段落标记(如换行符、缩进等),将文章拆分成段落。段落是文章的基本组织单位,提取段落数量和长度等信息可以反映文章的组织结构。使用关键词提取算法提取段落关键词并识别主题,使用词嵌入向量化,最后计算相似度来评估主题一致性和逻辑连贯性;
34.词汇和句法表达,使用基于统计的方法来评估词汇丰富性(词汇覆盖率或多样性指数),通过句子长度、从句数量等指标来衡量句子复杂度;
35.内容相关性和观点表达,使用余弦相似度算法来评估作文与主题之间的相关性,使用基于深度学习的情感分类模型来分析作文中的情感倾向,从而判断观点鲜明都;
36.内容真实性评分,使用文本相似度算法比较作文中提取的实体事件和现有知识库,对真实性做初步评分;
37.内容健康评分,通过敏感词库进行拦截扣分。
38.评价模块:
39.a.文体模块:根据不同的文体设置不同的评价子模块及权重,如对于议论文文体,加大子模块2表达模块的权重。对于叙事文文体,加大子模块1内容模块的权重。对于抒情文文体,加大子模块3特征模块的权重;
40.b.评价子模块1内容模块:具体的维度包括a.是否切题b.中心点是否突出c.内容是否充实d.思想是否健康d.感情是否真实
41.c.评价子模块2表达模块:具体的维度包括a.结构是否严谨b.语言是否流畅c.是否有错别字、标点符号
42.d.评价子模块3特征模块:a.是否深刻b.是否丰富c.是否有文采d.是否有创意;
43.一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1中所述智能作文批的方法步骤。
44.有益效果:
45.本发明提出一种智能作文批改的方法、系统及存储介质,本技术通过多模块多算法的设计,增加遍历对比步骤,对于前后出现一样的句子设置规则;增加老师端,用于统计所有学生的作文评级、评语及通用问题;增加优秀素材模块,将自动识别出的好句好段、及老师端查缺补漏识别出的好句好段进行存储;老师可对程序自动批改的内容进行修改,并允许程序以老师修改后的内容进行自我学习,自我学习涉及到的算法不限。过生成全文总评报告可以很方便了解到学生的写作水平。形成互动,产生一对一心灵沟通陪伴的作用。通过将待提升语句信息输入到预置的智能作文修改模型中,从而得到建议润色语句信息,以方便学生学习改进。
附图说明
46.图1为本发明方法总体步骤流程图;
47.图2为本发明的系统模块组成图。
具体实施方式
48.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互结合,下面结合附图和有具体实施例对本技术作进一步详细说明。
49.如图1所示,一种智能作文批改的方法、系统及存储介质,
50.步骤a1、学生端通过拍照/相册上传手写作文的照片与作文题目要求;
51.步骤a2、图片处理模块对照片进行处理,处理内容包括照片方向纠正操作、区分作文题目与手写作答两部分、二值化处理、去除横线/方格等非手写部分,得到题目图像1与作答图像2;
52.对图像进行预处理,依次进行图像校正(处理倾斜或透视变形的情况)、图像增强、图像降噪、图像二值化操作,同时计算机视觉技术进行文字区域检测和裁剪,并缩放到合适大小,进而提高后续处理的准确性;
53.对预处理好的图片进行ocr;
54.步骤a3、对识别出来的文本进行清洗和预处理,去除不必要的符号、空格和噪音
等,以获得干净的文本数据;对题目图像1、作答图像2分别进行ocr文字识别得到对应文字1、文字2;如果题目图像1无法识别出对应的文字,则将题目图像1可在图片题库中进行查找;
55.步骤a4、使用数传基于出版社提供的大量试题数据经人工标注后训练得到的模型,识别提取出作文题目要求和作文内容;启动卷面整洁度模块,统计图像1中非文字部分的数量,数量越多则整洁度越低;
56.步骤a5、将作答图像2中非手写部分进行删除,得到只有手写内容的图像2;
57.步骤a6、启动语言识别模块;
58.步骤a7、启动作文批改流程;基于学生画像和题目要求,动态加载各项指标的权重,最后进行加权平均;
59.步骤a8、将步骤a7中的批改结果发送至老师端,并统计学生出现的通用问题。老师可对批改结果进行修改,并将修改内容自动反馈至学生端;
60.步骤a9系统自动收集老师二次批改数据,采用强化学习算法,进行模型的训练和调优;根据老师对批改结果建立自我学习模型;
61.可能用到的技术有人工神经网络、归纳逻辑编程、贝叶斯网络、相似度和度量学习、遗传算法等。
62.如图2所示,一种智能作文批改的系统,包括:
63.字迹评分模块,将图像2中的笔画图像与国标楷体图像进行对比,相似度越高则字迹得分越高;
64.扣分模块,判断文字中是否存在编造的内容(如杜撰的历史、不符合自然规律的事实)等;可基于现行的法律法规、常用史料库、常用自然定律等进行判断。如果存在扣分情况,则扣分;
65.查重模块,可将文字与常用网络素材(如百度文库、豆丁网等)进行查重比对,重复率超过70%则判为0分;
66.以段落为单位对文字进行遍历对比,对于不同段落中重复度高于70%的部分,将其进行删除,仅对第一次出现的部分进行批改;
67.根据对应文字1或图片题库中查找的结果确定文体,具体可通过关键词确定;
68.卷面整洁度评估模块,整洁度越高,评分越高;
69.对原始图像再次进行预处理,图像增强、去噪和裁剪等操作,以准备进行后续的特征提取和分析。
70.使用边缘检测算法,检测卷面边缘的清晰度和平整度;通过检测白平衡和光照均匀性,以确保整体质量和可读性;
71.污渍检测:使用颜色分析确认潜在的污渍;纹理分析算法,检测是否存在非正常纹理或污渍痕迹;
72.采用计算机视觉和模式识别技术,对学生的笔迹进行分析和评估,主要考察笔记清晰度、笔迹一致性(笔压、线条粗细)和笔迹错误指标。
73.查重模块:使用词嵌入模型(word2vec)将句子转换为高纬向量表示,再将词向量进行平均或加和等操作,得到整篇文章的向量表示;
74.从存储大量作文数据的向量数据库milvus查询相似文章,通过动态阈值判断是否
抄袭。
75.语言识别模块:方式

统计文字1中的中文、英文的数量,比较中英文的数量,判定种语言的种类,并启动相应的批改流程;方式

搭建nlp模型,并进行训练,将统计文字1输入后,可计算出题目的语言要求,并启动相应的批改流程。
76.详细指标评分模块:语法和拼写错误,使用上下文无关文法(context-free grammar)和句法树(syntax tree)来分析句子的结构,然后检查是否存在不符合语法规则的结构或关系。如果存在错误,可以给出相应的错误提示或建议进行修正。使用事先构建好的词典来检查单词是否存在于词典中,如果不存在,则认为是拼写错误。对于错误,标注错误的文本及其再图片中的位置,并给出提示;
77.文章结构和逻辑,通过分析文本中的段落标记(如换行符、缩进等),将文章拆分成段落。段落是文章的基本组织单位,提取段落数量和长度等信息可以反映文章的组织结构。使用关键词提取算法提取段落关键词并识别主题,使用词嵌入向量化,最后计算相似度来评估主题一致性和逻辑连贯性;
78.词汇和句法表达,使用基于统计的方法来评估词汇丰富性(词汇覆盖率或多样性指数),通过句子长度、从句数量等指标来衡量句子复杂度;
79.内容相关性和观点表达,使用余弦相似度算法来评估作文与主题之间的相关性,使用基于深度学习的情感分类模型来分析作文中的情感倾向,从而判断观点鲜明都;
80.内容真实性评分,使用文本相似度算法比较作文中提取的实体事件和现有知识库,对真实性做初步评分;
81.内容健康评分,通过敏感词库进行拦截扣分。
82.评价模块:
83.a.文体模块:根据不同的文体设置不同的评价子模块及权重,如对于议论文文体,加大子模块2表达模块的权重。对于叙事文文体,加大子模块1内容模块的权重。对于抒情文文体,加大子模块3特征模块的权重;
84.b.评价子模块1内容模块:具体的维度包括a.是否切题b.中心点是否突出c.内容是否充实d.思想是否健康d.感情是否真实
85.c.评价子模块2表达模块:具体的维度包括a.结构是否严谨b.语言是否流畅c.是否有错别字、标点符号
86.d.评价子模块3特征模块:a.是否深刻b.是否丰富c.是否有文采d.是否有创意;
87.本发明提出适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
88.计算机系统包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的程序或者从存储部分加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有系统操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
89.以下部件连接至i/o接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(lcd)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
90.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的方法中限定的上述功能。需要说明的是,本技术所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
91.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
92.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
93.描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,并且这些单元的名称在某种情况
下并不构成对该单元本身的限定。
94.本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本技术的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
95.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种智能作文批改的方法,其特征在于,包括:步骤a1、学生端通过拍照/相册上传手写作文的照片与作文题目要求;步骤a2、图片处理模块对照片进行处理,处理内容包括照片方向纠正操作、区分作文题目与手写作答两部分、二值化处理、去除横线/方格等非手写部分,得到题目图像1与作答图像2;步骤a3、对题目图像1、作答图像2分别进行ocr文字识别得到对应文字1、文字2;如果题目图像1无法识别出对应的文字,则将题目图像1可在图片题库中进行查找;步骤a4、启动卷面整洁度模块,统计作答图像2中非文字部分的数量,数量越多则整洁度越低;步骤a5、将作答图像2中非手写部分进行删除,得到只有手写内容的图像2;步骤a6、启动语言识别模块;步骤a7、启动作文批改流程;步骤a8、将步骤a7中的批改结果发送至老师端,并统计学生出现的通用问题;老师对批改结果进行修改,并将修改内容自动反馈至学生端;步骤a9、根据老师对批改结果建立自我学习模型。2.一种智能作文批改的系统,其特征在于,包括:字迹评分模块,将图像2中的笔画图像与国标楷体图像进行对比,相似度越高则字迹得分越高;扣分模块,判断文字中是否存在编造的内容;基于现行的法律法规、常用史料库、常用自然定律等进行判断,如果存在扣分情况,则扣分;查重模块,将文字与常用网络素材进行查重比对,重复率超过70%则判为0分;以段落为单位对文字进行遍历对比,对于不同段落中重复度高于70%的部分,将其进行删除,仅对第一次出现的部分进行批改;根据对应文字1或图片题库中查找的结果确定文体,具体可通过关键词确定。3.如权利要求2所述的一种智能作文批改的系统,其特征在于,所述系统还包括:卷面整洁度评估模块,整洁度越高,评分越高;对原始图像再次进行预处理,图像增强、去噪和裁剪等操作,以准备进行后续的特征提取和分析;使用边缘检测算法,检测卷面边缘的清晰度和平整度;通过检测白平衡和光照均匀性,以确保整体质量和可读性;污渍检测:使用颜色分析确认潜在的污渍;纹理分析算法,检测是否存在非正常纹理或污渍痕迹;采用计算机视觉和模式识别技术,对学生的笔迹进行分析和评估,主要考察笔记清晰度、笔迹一致性和笔迹错误指标。4.如权利要求2所述的一种智能作文批改的方法、系统及存储介质,其特征在于,所述查重模块,使用词嵌入模型将句子转换为高纬向量表示,再将词向量进行平均或加和等操作,得到整篇文章的向量表示;从存储大量作文数据的向量数据库milvus查询相似文章,通过动态阈值判断是否抄袭。5.如权利要求2所述的一种智能作文批改的系统,其特征在于,还包括:详细指标评分
模块,用于语法和拼写错误查找,使用上下文无关文法和句法树来分析句子的结构,然后检查是否存在不符合语法规则的结构或关系;如果存在错误,可以给出相应的错误提示或建议进行修正;使用事先构建好的词典来检查单词是否存在于词典中,如果不存在,则认为是拼写错误;对于错误,标注错误的文本及其再图片中的位置,并给出提示;通过分析文本中的段落标记,将文章拆分成段落;段落是文章的基本组织单位,提取段落数量和长度等信息可以反映文章的组织结构;使用关键词提取算法提取段落关键词并识别主题,使用词嵌入向量化,最后计算相似度来评估主题一致性和逻辑连贯性;使用基于统计的方法来评估词汇丰富性,通过句子长度、从句数量等指标来衡量句子复杂度;使用余弦相似度算法来评估作文与主题之间的相关性,使用基于深度学习的情感分类模型来分析作文中的情感倾向,从而判断观点鲜明都;使用文本相似度算法比较作文中提取的实体事件和现有知识库,对真实性做初步评分;通过敏感词库进行拦截扣分。6.如权利要求1所述的一种智能作文批改的系统,其特征在于,还包括评价模块,评价模块包括:a.文体模块:根据不同的文体设置不同的评价子模块及权重,如对于议论文文体,加大子模块2表达模块的权重;对于叙事文文体,加大子模块1内容模块的权重;对于抒情文文体,加大子模块3特征模块的权重;b.评价子模块1内容模块:具体的维度包括a.是否切题b.中心点是否突出c.内容是否充实d.思想是否健康d.感情是否真实;c.评价子模块2表达模块:具体的维度包括a.结构是否严谨b.语言是否流畅c.是否有错别字、标点符号;d.评价子模块3特征模块:a.是否深刻b.是否丰富c.是否有文采d.是否有创意。7.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1中所述智能作文批的方法步骤。

技术总结
本发明公开了一种智能作文批改的方法、系统及存储介质,通过多模块多算法的设计,增加遍历对比步骤,对于前后出现一样的句子设置规则;增加老师端,用于统计所有学生的作文评级、评语及通用问题;增加优秀素材模块,将自动识别出的好句好段、及老师端查缺补漏识别出的好句好段进行存储;老师可对程序自动批改的内容进行修改,并允许程序以老师修改后的内容进行自我学习,自我学习涉及到的算法不限。过生成全文总评报告可以很方便了解到学生的写作水平。形成互动,产生一对一心灵沟通陪伴的作用。通过将待提升语句信息输入到预置的智能作文修改模型中,从而得到建议润色语句信息,以方便学生学习改进。便学生学习改进。便学生学习改进。


技术研发人员:施其明 刘永坚 白立华 韩双力 桂前礼
受保护的技术使用者:武汉理工数字传播工程有限公司
技术研发日:2023.06.19
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐