基于机器学习的刑事案件辅助量刑方法和装置
未命名
07-19
阅读:112
评论:0

1.本发明实施例涉及人工智能技术领域,尤其涉及基于机器学习的刑事案件辅助量刑方法、装置、电子设备和存储介质。
背景技术:
2.人工智能、大数据等信息技术的迅速发展,深刻地影响着整个社会的运行和管理模式。目前,在司法领域,正在大力推进以信息化促进审判体系和审判能力现代化的“智慧法院”的建设,人工智能辅助司法审判的效果也日趋显著。其中,智能辅助量刑系统作为智慧法院建设的核心内容之一,不仅有利于审判效率的提升,更有助于促进量刑的规范化和科学化。
3.随着反腐力度日益增大,我国受贿类刑事案件的数量急剧上升,司法审判的难度和任务量也迅速增大,量刑辅助系统的重要性和实用性随之凸显。因此,亟需提供一种能够对包括受贿类案件在内的刑事案件的量刑进行预测的模型和方法,为法官提供量刑参考。
技术实现要素:
4.本发明实施例的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
5.本发明实施例提供了基于机器学习的刑事案件辅助量刑方法、装置、电子设备和存储介质,可以实现对于刑事案件量刑的预测,为法官提供量刑参考。
6.第一方面,提供了一种基于机器学习的刑事案件辅助量刑方法,包括:
7.获取目标刑事案件中目标罪名的目标量刑要素特征;
8.将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;
9.其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。
10.可选地,在对所述量刑预测模型进行训练之前,所述方法还包括:
11.基于正则匹配方法从所述目标罪名的裁判文书中提取所述目标罪名的量刑要素特征和量刑结果。
12.可选地,所述基于正则匹配方法从所述目标罪名的裁判文书中识别所述目标罪名的量刑要素特征和量刑结果之后,所述方法还包括:
13.将所提取的量刑要素特征或量刑结果中的使用数值表示的数据转换为比率变量。
14.可选地,所述目标刑事案件为受贿类刑事案件。
15.可选地,所述量刑要素特征包括受贿金额、是否属于国家工作人员、是否退还赃款、是否有自首情节以及是否有立功表现;所述量刑结果包括有期徒刑的刑期长度。
16.可选地,在对所述量刑预测模型进行训练之前,所述方法还包括:
17.根据从所述目标罪名的裁判文书中提取的所述目标罪名的受贿金额划分多个受
贿金额区间;
18.根据从所述目标罪名的裁判文书中提取的所述目标罪名的有期徒刑的刑期长度划分多个刑期区间;
19.对所述量刑预测模型进行训练,包括:
20.基于所述受贿金额所属于的受贿金额区间、是否属于国家工作人员、是否退还赃款、是否有自首情节、是否有立功表现以及所述有期徒刑的刑期长度所属于的刑期区间构建训练样本集,在所述训练样本集中以所述有期徒刑的刑期长度所属于的刑期区间作为类别标签;
21.采用所述训练样本集对所述量刑预测模型进行训练。
22.可选地,所述量刑预测模型为决策树模型、随机森林模型、k近邻模型或基于成对分类法的svm模型。
23.第二方面,提供了一种基于机器学习的刑事案件辅助量刑装置,包括:
24.目标量刑要素特征获取模块,用于获取目标刑事案件中目标罪名的目标量刑要素特征;
25.量刑预测模块,用于将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;
26.其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。
27.第三方面,提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
28.第四方面,提供了一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现所述的方法。
29.本发明实施例至少包括以下有益效果:
30.本发明实施例提供了基于机器学习的刑事案件辅助量刑方法、装置、电子设备和存储介质。所述方法中,首先获取目标刑事案件中目标罪名的目标量刑要素特征,然后将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果,其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。基于该方法、装置、电子设备和存储介质,其可以实现对于刑事案件量刑的预测,为法官提供量刑参考。
31.本发明实施例的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。
附图说明
32.图1为本发明一个实施例提供的基于机器学习的刑事案件辅助量刑方法的流程图;
33.图2为本发明另一个实施例提供的量刑预测模型的构建过程的流程图;
34.图3为本发明另一个实施例提供的基于决策树的受贿类案件量刑预测模型的示意图;
35.图4为本发明另一个实施例提供的基于支持向量机的受贿类案件量刑预测过程的示意图;
36.图5为本发明一个实施例提供的基于机器学习的刑事案件辅助量刑装置的结构示意图;
37.图6为本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
38.下面结合附图对本发明实施例做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
39.图1为本发明实施例提供的基于机器学习的刑事案件辅助量刑方法的流程图,由具有处理能力的系统、服务端设备或基于机器学习的刑事案件辅助量刑装置执行。如图1所示,该方法包括步骤110至步骤120。
40.步骤110,获取目标刑事案件中目标罪名的目标量刑要素特征。
41.这里,目标刑事案件是指需要进行量刑预测的刑事案件。在一些示例中,目标刑事案件可以是受贿类案件。目标量刑要素特征为从该目标刑事案件中所获取的与目标罪行相关的,并对量刑结果具有决定作用的情节或事实。在一些示例中,在受贿类案件中,目标量刑要素特征可以包括受贿金额、是否属于国家工作人员、是否退还赃款、是否有自首情节以及是否有立功表现。
42.步骤120,将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。
43.本步骤中,由于训练完成的量刑预测模型是根据从目标罪名的裁判文书中提取的目标罪名的量刑要素特征和量刑结果训练得到的,其可以基于目标刑事案件中目标罪名的目标量刑要素特征,实现对于目标刑事案件的量刑预测。例如,在一个受贿类案件中,所获取的目标量刑要素特征包括受贿金额1万元,属于国家工作人员,存在退还赃款情节,存在自首情节以及存在立功表现。将上述目标量刑要素特征输入至训练完成的量刑预测模型进行预测,则可以得到针对该受贿类案件的刑期预测结果。
44.量刑预测模型本质上是一种以刑期长度为分类标准的文本分类问题,旨在根据法律文书中刑事案件的具体情节或特征对当事人的刑期进行预测,从而为法官提供量刑参考。文本分类问题首先需要确定用于分类的要素特征,而后再以特征为标准得出与事先定义类别的最优匹配,最后将同类别的文本打上与之相对应的标签。
45.在一些实施例中,在对所述量刑预测模型进行训练之前,所述方法还包括:基于正则匹配方法从所述目标罪名的裁判文书中提取所述目标罪名的量刑要素特征和量刑结果。
46.在量刑要素特征已经确定的基础之上,本发明实施例将采用正则匹配的方法对命名实体进行识别,通过归纳分析命名实体如“受贿金额”、“有期徒刑刑期”等的常用语法规则,书写相应的正则表达式,实现对有关实体的提取。针对每个量刑要素特征或量刑结果,须设计相应的正则表达式。例如,针对量刑要素特征“受贿金额”或量刑结果“有期徒刑的刑期长度”设计相应的正则表达式。对于具体的正则表达式,本发明实施例不做具体限定。
47.根据从所述目标罪名的裁判文书中提取所述目标罪名的量刑要素特征和量刑结果,可以在量刑预测模型进行训练。
48.在一些实施例中,所述基于正则匹配方法从所述目标罪名的裁判文书中识别所述目标罪名的量刑要素特征和量刑结果之后,所述方法还包括:将所提取的量刑要素特征或量刑结果中的使用数值表示的数据转换为比率变量。
49.比率变量又称等比变量、定比变量,具有固定零点,数据间的距离是被定义的相等。为便于比较和统计,将使用数值表示的数据转换为比率变量。其中,量刑要素特征中使用数值表示的数据可以包括受贿金额,行贿金额等;量刑结果中使用数值表示的数据可以包括有期徒刑的刑期长度等。根据使用数值表示的数据内容的不同,可以将其转换为相应单位的比率变量。例如,对于受贿金额而言,可以将使用不同单位(如万、千)等方式表示的金额,转换为以“万”为单位的金额。对于有期徒刑的刑期长度,可以将使用不同单位(如月、年)等方式表示的刑期长度,转换为以“月”为单位的刑期长度。
50.在一些实施例中,所述目标刑事案件为受贿类刑事案件。根据受贿类刑事案件所涉及的法律规定和法律实践,对量刑要素特征进行确定。在一些实施例中,所述量刑要素特征包括受贿金额、是否属于国家工作人员、是否退还赃款、是否有自首情节以及是否有立功表现;所述量刑结果包括有期徒刑的刑期长度。
51.进一步地,针对受贿罪刑事案件,在对所述量刑预测模型进行训练之前,所述方法还包括:根据从所述目标罪名的裁判文书中提取的所述目标罪名的受贿金额划分多个受贿金额区间;根据从所述目标罪名的裁判文书中提取的所述目标罪名的有期徒刑的刑期长度划分多个刑期区间。
52.在法律实践中,可能每个案件的受贿金额和有期徒刑的刑期长度都不相同,因此,为了方便和简化分类学习,提高模型预测结果的准确度,以及提高对于模型的训练效率,根据受贿金额和有期徒刑的刑期长度的分布情况,划分多个受贿金额区间和多个刑期区间。
53.进一步地,对所述量刑预测模型进行训练,包括:基于所述受贿金额所属于的受贿金额区间、是否属于国家工作人员、是否退还赃款、是否有自首情节、是否有立功表现以及所述有期徒刑的刑期长度所属于的刑期区间构建训练样本集,在所述训练样本集中以所述有期徒刑的刑期长度所属于的刑期区间作为类别标签;采用所述训练样本集对所述量刑预测模型进行训练。
54.这里,对于训练样本集中的每个训练样本,其包括该训练样本中受贿金额所属于的受贿金额区间、是否属于国家工作人员、是否退还赃款、是否有自首情节、是否有立功表现等属性信息,同时将该训练样本中刑期长度所属于的刑期区间作为该训练样本的类别标签。
55.在一些实施例中,所述量刑预测模型为决策树模型、随机森林模型、k近邻模型或基于成对分类法的svm模型。
56.图2为本发明实施例提供的量刑预测模型的构建过程的流程图。在一些实施例中,量刑预测模型的构建过程可以包括步骤210至步骤250。其中,该量刑预测模型主要用于对受贿类案件的量刑进行预测。
57.步骤210,确定量刑要素特征
58.量刑要素特征即作为输入数据用以对文本进行分类的若干属性,在本发明实施例
以刑期长度为分类标准的情况下,量刑要素特征可具体化为影响受贿类案件量刑的若干具体情节或事实。量刑要素特征的确定对于刑期的分类、预测以及模型的准确率等均具有重要影响。
59.根据我国刑法的有关规定,受贿类犯罪主要包含非国家工作人员受贿罪、受贿罪和单位受贿罪三种。由于单位受贿罪相比于前两者而言,在现实中出现的频率较低,本发明实施例以前两类罪名为主要研究对象。我国《刑法》关于上述前两类罪名的规范主要出现在文件的第三章和第八章。其中,第163条对非国家工作人员受贿罪的认定、涉案金额及情节对量刑的影响等作出了规定。根据条文,该罪的主体为公司、企业或者其他单位的工作人员;其受贿金额根据大小被划分为三个等级,即数额较大、数额巨大和数额特别巨大,对应的法定刑分别为3年以下有期或拘役、3年以上10年以下有期及10年以上有期或死刑。第385条、386条、383条则是对受贿罪及其刑罚的有关规定:该罪的主体系国家工作人员,对于其所实施的受贿行为,依据涉案金额和情节,按照贪污罪(即第383条)的标准予以处罚;其受贿金额同样根据大小被划为三类——数额较大、数额巨大、数额特别巨大,相应的法定刑被分为3年以下有期或拘役、3年以上10年以下有期、10年以上有期或者无期,而如果金额特别巨大并且给社会带来特别严重损失的,将被判处无期或者死刑,其财产亦将被没收。通过对上述条款的分析可知,受贿金额在两类罪名的刑期认定中均占据了极为突出的地位,是受贿类犯罪量刑的主要标准。因此,“受贿金额”作为刑期长度的重要影响因素,应当被纳入到量刑要素特征中。同时,非国家工作人员受贿罪和受贿罪两个罪名中,在所侵犯的客体、犯罪主体、立案标准以及法定刑等方面尚存在诸多差异,其中,在法定刑方面,前者的法定最高刑是无期,而受贿罪的法定最高刑则为死刑,且在实务中发现存在其他条件相似但国家工作人员和非国家工作人员量刑不同的现象,因此,对于受贿类案件,“是否属于国家工作人员”也可视为影响量刑的因素之一,纳入到量刑要素特征中。
60.第383条第三款还指出,在检察机关提起公诉之前,如果犯罪分子存在如实供述自身罪行、积极退还赃款等行为,可以结合案件实际情况相应地从轻、减轻或免除处罚。法官在司法实务中通常会把退赃赔赃表现和认罪态度放在一起进行综合考量,作为识别犯罪分子人身危险性的判断因素,退还赃款行为作为一种酌定量刑情节,往往会对受贿类案件判决及其量刑产生一定的影响。因此,“是否退还赃款”可作为受贿类案件量刑的影响因素之一纳入到要素特征中。
61.另外,自首和立功作为法定的从轻、减轻或免除处罚的量刑情节,对于受贿类案件的量刑也存在一定的影响。虽然涉案数额对受贿类案件的量刑幅度具有决定性的影响,但犯罪分子的自首或立功情节对于受贿类案件的量刑也具有一定的调节作用,因而“是否有自首情节”、“是否有立功表现”可以作为受贿类案件量刑的影响因素,纳入量刑要素特征。
62.因此,可将“受贿金额”、“是否属于国家工作人员”、“是否退还赃款”、“是否有自首情节”、“是否有立功表现”五项确定为影响受贿类案件量刑的要素特征,作为模型的输入属性用于对刑期的分类。考虑到在实践中受贿类案件的当事人绝大多数被判处有期徒刑,而被判处拘役或死刑的情形较为鲜见,且情节多样化不易判断,故本发明实施例将对量刑的预测划定在“有期徒刑”范围内,暂时不考虑拘役与死刑的情况。
63.应该理解的是,当针对其他罪名的刑事案件的量刑进行预测时,可以根据法律规定和法律实践(例如通过分析裁判文书获取法律实践的具体情况)确定与目标罪名相关的
量刑要素特征。因此,当针对不同罪名构建量刑预测模型时,所确定的量刑要素特征可能是相同的,也可能是不同的。
64.步骤220,基于规则的命名实体识别
65.命名实体识别(ner)是自然语言处理(nlp)的基础性环节,识别的准确率对于之后的处理任务存在重要影响。如果其识别的准确率偏低,会导致错误在之后的工作中不断积累,从而破坏整体的效果。在缺少大量标注语料的前提下,采用基于规则的命名实体识别方法可以获得相对较高的准确率,实现对整体识别效果的维持。“规则”是指所要识别实体的语法构成要素合集,对于同一命名实体,在不同的裁判文书中可能会有不同的语法表述,为了尽可能多且有效地从已有文本数据中提取出所需命名实体,需要对出现及可能出现的语法规则进行总结归纳。在量刑要素特征已经确定的基础之上,本发明实施例将采用正则匹配的方法对命名实体进行识别,通过归纳分析命名实体如“受贿金额”、“有期徒刑刑期”等的常用语法规则,书写相应的正则表达式,实现对有关实体的提取。
66.步骤230,数据处理
67.在对数据进行分析和建模之前,首先需要对数据的值进行必要的整理和编码,处理缺失数据以及清除无意义的信息,这是数据价值链中的关键步骤,也是后续模型构建的基础。常用的数据处理方法有空值处理、重复值处理等。对于前述用正则匹配到的“受贿金额”和“有期徒刑刑期”,考虑到不同裁判文书的表达形式存在的不统一性以及此类变量所具有的尺度特性,本发明实施例在基础的处理方法之上还对其进行了如下的进一步处理:
68.1、对“有期徒刑刑期”的转化。在正则匹配出的“有期徒刑刑期”中,既有以月份为单位计算的(如“6个月”),又有以年份为单位计算的(如“十年”),因此,为了便于后续的比较和统计,本发明实施例在对空值数据进行0值替代的基础上,将所有有效刑期转化为按照月份计算的比率变量。
69.2、对“受贿金额”变量的整理。通过对正则提取出的“受贿金额”类数据的观察,发现其中小部分数据含有“、”,“;”等影响数据有效性的无意义标点符号,极少量数据含有“欧元”、“美元”字样,同时还存在部分空值。对于这部分数据,本发明实施例均采用0值替代的处理办法。另外,还需要将其余的有效“受贿金额”数据的类型从字符串型(str)转化为浮点型(float)。
70.3、对“0值”数据的删除。在前述两过程中产生了数量较多的“0值”数据,其存在会对后续模型的训练造成影响,故需将含有“0”值的数据行删除。
71.4、重复值处理。在其余处理均完成的基础之上,利用函数将数据中的重复行删除。
72.步骤240,构建量刑预测模型
73.模型构建的过程即分类器构造的过程,是指按照一定的规则建立起从要素特征到既定类别的某种映射,需要将大量数据输入分类器并进行训练。对于面向受贿类案件的量刑预测模型的构建,本发明实施例将分别通过决策树算法、随机森林算法、k近邻算法以及支持向量机算法建立起从“受贿金额”、“是否属于国家工作人员”、“是否退还赃款”、“是否有自首情节”、“是否有立功表现”到“有期徒刑刑期”之间的映射,将上述五类要素特征数据输入相应分类器进行训练以产生模型。
74.1、决策树模型与随机森林模型
75.决策树模型和随机森林模型都是典型的非参数分类模型,用于对未知类别的样本
进行分类判别。
76.(1)决策树模型
77.决策树基于“树”的结构进行决策。其中,根节点中包括了所有待分类样本,各样本则根据相应的属性判断结果被划归为下级的叶节点或内部节点;每个内部节点对应某一属性值的“判断”,每个分支则对应该判断的一种可能结果(也即相应属性的一种可能取值),每个叶节点对应一个最终分类结果;从根节点到不同叶节点的路径,则反映出若干条不同的判别规则。
78.其中,“划分属性”(即内部节点所对应的属性)的选择是决策树算法的核心,主要通过对训练样本的分析而确定。在实际建模时,采用特征变量的“纯度”作为寻找决策树节点的标准。信息熵(entropy)和基尼指数(gini_index)是判断和比较样本集“纯度”经常用到的两种标准。
79.假设当前样本集合d中第k类样本的权重为pk,则该集合的信息熵entropy定义为:
[0080][0081]
信息熵的值越小,则样本的纯度越高。信息增益(gain)则在信息熵的基础之上对当前划分给信息熵带来的变化进行了计算。假定离散属性a的取值为{a1,a2,
……
,av},dv是d中在a上取值为av的样本集合,则属性a对样本集合d进行划归所得到的gain为:
[0082][0083]
为使样本集合划分后获得相对最大的“纯度提升”,信息增益最大的属性将被选用作为内部节点。
[0084]
属性a的基尼指数gini_index(d,a)为:
[0085][0086][0087]
基尼指数越小,数据集的纯度越高。在待选属性集中选取使划分后gini(d)最小的属性作为当前的内部节点。
[0088]
(2)随机森林算法
[0089]
随机森林是由多个决策树构成的森林,每棵树处理的是一个训练样本子集,根据不同类别在全部决策树分类结果中所占的比重得出最终的分类结果。在生成决策树的过程中,需要在横方向和纵方向上分别增添随机过程。横方向上生成决策树时采用放回抽样获得训练样本,纵方向上则依据无放回随机抽样获取特征子集,并以此来计算其最优切分点。当测试样本进入分类器时,森林中的每一颗决策树都会对之进行分类预测,而后取所有分
类结果中最多的一类为最终判别结果。
[0090]
2、k近邻(knn)
[0091]
k近邻法(knn)也是一种非参数建模的机器学习方法。k近邻法假定训练集样本通过n个属性描述,则每个样本可视为n维空间中的一个点。当需要对一个新的样本进行分类时,就在n维空间内搜索k个与之距离最近的训练集样本,后通过多数表决的方式对其类别进行预测。k近邻法主要由以下几个步骤组成:
[0092]
(1)给定k值和某测试样本x0,从训练集中找到k个与x0距离最近的点集n0。
[0093]
k近邻模型的特征空间一般是n维实数向量空间rn,常用的衡量距离的指标有欧式距离、曼哈顿距离等。
[0094]
欧式距离的计算公式如下:
[0095][0096]
曼哈顿距离的计算公式如下:
[0097][0098]
(2)计算n0中属于类别i的样本的数据,并计算其权重pi。
[0099]
(3)将样本x0归类为权重pi取值最大的类别i。
[0100]
在k近邻算法中,k的不同取值会对结果带来不同的影响。如果k过小,模型就会容易受到训练集样本中噪声影响而产生过拟合,而k过大时,模型的弹性将会变低,训练集指标和测试集指标均变差。对于k值的确定,本发明实施例采用k折交叉验证(k-fold cross-validation,k-fold cv)方法,分别计算k为1、3、5、15、29、39、69、99、201、301时所得模型的准确率,选取模型准确率最高时的k值。其中,k折交叉验证方法的基本思路为:将样本数据随机地划分为k个互不相交的“折”(子集)d1,d2,
……
,dk,每个“折”的大小大致相等,训练和测试进行k次;在第i次迭代,折di用作测试集,其他的折共同作为训练集进行模型训练,模型最终的评价指标是对k次迭代得到的k个测试指标计算其算数平均数。
[0101]
3、支持向量机(svm)
[0102]
svm的主要思想是求解可以正确划分样本集且使几何间隔最大的分离超平面,该思想决定了svm是一个二元分类器,适用于二分类问题。svm的基本原理如下:
[0103]
如果用ω
t
x+b=0来表示任意超平面,用d表示支持向量到超平面的距离,则有:
[0104][0105]
最优化问题可以转化为:
[0106][0107]
构造并求解凸二次规划问题,利用拉格朗日乘子法,得到最终决策模型:
[0108][0109]
kkt条件:αi≥0,yif(xi)≥1,αi(yif(xi)-1)=0
[0110]
当能够正确划分两类数据的超平面不存在时,就需要将数据从初始空间映射到一个更高维度的特征空间,使数据在此高纬空间中线性可分,其方法是用核函数替代上述推导过程中对偶问题里的内积,对于核函数的选择则成为关系svm性能的重要因素。
[0111]
前述的svm仅适用于二分类问题,如想将支持向量机应用于多分类问题,则需通过一定的方式构建多元分类器,其中常用的方法主要有以下两种:(1)成对分类方法。又称一对一法(ovo svms),其主要思想是建立任意两类样本的支持向量机分类器,x个类别需要构建x(x-1)/2个分类器,在进行分类时,需要通过所有分类器进行测试,计算所有测试结果中各类别所占权重,将样本归为权重最高的那一类。(2)一类对余类方法。又称一对多法(one-against-all),其主要思想是:假定共有x类(a1,a2,
……
,a
x
),先将类别a1视为一类,其余a2到a
x
类共视为一类,然后再将其余属性按照相同的方法一直分类下去,x类最后共有x个svm分类器。两种方法相比,一类对余类方法可能会出现类不平衡、分类重叠和不可分类等现象,成对分类法则可以有效缩小问题的规模,故本发明实施例将选取成对分类法。
[0112]
在分类器训练也即模型构建完成后,便可将测试数据输入分类器,以获得对各测试样本所属类别之判断。本发明实施例还可以在对上述四类模型进行分别测试的基础上,从准确率、可解释性等方面对上述四类模型进行评估比较,综合分析各模型的利弊。
[0113]
综上所述,本发明实施例提供了基于机器学习的刑事案件辅助量刑方法,首先获取目标刑事案件中目标罪名的目标量刑要素特征,然后将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果,其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。基于该方法、装置、电子设备和存储介质,其可以实现对于刑事案件量刑的预测,为法官提供量刑参考。
[0114]
以下提供一个具体的实施场景,以进一步说明本发明实施例提供的基于机器学习的刑事案件辅助量刑方法。
[0115]
本发明实施例针对受贿类案件构建量刑预测模型,并对受贿类案件的量刑进行预测。
[0116]
1、实验数据说明
[0117]
本发明实施例所采用的实验数据不均匀分布在300个excel文件中,共包含41111条裁判文书记录,涉及罪名包括贪污、行贿、受贿、挪用公款等,每条记录包含文书标题、案件类型、庭审程序、案由、文书类型、判决法院、判决日期、原告、被告、第三人、审判长、审判员、书记员、庭审程序说明、庭审过程、法院意见、判决结果等若干项内容。
[0118]
2、受贿类案件相关数据的提取
[0119]
由于原始数据中不仅限于受贿类案件,还包含贪污、挪用公款等类型的案件,故需要进行初步的提取。首先,定义一个空的dataframe用于存放提取到的受贿类案件;之后,遍历文件夹
‘
data’中存放的300个excel文件,利用contains()函数从检索的记录中提取出“受贿”类犯罪并被判处“有期徒刑”的记录。每检索完一个excel文件,都在将符合条件的记录追加到事先定义的df中,直至遍历结束。
[0120]
3、命名实体识别与数据处理
[0121]
(1)受贿金额的提取与处理
[0122]
1:pattern=re.compile('.*非法所得人民币(\d*)(\.)?(\d*)?(\d*)?元|.*违法所得人民币(\d*)(\.)?(\d*)?(\d*)?元|.*非法所得(\d*)(\.)?(\d*)?(\d*)?元|.*违法所得(\d*)(\.)?(\d*)?(\d*)?元|.*赃款人民币(\d*)(\.)?(\d*)?(\d*)?元|.*赃款(\d*)(\.)?(\d*)?(\d*)?元|.*受贿款人民币(\d*)(\.)?(\d*)?(\d*)?元|.*受贿款(\d*)(\.)?(\d*)?(\d*)?元')
[0123]
2:result=pattern.findall(word)
[0124]
通过对部分文书“判决结果”字段中关于受贿金额的描述,总结归纳出上述正则表达式,用于提取各项记录中的受贿金额。
[0125]
1:w=str(word)
[0126]
2:if'、'in w or';'in w or'千'in w or'百'in w or'美'in w or'欧'in w or'一'inw or'十'in w or'元'in w or'作'in w or w==”:
[0127]
return 0
[0128]
对利用正则表达式提取到的受贿金额数据进行观察,发现其中存在不规范的表达及空值,故利用上述if语句对其进行处理,用“0”替代其中的不规范记录和空值。而后,仍需对数据进行进一步的处理,最终将所有的“受贿金额”数据转化成数值型的比率变量。
[0129]
(2)有期徒刑刑期的提取与处理
[0130]
1:pattern=re.compile('.*执行有期徒刑(\d{1,3}年)?(\d{1,3}月)?|.*判处有期徒刑(\d{1,3}年)?(\d{1,3}月)?')
[0131]
通过对部分文书“判决结果”字段中关于有期徒刑刑期的描述,总结出上述正则表达式用以提取有期徒刑刑期。由于提取出的有期徒刑刑期多为如“两年”、“十年”等此类的中文字符,无法对其进行大小比较,从而影响后续的分类学习,因此仍需进行下一步处理。
[0132]
构建字典xq_dict,将中文数字与阿拉伯数字对应。定义函数,将有期徒刑的刑期转化成以月份为单位的可以进行大小比较的数字。同时用与处理受贿金额同样的方式对空值进行替代处理。
[0133]
通过对部分文书进行总结归纳,利用contains()函数完成对于“是否是国家工作人员”、“是否有自首情节”、“是否有立功表现”、“是否归还赃款”四个要素特征的提取。
[0134]
而后,利用isin()函数去除掉受贿金额或者有期徒刑刑期中被0替代的数据行,并用drop_duplicates()函数进行重复值处理。
[0135]
通过上述提取和处理,共得到有效数据记录3965条,其中有期徒刑刑期(以月为单位)的统计结果如表1所示。
[0136]
表1有期徒刑刑期(以月为单位)及对应案件数量统计
[0137][0138][0139]
基于上述统计可以看出,提取出的有效案件数据中有期徒刑刑期(以月为单位)最短为6个月(半年),最长为228个月(十九年),大部分案件的刑期长度集中在6~120个月的范围内,其中被判处12个月(一年)、18个月(一年半)、24个月(两年)、36个月(三年)、60个月(五年)的案件数量明显高于其他刑期长度的案件数量,刑期长度在120个月(十年)以上的案件相对来说占比较少。根据案件有期徒刑刑期长度的这一分布特点,为方便和简化后续的分类学习、提高结果的准确度,本发明实施例结合数据等分节点与现实裁判习惯将提取出的上述案件按照刑期长度划分为以下五类,即五个刑期区间(见表2)。
[0140]
表2结果类别与对应刑期
[0141]
类别名称有期徒刑刑期(/月)刑期1类0~12刑期2类13~36刑期3类37~48刑期4类49~120刑期5类121~240
[0142]
对受贿金额的统计结果进行分析,并结合具体数据情况,以同样目的及原理将受贿金额按照数额大小分为以下五类,即五个受贿金额区间(见表3)。
[0143]
表3受贿金额类及对应数额
[0144]
类别名称受贿数额(/元)10~20000220001~50000350001~1000004100001~2000005200001~3000000000
[0145]
按照上述分类标准和依据,利用pandas的cut()函数将“受贿金额”和“有期徒刑刑期(以月为单位)”划分为五类。
[0146]
4、模型构建
[0147]
在提取出的3965条有效案件记录中,刑期1类案件有600条,刑期2类案件有1601条,刑期3类案件有368条,刑期4类案件有1098条,刑期5类案件有298条。
[0148]
区分特征要素和目标要素,利用sklearn.model_selection的train_test_split()函数对测试数据和训练数据进行比例划分,本发明实施例采用训练集:测试集=7:3的比例,其中训练集样本规模为2775条,测试集样本规模为1190条。
[0149]
从sklearn.tree中调用decisiontreeclassifier,从sklearn.ensemble中调用randomforestclassifier,从sklearn.neighbors中调用kneighborsclassifier,从sklearn.svm i中调用svc,分别构建决策树模型、随机森林模型、knn模型、基于成对分类法的svm模型,并对模型进行训练。其中,在确定knn模型的k值时,采用k折交叉验证法(取n_splits=10),分别计算k值取1、3、5、15、29、39、69、99、201、301时所得分类器的准确率并对之进行比较。经过实验,发现在k取29时,knn分类器的准确率最高,故将k的取值定为29。
[0150]
5、测试与计算
[0151]
以决策树模型(dt_model_1)为例,在模型训练完成后,通过predict()函数用测试集feature_test对模型进行测试,获得预测结果predict_results_1。分别调用sklearn.metrics中的accuracy_score()和f1_score(),根据预测结果与真实值的比较计算相应的准确率accuracy和f1值。其他模型的测试与计算以此类推。本发明实施例取100次实验的平均值作为最终结果的比较值。
[0152]
6、实验结果
[0153]
本发明实施例采用准确率(accuracy)、f1_score和运行时间来评价模型性能。准确率或者f1_score的值越高,则代表模型实现的分类准确度越高;运行时间越短,则代表模型的计算速度越快。其中,准确率(accuracy)和f1_score的计算公式如下:
[0154]
准确率(accuracy)=分类正确的数据条数/测试数据集中的信息条数
[0155]
f1_score
macro
=所有类别的f1_score之和/类别数
[0156]
其中,p为精确率,r为召回率。
[0157]
经测试,四种模型的结果对比见表4。其中,svm模型的准确率accuracy高于剩下三种模型,但其f1_score在四类模型中最低。决策树模型和随机森林模型的f1_score及accuracy均较为接近。决策树模型的f1_score最高。在训练时间与测试时间方面,svm模型耗时最长,决策树模型耗时最短,knn模型耗时相对较长。
[0158]
表4实验结果
[0159]
模型类型\指标accuracyf1_score运行时间(每100次)决策树0.42470.24091.0821随机森林0.42400.23938.4189k近邻(knn)0.42440.232523.6519支持向量机(svm)0.43550.1916137.3189
[0160]
以下针对四种模型的实验结果进行分别分析:
[0161]
(1)决策树模型与随机森林模型
[0162]
图3为本发明实施例提供的基于决策树的受贿类案件量刑预测模型的示意图。如图3所示,从根节点出发,依据要素特征的不同取值,决策树呈现出了若干条不同的分支。每个分支路径包括多个叶节点,每个叶节点对应于某一个量刑要素特征。在训练出的决策树结构中,根节点是“受贿金额”,这一判断出发点与当前实务中受贿类案件以受贿数额为主要量刑依据的习惯做法不谋而合。由于各路径遵循的分支原理基本一致,仅具体节点对应的要素特征不同,本发明实施例在此不作逐一说明,仅就其中一条分支路径(最右侧分支)加以详细解释,其他分支的裁判思路可以参照此条。具体地,在最右侧分支中,从根节点出发,判断“受贿金额”是否小于等于3.5(即对应的受贿数额小于等于35000元),若大于3.5,则进一步判断是否有自首情节(“无自首”《=0.5),若存在自首情节(“自首”》0.5),则判断是否有立功表现(“无立功”《=0.5),如果有立功表现(“立功”》0.5),则判断是否为国家工作人员(“不是国家工作人员”《=0.5),若是国家工作人员(“国家工作人员”》0.5),则再判断其是否归还赃款(“未归还赃款”《=0.5),若归还了赃款(“归还赃款”》0.5),则再判断其“受贿金额”是否小于等于4.5(即对应的受贿数额小于等于45000元),若大于4.5,则可得出属于“刑期4类”的判断结果,该受贿类案件的预测量刑区间被划定在4~10年的范围内,法官在裁断此案件时便可参考该结果进行量刑。
[0163]
对决策树结构中各叶节点对应的样本数量进行统计,可以得到,训练集中“刑期1类”案件共计21件,“刑期2类”案件共计1893件,“刑期3类”案件共计0件,“刑期4类”案件共计714件,“刑期5类”案件共计126件。根据决策树的分支,可以发现,被划定为“刑期1类”的案件都包含有“自首”、“立功、”归还赃款”中的至少一项乃至全部三项,且其均满足“受贿金额”小于等于“1.5”的条件。该现象在现实层面可以解释为,当一个案件当事人被判处较短刑期时,其一般具有“自首”、“立功表现”、“主动归还赃款”这三项情节中的至少一项或多项,且其受贿数额必须在某一固定值之下。与之类似,被划定为“刑期5类”的案件则需满足“受贿金额”大于“4.5”且没有“立功”两个条件,在现实中可理解为如果当事人的受贿金额较为巨大且没有重大立功表现,其被判处较重刑罚的可能性也会更大。不难看出,上述两解释与当前司法实务中法官对受贿类案件的量刑思路是较为接近的。
[0164]
通过对表4中四种模型性能指标的观察,可以发现,决策树模型虽然在准确度(accuracy)上不如支持向量机模型,但其f1_score的值最高且实现速度最快。同时,就服务于司法审判的量刑预测模型而言,决策树模型较强的可解释性是其相较于其他模型的天然优势。决策树作为一种非参数的机器学习方法,能够从根节点出发构建出通向各叶节点的完整判断路径,就本发明实施例研究的受贿类案件量刑预测模型而言,其可依据受贿金额、自首情节、立功表现、是否归还赃款等具体案件构成要素系统地预测出相应的刑期,并给出完整的判断规则,从而在为法官提供量刑建议的同时为其提供裁判思路参考。相较而言,随
机森林作为多个以随机方式建立起的决策树的集合,其决策原理是多棵决策树投票,即当一个新的受贿类案件进入随机森林时,随机森林中的每棵决策树均会对该案件的刑期进行预测,最终根据全部预测结果选出最多的一类作为该案件的量刑参考。结合实验结果的数据,随机森林模型的accuracy和f1_score与决策树相去不多,但其运行时间却相对略长,且在模型的可解释性方面逊色于决策树模型。
[0165]
(2)k近邻(knn)
[0166]
knn模型是一种典型的惰性学习算法。本法发明实施例以k折交叉验证(取k=10)的方法分别计算了k为不同取值时knn算法的准确率,得到在k=29时,knn模型的准确率最高。面对一个新的受贿类案件时,模型需要计算出训练集中每个样本与当前新案件的距离,并进行一一对比,获得其中29个与当前案件距离最小的训练集样本,而后对该29个样本的类型进行统计,比较“刑期1类”、“刑期2类
”……“
刑期5类”这五类案件的占比,占比最大的结果类别即为最终的预测刑期。根据实验结果,就准确度而言,knn除了与支持向量机模型相比明显较低外,与决策树和随机森林相差不大,但f1_score却相对略小,且运行时间仅次于支持向量机模型,在四种算法中较为耗时。
[0167]
综合而言,knn算法易于理解和实现,其基于距离计算和权重比较得到的分类结果含有“同案同判”的意味,将待预测案件与较为相似的案件归类并通过“投票”得出量刑的判断,与判例法国家的裁判理念存在一定的相近之处。但也需要考虑到,由于knn算法需要计算待判别样本与训练集中每个样本的距离并进行逐个比较,因此如果训练集中裁判文书的记录超过一定数量,knn的计算过程将非常缓慢,并对内存具有较高的要求,故在样本集规模较大的时候选择knn算法需要慎重。
[0168]
(3)支持向量机模型
[0169]
本发明实施例所采用的是“成对分类法”(ovo),即在任意两个类型的样本之间都构建一个支持向量机。当新的待判别样本进入时,每个支持向量机均对之进行划分,在所有划分结果中占比最大的类别即视为最终的分类结果。就本发明实施例的受贿类案件量刑预测模型而言,由于训练集样本被分为五类(即“刑期1\2\3\4\5类”),则在这五类样本间共须构建出10个svm分类器。当新的受贿类案件进入时,这10个分类器均对其进行分类从而最终得出结果。图4为本发明实施例提供的基于支持向量机模型的受贿类案件量刑预测过程的示意图。结合图4,以测试集中的一个分类结果为例,支持向量机对受贿类案件量刑判断的具体过程可作如下说明:
[0170]
图4中每个分类器在输入分类结果的同时给出了在每个分类器中相应分类结果的权重,使用result表示。在10个分类器中,有3个分类器得出的判断结果为“刑期1类”,4个分类器得出的判断结果为“刑期2类”,2个分类器得出的结果为“刑期3类”,1个分类器得出的结果为“刑期4类”,没有“刑期5类”的结果。在10个分类器的分类结果中,刑期1类、刑期2类、刑期3类、刑期4类、刑期5类的权重为3:4:2:1:0。由于“刑期2类”分类结果在所有分类结果中的权重最大,故对于这一受贿类案件的预测刑期分类为“刑期2类”。与决策树及knn得出分类结果的机理相比,“一对一”支持向量机模型的原理和思路虽然清晰,但对于司法审判尤其是刑事领域的判决而言,其可解释性似乎仅停留在数理计算层面,在说理层面则缺乏审判必要的逻辑性和思维性。结合实验结果,支持向量机模型在准确度方面具有较为明显的优势,但其f1_score的值却偏低且运行耗时在四种模型中最长。另外,还应考虑到,由于k
个类别的样本需要设计k(k-1)/2个分类器,当类别很多时,分类器的数量将关于k成二次函数增长,总的训练时间和测试时间也将随之更加延长,故可能不利于后续对刑期进行进一步细分。
[0171]
本发明实施例针对受贿类案件的量刑预测进行了研究,构建了决策树、随机森林、k近邻、支持向量机四种量刑预测模型,并通过测试得到了各模型的准确率accuracy、f1_score、运行时间。决策树模型计算量相对小,实现速度快,f1_score最高,且在四种模型中可解释性最强,最符合司法裁判的说理性要求,虽然在某些场景下可能出现过拟合现象,但综合而言其性能最好,更适用于受贿类案件量刑预测模型的构建。随机森林模型的泛化能力较决策树强,并能够检测出要素特征之间的相互影响,但其可解释性较弱。k近邻法在受贿类案件量刑预测模型上的可解释性仅次于决策树算法,但其耗时相对较长,且当训练集数据达到一定数量的时候,该算法的计算过程将非常缓慢。“一对一”的支持向量机模型具有较高的accuracy,而其f1_score较低,同时在案件量刑预测模型中的可解释性缺乏说理层面的逻辑思维,相对而言不够符合司法审判的要求,但在注重准确率并对可解释性要求不高的前提下,也可以采用支持向量机模型。
[0172]
综上所述,本发明实施例所提供的基于机器学习的刑事案件辅助量刑方法,首先获取目标受贿刑事案件的目标量刑要素特征,然后将目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到受贿刑事案件的量刑预测结果,其中,训练完成的量刑预测模型是根据从受贿刑事案件的裁判文书中提取的包括“受贿金额”、“是否属于国家工作人员”、“是否退还赃款”、“是否有自首情节”、“是否有立功表现”等五个量刑要素特征以及“有期徒刑刑期”这一量刑结果训练得到的,并且该量刑预测模型可以分别基于决策树模型、随机森林模型、k近邻模型或基于成对分类法的svm模型构建而成。基于该方法,其可以实现对于刑事案件量刑的预测,为法官提供量刑参考。
[0173]
图5示出了本发明实施例提供的基于机器学习的刑事案件辅助量刑装置的结构示意图。如图5所示,该基于机器学习的刑事案件辅助量刑装置500,包括:目标量刑要素特征获取模块510,用于获取目标刑事案件中目标罪名的目标量刑要素特征;量刑预测模块520,用于将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。
[0174]
在一些实施例中,所述装置还包括:
[0175]
数据提取模块,用于基于正则匹配方法从所述目标罪名的裁判文书中提取所述目标罪名的量刑要素特征和量刑结果。
[0176]
在一些实施例中,所述装置还包括:
[0177]
数据转换模块,用于将所提取的量刑要素特征或量刑结果中的使用数值表示的数据转换为比率变量。
[0178]
在一些实施例中,所述目标刑事案件为受贿类刑事案件。
[0179]
在一些实施例中,所述量刑要素特征包括受贿金额、是否属于国家工作人员、是否退还赃款、是否有自首情节以及是否有立功表现;所述量刑结果包括有期徒刑的刑期长度。
[0180]
在一些实施例中,所述装置还包括:
[0181]
受贿金额区间划分模块,用于根据从所述目标罪名的裁判文书中提取的所述目标
罪名的受贿金额划分多个受贿金额区间;
[0182]
刑期区间划分模块,用于根据从所述目标罪名的裁判文书中提取的所述目标罪名的有期徒刑的刑期长度划分多个刑期区间;
[0183]
模型训练模块,包括:
[0184]
训练样本集构建子模块,用于基于所述受贿金额所属于的受贿金额区间、是否属于国家工作人员、是否退还赃款、是否有自首情节、是否有立功表现以及所述有期徒刑的刑期长度所属于的刑期区间构建训练样本集,在所述训练样本集中以所述有期徒刑的刑期长度所属于的刑期区间作为类别标签;
[0185]
训练子模块,用于采用所述训练样本集对所述量刑预测模型进行训练。
[0186]
在一些实施例中,所述量刑预测模型为决策树模型、随机森林模型、k近邻模型或基于成对分类法的svm模型。
[0187]
图6示出了本发明实施例的电子设备。如图6所示,电子设备600包括:至少一个处理器610,以及与至少一个处理器610通信连接的存储器620,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行的方法。
[0188]
具体地,上述存储器620和处理器610经由总线630连接在一起,能够为通用的存储器和处理器,这里不做具体限定,当处理器610运行存储器620存储的计算机程序时,能够执行本发明实施例中结合图1至图5所描述的各项操作和功能。
[0189]
在本发明实施例中,电子设备600可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、个人数字助理(pda)、手持装置、消息收发设备、可佩带计算设备等等。
[0190]
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现的方法。具体实现可参见方法实施例,在此不再赘述。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该存储介质中的指令。从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的存储介质构成了本发明的一部分。
[0191]
存储介质包括但不限于软盘、硬盘、磁光盘、光盘、磁带、非易失性存储卡和rom。还可以通过通信网络从服务器计算机上或者云上下载程序代码。
[0192]
需要说明的是,上述各流程和各系统结构中,不是所有的步骤和模块都是必须的,可以根据实际需要忽略某些步骤和单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中的描述的装置结构可以是物理结构,也可以是逻辑结构。某个模块或单元可能由同一物理实体实现,某个模块或单元可能由多个物理实体分别实现,某个模块或单元还可以由多个独立设备中的多个部件共同实现。
[0193]
尽管本发明实施例的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明实施例并不限于特定的细节和这里示出与描述的图例。
技术特征:
1.一种基于机器学习的刑事案件辅助量刑方法,其特征在于,包括:获取目标刑事案件中目标罪名的目标量刑要素特征;将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。2.如权利要求1所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,在对所述量刑预测模型进行训练之前,所述方法还包括:基于正则匹配方法从所述目标罪名的裁判文书中提取所述目标罪名的量刑要素特征和量刑结果。3.如权利要求2所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,所述基于正则匹配方法从所述目标罪名的裁判文书中识别所述目标罪名的量刑要素特征和量刑结果之后,所述方法还包括:将所提取的量刑要素特征或量刑结果中的使用数值表示的数据转换为比率变量。4.如权利要求1所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,所述目标刑事案件为受贿类刑事案件。5.如权利要求4所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,所述量刑要素特征包括受贿金额、是否属于国家工作人员、是否退还赃款、是否有自首情节以及是否有立功表现;所述量刑结果包括有期徒刑的刑期长度。6.如权利要求5所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,在对所述量刑预测模型进行训练之前,所述方法还包括:根据从所述目标罪名的裁判文书中提取的所述目标罪名的受贿金额划分多个受贿金额区间;根据从所述目标罪名的裁判文书中提取的所述目标罪名的有期徒刑的刑期长度划分多个刑期区间;对所述量刑预测模型进行训练,包括:基于所述受贿金额所属于的受贿金额区间、是否属于国家工作人员、是否退还赃款、是否有自首情节、是否有立功表现以及所述有期徒刑的刑期长度所属于的刑期区间构建训练样本集,在所述训练样本集中以所述有期徒刑的刑期长度所属于的刑期区间作为类别标签;采用所述训练样本集对所述量刑预测模型进行训练。7.如权利要求1至6中任一项所述的基于机器学习的刑事案件辅助量刑方法,其特征在于,所述量刑预测模型为决策树模型、随机森林模型、k近邻模型或基于成对分类法的svm模型。8.一种基于机器学习的刑事案件辅助量刑装置,其特征在于,包括:目标量刑要素特征获取模块,用于获取目标刑事案件中目标罪名的目标量刑要素特征;量刑预测模块,用于将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;
其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7中任一项所述的方法。10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-7中任一项所述的方法。
技术总结
本发明实施例公开了基于机器学习的刑事案件辅助量刑方法和装置。所述方法,包括:获取目标刑事案件中目标罪名的目标量刑要素特征;将所述目标量刑要素特征输入至训练完成的量刑预测模型中进行量刑预测,得到所述目标刑事案件的量刑预测结果;其中,所述训练完成的量刑预测模型是根据从所述目标罪名的裁判文书中提取的所述目标罪名的量刑要素特征和量刑结果训练得到的。基于该方法,可以实现对于刑事案件量刑的预测,为法官提供量刑参考。为法官提供量刑参考。为法官提供量刑参考。
技术研发人员:刘振宇 李丹阳 时建中
受保护的技术使用者:中国政法大学
技术研发日:2023.03.31
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:流体动力导管的制作方法 下一篇:一种钢转炉烟道用清洗装置的制作方法