基于标签知识库的医疗文本标注方法及装置与流程
未命名
10-16
阅读:78
评论:0

1.本技术涉及医疗大数据技术领域,尤其涉及一种基于标签知识库的医疗文本标注技术。
背景技术:
2.日益增长的医疗文本数据给整个行业的发展带来了巨大的机遇和挑战,绝大部分的医疗文本数据属于半结构化或者非结构化的数据,只有将半结构化或非结构化的数据转化为计算机可以处理的结构化数据,才能够对其进行一系列的科研应用,而对文本信息的标注正是对其进行结构化处理的基础。通过文本标注得到的熟语料是一种非常重要的资源,是命名实体识别、关系自动抽取等相关研究的基础,特别是在针对医疗数据文本的自然语言处理的模型训练时,需要提供足够多的、高质量的人工预先标注的医疗数据样本。
3.而传统的医疗数据标注采用单人手动标注的方式,不仅费时费力,而且医疗数据的样本标注质量完全取决于单个数据标注员的个人素质与细心程度,容易错标或遗漏数据。
技术实现要素:
4.本技术的一个目的是提供一种基于标签知识库的医疗文本标注方法及装置,旨在减少医疗数据文本人工标注的工作量,提高标注效率和准确率。
5.为实现上述目的,根据本技术的一方面,本技术的一些实施例提供了一种基于标签知识库的医疗文本标注方法,所述方法包括:获取待标注医疗文本;基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;根据对所述预标注文本的确认操作,得到标注文本;或者,获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
6.可选地,在上述实施例的基础上,所述方法还包括:预构建标签知识库;构建方法包括:基于用户设定的标签名称值生成标签名称,并基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则;基于用户设定的关系名称值生成关系名称,并基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则;基于设定的所述标签名称及所述一级标注规则、设定的所述关系名称及所述一级关系标注规则,构建所述标签知识库。
7.可选地,在上述实施例的基础上,所述基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本包括:导入所述待标注医疗文本,基于正则表达式为所述待标注医疗文本分词得到分词文本;将所述分词文本与所述标签知识库的所述一级标注规则和/或所述一级关系标注规则进行匹配,生成带有第一标签标注和/或第一关系标注的预标注文本。
8.可选地,在上述实施例的基础上,所述调整操作包括:对所述预标注文本进行第二标签标注和/或第二关系标注的新增操作;和/或,对第一标签标注和/或第一关系标注删除或更换操作,生成第二标签标注和/或第二关系标注;和/或,对所述第一标签标注的范围进行调整生成所述第二标签标注的操作;和/或,对所述第一关系标注的起点或终点进行调整生成所述第二关系标注的操作。
9.可选地,在上述实施例的基础上,对所述预标注文本进行第二标签标注的新增操作,包括:通过确定用户通过鼠标选中的文本内容和范围,获取到选中文字在当前文本中的起点位置和终点位置;提供第一标签选项对所述选中文字进行第二标签标注,并保存到第一标签所对应的数组中;按数组的起点位置和终点位置对整个文档进行分割和渲染。
10.可选地,在上述实施例的基础上,对所述预标注文本进行第二关系标注的新增操作,包括:选中一个第一标签标注或者第二标签标注,通过鼠标引导一条关系线,所述关系线的起点为选中的第一标签标注或者第二标签标注的中点,所述关系线终点为鼠标的当前位置;在鼠标经过其它第一标签标注或者其它第二标签标注时,判断两个标签之间是否存在关系,如果存在关系,则高亮显示终点标签,并在两个标签之间连接产生关系线,所述关系线上显示标注关系名称。
11.可选地,在上述实施例的基础上,所述方法还包括:进一步判断两个标签是否跨行;若跨行,则在关系线的起点和终点之间添加用于标识对应关联关系的第一标记点和第二标记点,第一标记点在起点行的关系线的最后边,第二标记点在终点行的关系线的最左边;获取起点行的标签到终点行的标签的中间的关系线数量以及高度信息,跨行绘制两个标签之间关系线。
12.可选地,在上述实施例的基础上,所述方法还包括:根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库。
13.可选地,在上述实施例的基础上,所述根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库,包括:根据所述第二标签标注和/或第二关系标注,生成二级标注规则和/或二级关系标注规则;统计所述第二标签标注和/或第二关系标注的纳入次数和/或纳入比例;当达到预设次数和/或预设比例时,将所述二级标注规则和/或二级关系标注规则升级为一级标注规则和/或一级关系标注规则,并利用所述标签知识库中的一级标注规则和/或一级关系标注规则对所述待标注医疗文本进行自动预标注,得到预标注文本;或者,为所述二级标注规则和/或二级关系标注规则设置可信度,当达到预设次数和/或比例时,调整所述二级标注规则和/或二级关系标注规则的可信度,当可信度达到预设值时,将所述标签知识库中的二级标注规则和/或二级关系标注规则与一级标注规则和/或一级关系标注规则一同对所述待标注医疗文本进行自动预标注,得到预标注文本。
14.根据本技术的另一方面,本技术还提供了一种基于标签知识库的医疗文本标注装置,包括:获取模块,用于获取待标注医疗文本;自动预标注模块,用于基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;确认模块,用于根据对所述预标注文本的确认操作,得到标注文本;主动标注模块,用于获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;处理模块,用于根据所述预标注文本的第一标签标注和/或第一关系标注,以
及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
15.本技术的上述技术方案,通过预先建立的标签知识库,对获取的待标注医疗文本进行自动预标注,得到带有第一标签标注和/或第一关系标注的预标注文本;并支持对所述预标注文本进行人工审核调整操作以生成第二标签标注和/或第二关系标注;最后根据所述预标注文本的第一标签标注和/或第一关系标注以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注得到标注文本。本技术基于标签知识库,采用预标注加人工审核操作的方案,完成对医疗文本的快速高质量标注工作,省去了人工对待标注文本每字每句的一一标注的工作,极大地提高科研人员的阅读速度和效率,避免遗漏。
附图说明
16.图1为本技术实施例提供的基于标签知识库的医疗文本标注方法的流程示意图;图2为本技术实施例提供的构建标签知识库的方法的流程示意图;图3为本技术实施例提供的对所述预标注文本进行第二标签标注的新增操作的方法的流程示意图;图4为本技术实施例提供的基于标签知识库的医疗文本标注装置的示意性结构图;图5为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
17.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
18.请参阅图1,本技术的一实施例提供了一种基于标签知识库的医疗文本标注方法,所述方法包括:步骤s101:获取待标注医疗文本;医疗文本是指记录患者就医过程中产生的记录患者就诊过程和用药、手术记录的文书,比如病历文书、处方、检查报告单文书等,其中重点部分为病历文书,包括门(急)诊病历、住院病历、临床各科病历等。
19.步骤s102:基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;步骤s103:根据对所述预标注文本的确认操作,得到标注文本;或者,步骤s104:获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;步骤s105:根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
20.作为一种可选地实施例,所述方法还包括:预构建标签知识库;其构建标签知识库的方法包括:基于用户设定的标签名称值生成标签名称,并基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则;基于用户设定的关系名称值生成关系名称,并
基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则;基于设定的所述标签名称及所述一级标注规则、设定的所述关系名称及所述一级关系标注规则,构建所述标签知识库。
21.请参阅图2,作为上述实施例的具体实施方式,构建标签知识库的方法包括:基于用户设定的标签名称及属性生成标签知识库;步骤s201:基于用户设定的标签名称值生成标签名称,基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则,例如用户设定的“时间节点”这一标签名称,标注样例为“3-4天”、“6小时”,则可以提取的标注规则为“*-*时间单位”、“*时间单位”,其中“*”代表数值占位符,可以代表整型、浮点型的具体数值,时间单位可以为“年、月、日、时、刻、分、秒”等时间单位集合,还可以包括“现、今、明、昨、晨、午、晚”等时间单位集合;又如用户设定的“部位”这一标签名称,标注样例为“头”、“左枕部”、“伤处”,则可以提取的一级标注规则为“身体部位”、“方位#部位用词”、“#部位用词”,其中“身体部位”包括,头、眼、耳、口、鼻、手、指、大臂、小臂等等部位用词,可以通过获取预设的身体部位集合,或者查询医疗词典获取全部身体部位的字、词集合,“#”代表字符占位符,可以包括身体部位或其他字符内容,“方位”可以为“上、下、左、右、前、后”等预设方位用词集合,“部位用词”可以为“部、处、点、端”等预设部位用词集合。标签标注设置为用户直接通过自行设置标注规则表达式的方式生成该标签所对应的一级标注规则,一级标注规则还可以包括标签属性,标签属性还可以包括设置标签颜色、标签标注快捷键、标签大小、显示位置等。
22.步骤s202:基于用户设定的关系名称值生成关系名称,基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则,一级关系标注规则包括起点标签、终点标签、连线规则等,连线规则如最近连线规则、向左连线规则、向右连线规则等。一级关系标注规则还可以包括关系属性,关系属性还可以包括设置关系颜色、关系标注快捷键、关系大小、关系线粗细、显示位置等。
23.步骤s203:基于上述标签设定及其一级标注规则、关系设定及一级关系标注规则,生成标签知识库。
24.作为一种可选地实施例,所述基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本包括:导入所述待标注医疗文本,基于正则表达式为所述待标注医疗文本分词得到分词文本;将所述分词文本与所述标签知识库的所述一级标注规则和/或所述一级关系标注规则进行匹配,生成带有第一标签标注和/或第一关系标注的预标注文本。此处,通过导入待标注文本并基于正则表达式为待标注文本分词,并与标签知识库的一级标注规则及一级关系标注规则进行匹配,生成带有对应标签及关系(第一标签标注和/或第一关系标注)的预标注文本;省去了人工对待标注文本每字每句的一一标注,节约了人力,避免了遗漏。
25.作为一种可选地实施例,所述调整操作包括:对所述预标注文本进行第二标签标注和/或第二关系标注的新增操作;和/或,对第一标签标注和/或第一关系标注删除或更换操作,生成第二标签标注和/或第二关系标注;和/或,对所述第一标签标注的范围进行调整生成所述第二标签标注的操作;和/或,对所述第一关系标注的起点或终点进行调整生成所述第二关系标注的操作。
26.作为上述实施例的具体实施方式,所述调整操作是由人工对预标注文本进行审核、修改,包括修改标签标注范围(如预标注标签标注范围为“3-4天”,修改为“入院前3-4天”),新增、删除、更换标签,修改关系标注指向,新增、删除、更换关系标注等操作,生成最终的标注文本。具体可以包括当删除标签时,同时删除该删除标签所对应的关系标注,当新增标签时,同时根据标签知识库生成对应的关系标注,当变更标签时,同时删除原有的关系标注,新增更换后标签所对应的关系标注。相比于人工从0开始一一标注的方式,大大节约了人力,提高了标注效率,避免了遗漏,提高了标注质量,同时自动预标注加人工审核修改的方式进行医疗文本标注,充分满足了针对医疗文本专业性强,数据价值密度高,有一定灵活性等技术特点,提高数据标注质量的要求。
27.需要说明的是,预标注为第一标注(第一标签标注和/或第一关系标注),除此之外对第一标注(第一标签标注和/或第一关系标注)的任何修改都属于是第二标注(第二标签标注和/或第二关系标注)的范围,删除操作生成第二标注也可以认为是将预标注的第一标注变更为空的第二标注。
28.具体地,对第一标签标注和/或第一关系标注删除或更换操作,生成第二标签标注和/或第二关系标注包括:选中第一标签标注和/或第一关系标注,点击删除即可删除第一标签标注和/或第一关系标注,即将原本标注为第一标签标注和/或第一关系标注的文本修改为无需标注的第二标签标注和/或第二关系标注;或者点击更换弹出第一标签选项对以供用户将第一标签标注进行更换,同时还可以对应将第一关系标注进行更换,此时虽然进行更换后的标签也是标签知识库中第一标签选项中的标签,更换后的关系标注也是标签知识库中第一关系标注选项中的标签,但由于其所对应的标注文本与第一标签标注和第一关系标注所对应的一级标注规则和一级关系标注规则不同,因此,认为上述更换后的第一标签标注为新生成的第二标签标注,更换后的第一关系标注为新生成的第二关系标注。
29.具体地,对所述第一标签标注的范围进行调整生成所述第二标签标注的操作包括:选择第一标签标注的选中的文本内容和范围的起点位置和/或终点位置,通过鼠标引导起点位置和/或终点位置减少或延长起点至中点的线段距离来调整选中的文本内容和范围,使用第一标签标注重新对调整选中的文本内容和范围进行标注得到第二标签标注,对于预标注文本而言,只要有对第一标签标注进行调整,即调整后的内容即可形成第二标签标注。
30.具体地,对所述第一关系标注的起点或终点进行调整生成所述第二关系标注的操作包括:选择第一关系标注的选中的文本内容和范围的起点位置和/或终点位置,通过鼠标引导起点位置和/或终点位置减少或延长起点至中点的线段距离来调整选中的文本内容和范围,使用第一关系标注重新对调整选中的文本内容和范围进行标注得到第二关系标注,对于预标注文本而言,只要有对第一关系标注进行调整,即调整后的内容即可形成第二关系标注。
31.请参阅图3,作为一种可选地实施例,对所述预标注文本进行第二标签标注的新增操作,包括:步骤s301:通过确定用户通过鼠标选中的文本内容和范围,获取到选中文字在当前文本中的起点位置和终点位置;步骤s302:提供第一标签选项对所述选中文字进行第二标签标注,并保存到第一
标签所对应的数组中;自动预标注的是第一标签标注,人工调整操作的都属于第二标签标注,虽然用的标签(即第一标签选项对)都是一样的但是标注的规则是不一样的,第二标签标注的规则更为灵活,贴近实际。
32.步骤s303:按数组的起点位置和终点位置对整个文档进行分割和渲染。
33.作为上述实施例的具体实施方式,对所述预标注文本进行第二标签标注的新增操作也即标签标注的新增方法:可以基于javascript原生方法window.getselection()获取鼠标选中的内容和范围,能够获取到选中文字在当前文本中起点和终点位置,弹出标签下拉选择框进行选择,或者通过快捷键,或者通过选择标注页面功能区的展示标签完成标注,保存到标签所对应的数组中。渲染时,对整个文档按数组中起终点位置分割;如果有标签,通过标记设置标签名称、标签的颜色,显示标签内容和标注的文字内容,否则显示正常文字。
34.作为一种可选地实施例,对所述预标注文本进行第二关系标注的新增操作,包括:选中一个第一标签标注或者第二标签标注,通过鼠标引导一条关系线,所述关系线的起点为选中的第一标签标注或者第二标签标注的中点,所述关系线终点为鼠标的当前位置;在鼠标经过其它第一标签标注或者其它第二标签标注时,判断两个标签之间是否存在关系,如果存在关系,则高亮显示终点标签,并在两个标签之间连接产生关系线,所述关系线上显示标注关系名称。进一步,所述方法还包括:进一步判断两个标签是否跨行;若跨行,则在关系线的起点和终点之间添加用于标识对应关联关系的第一标记点和第二标记点,第一标记点在起点行的关系线的最后边,第二标记点在终点行的关系线的最左边;获取起点行的标签到终点行的标签的中间的关系线数量以及高度信息,跨行绘制两个标签之间关系线,第一标记点和第二标记点可以是符号、图形、文字、数字中的任意一种或几种组合,亦或是其他方式,主要起到标识作用即可,在此不做具体限定。其中,同一关联关系的第一标记点和第二标记点可以设置为同一标记,不同关系线的第一标记点和第二标记点可以设置为不同标记,不同行关系线的第一标记点和第二标记点可以设置不同标记区别行号等,主要目的是可以以更加方便快捷的确定关联关系,提高标注效率。
35.作为上述实施例的具体实施方式,对所述预标注文本进行第二关系标注的新增操作即关系标注的新增方法,具体为:选中一个标签,通过svg画一条直线,起点为选中标签的中点,终点即为鼠标的当前位置,鼠标移动,重新绘制当前连线。鼠标经过其它标签,判断两个标签之间是否存在关系,如果有关系,则高亮显示终点标签,用户松开鼠标,清除当前连线。并绘制一条起点标签到终点带箭头的关系线,在关系线中间显示关系名称。绘制关系分两步:第一步,判断两个标签是否在同一行,跨行需要在起点、终点之间添加两个标记,可以是符号、图形、文字、数字中的任意一种或几种组合,亦或是其他方式,主要起到标识作用即可,在此不做具体限定。
36.例如:同一关联关系的第一标记点和第二标记点可以设置为同一标记,如同一形状
“△”
或者同一符号“#”或同一文字“关系一”或同一数字“1”亦或是符号、图形、文字、数字的一种或者几种组合,如
“△
#组1”、
“△
#2”或者使用两个标签在文本中的关系序列的顺序标记出是第几对关系,如“组6”,表示文本中的第6组关系。另外,不同关系线的第一标记点和第二标记点可以设置为不同标记,如第一行关系线的第一标记点和第二标记点可以设置为“*”,第二行关系线的第一标记点和第二标记点可以设置为“#”,第三行关系线的第一标
记点和第二标记点可以设置为“&”等等其他符号,以更加方便快捷的确定关联关系,提高标注效率。另外,同一关联关系的第一标记点和第二标记点可以设置为不同标记,如第一标记点可以设置为“*”或
“△”
或“1”等,第二标记点可以设置为“*1”或
“△
1”或“11”等,在此不再赘述,以上任何标记形式的变形均视为本技术的保护范围。
37.具体地,第一个点(第一标记点)在起点行最后边,第二个点(第二标记点)在终点行最左边;具体地,第一个点(第一标记点)也可以在起点行最左边,第二个点(第二标记点)在终点行最右边;进一步地,第一个点(第一标记点)在起点行上被关系范围选中的第一个文字的左侧,第二个点(第二标记点)在终点行上被关系范围选中的第后一个文字的右侧。
38.进一步,通过算法计算高度,大概为计算起点标签到终点标签的中间的关系线数量,再乘固定高度,计算出每一条线的高度,重新绘制。
39.作为一种可选地实施例,所述方法还包括:根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库。
40.具体地,标签知识库在保留一级标注规则和/或一级关系标注规则的基础上,可以保留调整操作生成的第二标签标注和/或第二关系标注,还可以在此基础上保留生成的二级标注规则和/或二级关系标注规则,并进行统计,只是在使用标签知识库对待标注医疗文本进行预标注时暂时不使用二级标注规则和/或二级关系标注规则进行预标注,直至二级升为一级,或者可以为二级设置置信度,当置信度达到一定值时,可以用二级规则进行预标注,但无论一级规则还是二级规则预标注,同样生成的都是第一标注。
41.作为一种可选地实施例,所述根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库,包括:根据所述第二标签标注和/或第二关系标注,生成二级标注规则和/或二级关系标注规则;统计所述第二标签标注和/或第二关系标注的纳入次数和/或纳入比例;当达到预设次数和/或预设比例时,将所述二级标注规则和/或二级关系标注规则升级为一级标注规则和/或一级关系标注规则,并利用所述标签知识库中的一级标注规则和/或一级关系标注规则对所述待标注医疗文本进行自动预标注,得到预标注文本;或者,为所述二级标注规则和/或二级关系标注规则设置可信度,当达到预设次数和/或比例时,调整所述二级标注规则和/或二级关系标注规则的可信度,当可信度达到预设值时,将所述标签知识库中的二级标注规则和/或二级关系标注规则与一级标注规则和/或一级关系标注规则一同对所述待标注医疗文本进行自动预标注,得到预标注文本。
42.作为上述实施例的具体实施方式,根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库(也即基于对预标注文本中标注内容的操作更新标签知识库)包括:获取对预标注文本中标注内容的操作,基于该操作与标签知识库中的一级标注规则和/或一级关系标注规则的不同部分,生成二级标注规则和/或二级关系标注规则,一级规则为适用更广泛的上位规则,二级规则为每一次调整操作的规则本身,个性化更高,如“3-4天”为时间节点的一级规则,“入院前3-4天”、“发病前3-4天”、“发病后3-4天”为不同的时间节点二级规则。因此,将每次操作的具体的不同规则保存为标签知识库的二级规则,有利于不断提升标注准确度,满足个性化标注需求,提升标注效率。还可以统计各二级规则纳入次数,当达到一定次数,或者二级规则出现占比高于预设值时,将该二级规则升级为一级规则,从而达到更为快捷、准确的标注效果。
43.作为一种可选地实施例,本技术还提供了一种多人在线协同标注的方法,具体包括:基于html5websocket全双工通讯协议,用户进入标注平台页面,通过javascript向服务器发出建立websocket连接请求,建立连接后,客户端和服务端可以通过tcp连接直接交换数据。用户进行了文本标注或绘制了关系线,通过send()方法向服务发送数据,服务端处理请求并响应,其它用户通过onmessage事件接收服务器返回的数据(包含操作用户,时间,内容,位置等信息),在指定位置弹出提示某用户进行的操作,并渲染出操作的内容,完成即使通讯和多人协同。
44.本技术的上述技术方案通过建立标签知识库,采用预标注加人工审核操作的方案,完成对医疗文本的快速高质量标注工作,极大的提高科研人员的阅读速度和效率,避免遗漏。
45.如图4所示,根据本技术的另一方面,本技术的实施例还提供了一种基于标签知识库的医疗文本标注装置,包括:获取模块,用于获取待标注医疗文本;自动预标注模块,用于基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;确认模块,用于根据对所述预标注文本的确认操作,得到标注文本;主动标注模块,用于获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;处理模块,用于根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
46.关于基于标签知识库的医疗文本标注装置的具体限定可参见上文中对于基于标签知识库的医疗文本标注方法的限定,在此不再赘述。上述基于标签知识库的医疗文本标注装置中的各个模块/单元可全部或部分通过软件、硬件及其组合来实现。上述各模块/单元可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
47.在一个实施例中,本技术提供了一种计算机设备,所述计算机设备包括:通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;所述存储器存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行基于标签知识库的医疗文本标注方法的步骤。
48.本技术实施例提供的计算机设备,可以是服务器,也可以是客户端或者其他计算机网络通信设备;如图5所示,为本技术实施例提供的计算机设备的结构示意图。
49.处理器501、存储器502、总线505、接口504,处理器501与存储器502、接口504相连,总线505分别连接处理器501、存储器502以及接口504,接口504用于接收或者发送数据,处理器501是单核或多核中央处理单元,或者为特定集成电路,或者为被配置成实施本发明实施例的一个或多个集成电路。存储器502可以为随机存取存储器(randomaccess memory,ram) ,也可以为非易失性存储器(non-volatile memory) ,例如至少一个硬盘存储器。存储器502用于存储计算机执行指令。具体的,计算机执行指令中可以包括程序503。
50.本实施例中,该处理器501调用程序503时,可以使图5中的管理服务器执行基于标
签知识库的医疗文本标注方法的操作,具体此处不再赘述。
51.应理解,本技术上述实施例提供的处理器,可以是中央处理单元(centralprocessing unit,cpu) ,还可以是其他通用处理器、数字信号处理器(digital signalprocessor,dsp)、专用集成电路 (application-specific integrated circuit ,asic) 、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
52.还应理解,本技术中以上实施例中的计算机设备中的处理器的数量可以是一个,也可以是多个,可以根据实际应用场景调整,此处仅仅是示例性说明,并不作限定。本技术实施例中的存储器的数量可以是一个,也可以是多个,可以根据实际应用场景调整,此处仅仅是示例性说明,并不作限定。
53.还需要说明的是,当计算机设备包括处理器(或处理单元)与存储器时,本技术中的处理器可以是与存储器集成在一起的,也可以是处理器与存储器通过接口连接,可以根据实际应用场景调整,并不作限定。
54.本技术提供了一种芯片系统,该芯片系统包括处理器,用于支持计算机设备(客户端或服务器)实现上述方法中所涉及的控制器的功能,例如处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,芯片系统还包括存储器,存储器,用于保存必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
55.在另一种可能的设计中,当该芯片系统为用户设备或接入网等内的芯片时,芯片包括:处理单元和通信单元,处理单元例如可以是处理器,通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使该客户端或管理服务器等内的芯片执行常识问答方法的步骤。可选地,存储单元为芯片内的存储单元,如寄存器、缓存等,存储单元还可以是客户端或管理服务器等内的位于芯片外部的存储单元,如只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)等。
56.应理解,本技术实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被处理单元执行时,执行本技术的方法中限定的上述功能。
57.应理解,本技术以上实施例中的提及的控制器或处理器,可以是中央处理单元(central processing unit,cpu) ,还可以是其他通用处理器、数字信号处理器(digitalsignal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等中的一种或多种的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
58.还应理解,本技术中以上实施例中的计算机设备或芯片系统等中的处理器或控制器的数量可以是一个,也可以是多个,可以根据实际应用场景调整,此处仅仅是示例性说明,并不作限定。本技术实施例中的存储器的数量可以是一个,也可以是多个,可以根据实际应用场景调整,此处仅仅是示例性说明,并不作限定。
59.需要说明的是,本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
60.而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
61.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
62.附图中的流程图或框图示出了按照本技术各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
63.作为另一方面,本技术实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机可读指令,所述计算机可读指令可被处理器执行以实现前述本技术的多个实施例的方法和/或技术方案的步骤。该计算机可以为上述计算机设备(客户端或服务器或者其他计算机网络通信设备)。
64.在本技术一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器 (cpu)、输入/输出接口、网络接口和内存。
65.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (ram) 和/或非易失性内存等形式,如只读存储器 (rom) 或闪存(flash ram)。内存是计算机可读介质的示例。
66.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他内存技术、只读光盘(cd-rom)、数字多功能光盘 (dvd) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
67.此外,本技术实施例还提供了一种计算机程序,所述计算机程序存储于计算机设备,使得计算机设备执行所述控制代码执行的方法。
68.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
69.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。
70.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本技术实施例中所使用的单数形式的“一种”、“一个”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
71.此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
72.在本技术的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,a/b可以表示a或b;本技术中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。取决于语境,如在此所使用的词语“如果”或“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,
短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
73.以上,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
技术特征:
1.一种基于标签知识库的医疗文本标注方法,其特征在于,所述方法包括:获取待标注医疗文本;基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;其中,标签知识库包含一级标注规则和/或一级关系标注规则以及基于调整操作生成的第二标签标注和/或第二关系标注,以及二级标注规则和/或二级关系标注规则;根据对所述预标注文本的确认操作,得到标注文本;或者,获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本;根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库;根据所述第二标签标注和/或第二关系标注,生成二级标注规则和/或二级关系标注规则;统计所述第二标签标注和/或第二关系标注的纳入次数和/或纳入比例;当达到预设次数和/或预设比例时,将所述二级标注规则和/或二级关系标注规则升级为一级标注规则和/或一级关系标注规则,并利用所述标签知识库中的一级标注规则和/或一级关系标注规则对所述待标注医疗文本进行自动预标注,得到预标注文本;或者,为所述二级标注规则和/或二级关系标注规则设置可信度,当达到预设次数和/或比例时,调整所述二级标注规则和/或二级关系标注规则的可信度,当可信度达到预设值时,将所述标签知识库中的二级标注规则和/或二级关系标注规则与一级标注规则和/或一级关系标注规则一同对所述待标注医疗文本进行自动预标注,得到预标注文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:预构建标签知识库;构建方法包括:基于用户设定的标签名称值生成标签名称,并基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则;基于用户设定的关系名称值生成关系名称,并基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则;基于设定的所述标签名称及所述一级标注规则、设定的所述关系名称及所述一级关系标注规则,构建所述标签知识库。3.根据权利要求2所述的方法,其特征在于,所述基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本包括:导入所述待标注医疗文本,基于正则表达式为所述待标注医疗文本分词得到分词文本;将所述分词文本与所述标签知识库的所述一级标注规则和/或所述一级关系标注规则进行匹配,生成带有第一标签标注和/或第一关系标注的预标注文本。4.根据权利要求1所述的方法,其特征在于,所述调整操作包括:对所述预标注文本进行第二标签标注和/或第二关系标注的新增操作;和/或,对第一标签标注和/或第一关系标注删除或更换操作,生成第二标签标注和/或
第二关系标注;和/或,对所述第一标签标注的范围进行调整生成所述第二标签标注的操作;和/或,对所述第一关系标注的起点或终点进行调整生成所述第二关系标注的操作。5.根据权利要求4所述的方法,其特征在于,对所述预标注文本进行第二标签标注的新增操作,包括:通过确定用户通过鼠标选中的文本内容和范围,获取到选中文字在当前文本中的起点位置和终点位置;提供第一标签选项对所述选中文字进行第二标签标注,并保存到第一标签所对应的数组中;按数组的起点位置和终点位置对整个文档进行分割和渲染。6.根据权利要求4所述的方法,其特征在于,对所述预标注文本进行第二关系标注的新增操作,包括:选中一个第一标签标注或者第二标签标注,通过鼠标引导一条关系线,所述关系线的起点为选中的第一标签标注或者第二标签标注的中点,所述关系线终点为鼠标的当前位置;在鼠标经过其它第一标签标注或者其它第二标签标注时,判断两个标签之间是否存在关系,如果存在关系,则高亮显示终点标签,并在两个标签之间连接产生关系线,所述关系线上显示标注关系名称。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:进一步判断两个标签是否跨行;若跨行,则在关系线的起点和终点之间添加用于标识对应关联关系的第一标记点和第二标记点,第一标记点在起点行的关系线的最后边,第二标记点在终点行的关系线的最左边;获取起点行的标签到终点行的标签的中间的关系线数量以及高度信息,跨行绘制两个标签之间关系线。8.一种基于标签知识库的医疗文本标注装置,其特征在于,包括:获取模块,用于获取待标注医疗文本;自动预标注模块,用于基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;确认模块,用于根据对所述预标注文本的确认操作,得到标注文本;主动标注模块,用于获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;处理模块,用于根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
技术总结
本申请提供了一种基于标签知识库的医疗文本标注方法及装置,通过预先建立的标签知识库,对获取的待标注医疗文本进行自动预标注,得到带有第一标签标注和/或第一关系标预标注文本;并支持对所述预标注文本进行人工审核调整操作以生成第二标签标注和/或第二关系标注;最后根据所述预标注文本的第一标签标注和/或第一关系标注以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注得到标注文本;本申请基于标签知识库,采用预标注加人工审核操作的方案,完成对医疗文本的快速高质量标注工作,省去了人工对待标注文本每字每句的一一标注的工作,极大的提高科研人员的阅读速度和效率,避免遗漏。避免遗漏。避免遗漏。
技术研发人员:黄主斌 王春旭 贺晓培
受保护的技术使用者:上海柯林布瑞信息技术有限公司
技术研发日:2023.09.04
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/