滚动字幕检测方法、装置、电子设备及存储介质与流程

未命名 10-18 阅读：91 评论：0

1.本技术涉及视频处理技术领域，特别是涉及一种滚动字幕检测方法、装置、电子设备及存储介质。

背景技术：

2.在影视剧片尾播放时或者一些视频中往往存在着文本滚动字幕，部分内容在对影片进行台词分析的时候会严重影响其性能。
3.现有技术中，一般通过基于光学字符识别(optical character recognition，ocr)位置以及内容对滚动字幕进行检测，然而这种检测方式在面对复杂背景或者文本内容重合的问题时，会造成滚动字幕的检测效果不佳，即现有技术需要对每一帧图像进行文本识别，从而导致检测效率过低，需要消耗大量的运算资源。

技术实现要素：

4.本技术实施例的目的在于提供一种滚动字幕检测方法、装置、电子设备及存储介质，以实现提高滚动字幕检测效率的同时降低运算资源的消耗。具体技术方案如下：
5.在本技术实施的第一方面，首先提供了一种滚动字幕检测方法，所述方法包括：
6.获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
7.对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
8.根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；
9.根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。
10.可选的，所述位置信息为所述文本框在预设坐标系中的坐标数据，所述根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹包括：
11.将所述秒级视频帧中文本对应的文本框的坐标数据、文本特征和所述全部视频帧输入至预设追踪网络，得到所述文本对应的文本运行轨迹；
12.其中，所述预设追踪网络用于在所述全部视频帧中查找目标视频帧，并根据所述目标视频帧和秒级视频帧中文本框的坐标数据生成所述文本对应的文本运行轨迹，所述目标视频帧是与所述秒级视频帧中文本框中的所述文本特征之间的相似度大于预设值的文本框对的视频帧。
13.可选的，所述根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕包括：
14.根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。
15.可选的，所述根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧包括：
16.在检测到所述文本运行轨迹对应的连续视频帧的数量大于第一预设值的情况下，确定所述文本框中对应的文本为滚动字幕文本；
17.根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息以及角度信息，其中，所述角度信息是根据所述滚动字幕文本的运动方向和水平方向之间的夹角生成的，所述运动方向和所述水平方向是基于预设坐标系确定的；
18.在检测到当前视频帧中所述滚动字幕文本对应的行数大于预设行数且所述距离信息以及角度信息之间的方差处于预设范围的情况下，确定所述当前视频帧为滚动字幕对应的滚动字幕帧。
19.可选的，所述根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息包括：
20.根据所述滚动字幕文本对应的文本框在所述起始帧中的位置和所述文本框在所述结束帧中的位置之间的相对距离生成所述滚动字幕文本的距离信息。
21.可选的，在所述根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧的步骤之后，所述方法包括：
22.根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧；
23.根据所述初始滚动字幕帧确定滚动字幕起始点位，其中，所述滚动字幕起始点位为所述待检测视频中的滚动字幕初次显示对应的时间点。
24.可选的，所述根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧包括：
25.将所述滚动字幕帧根据时间点位进行排序，得到排序结果；
26.将所述排序结果中最小时间点位对应的所述滚动字幕帧作为初始滚动字幕帧。
27.可选的，所述根据所述初始滚动字幕帧确定滚动字幕起始点位包括：
28.根据预设行数对初始滚动字幕帧进行回溯处理，得到滚动字幕起始点位。
29.在本发明实施的又一方面，还提供了一种滚动字幕检测装置，所述装置包括：
30.获取模块，用于获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
31.检测模块，用于对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
32.追踪模块，用于根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；
33.确定模块，用于根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。
34.可选的，所述追踪模块包括：
35.追踪子模块，用于将所述秒级视频帧中文本对应的文本框的坐标数据、文本特征和所述全部视频帧输入至预设追踪网络，得到所述文本对应的文本运行轨迹；
36.其中，所述预设追踪网络用于在所述全部视频帧中查找目标视频帧，并根据所述目标视频帧和秒级视频帧中文本框的坐标数据生成所述文本对应的文本运行轨迹，所述目
标视频帧是与所述秒级视频帧中文本框中的所述文本特征之间的相似度大于预设值的文本框对的视频帧。
37.可选的，所述确定模块包括：
38.确定子模块，用于根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。
39.可选的，所述确定子模块包括：
40.第一确定单元，用于在检测到所述文本运行轨迹对应的连续视频帧的数量大于第一预设值的情况下，确定所述文本框中对应的文本为滚动字幕文本；
41.生成单元，用于根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息以及角度信息，其中，所述角度信息是根据所述滚动字幕文本的运动方向和水平方向之间的夹角生成的，所述运动方向和所述水平方向是基于预设坐标系确定的；
42.第二确定单元，用于在检测到当前视频帧中所述滚动字幕文本对应的行数大于预设行数且所述距离信息以及角度信息之间的方差处于预设范围的情况下，确定所述当前视频帧为滚动字幕对应的滚动字幕帧。
43.可选的，所述生成单元包括：
44.生成子单元，用于根据所述滚动字幕文本对应的文本框在所述起始帧中的位置和所述文本框在所述结束帧中的位置之间的相对距离生成所述滚动字幕文本的距离信息。
45.可选的，所述装置还包括：
46.初始滚动字幕帧确定模块，用于根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧；
47.点位确定模块，用于根据所述初始滚动字幕帧确定滚动字幕起始点位，其中，所述滚动字幕起始点位为所述待检测视频中的滚动字幕初次显示对应的时间点。
48.可选的，所述初始滚动字幕帧确定模块包括：
49.排序子模块，用于将所述滚动字幕帧根据时间点位进行排序，得到排序结果；
50.初始滚动字幕帧确定子模块，用于将所述排序结果中最小时间点位对应的所述滚动字幕帧作为初始滚动字幕帧。
51.可选的，所述点位确定模块包括：
52.回溯子模块，用于根据预设行数对初始滚动字幕帧进行回溯处理，得到滚动字幕起始点位。
53.在本技术实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
54.存储器，用于存放计算机程序；
55.处理器，用于执行存储器上所存放的程序时，实现上述任一所述的滚动字幕检测方法。
56.在本技术实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的滚动字幕检测方法。
57.在本技术实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计
算机上运行时，使得计算机执行上述任一所述的滚动字幕检测方法。
58.本技术实施例提供的一种滚动字幕检测方法，获取待检测视频中的秒级视频帧以及全部视频帧，其中，秒级视频帧是在待检测视频中每秒对应的多个视频帧中任意一个视频帧；对秒级视频帧进行文本检测处理，确定文本对应的文本框的位置信息，以及，文本框中的文本特征；根据秒级视频帧中文本对应的文本框的位置信息，以及，文本框中的文本特征在全部视频帧中对文本框进行追踪，生成文本框中文本对应的文本运行轨迹；根据文本运行轨迹识别出待检测视频中的滚动字幕；本技术实施例中，通过获取待检测视频中每秒对应的多个视频帧中的任意一个视频帧，并将每秒的抽取的视频帧作为秒级视频帧，进而对秒级视频帧进行文本检测处理，可以减少文本检测的处理量，进一步地，基于文本检测后得到的秒级视频帧中的文本对应的文本框的位置信息对文本框进行追踪，可以得到同一个文本对应的文本框在不同视频帧中的位置信息，最终可以得到一个文本运行轨迹，通过文本运行轨迹可以识别出待检测视频中的滚动字幕，即本技术通过对少量秒级视频帧中的文本进行检测，得到文本框，相比于现有技术中对每帧图像进行检测，可以实现减少对运算资源的消耗；而且，文本检测后生成的文本对应的文本框的位置信息通过在全部视频帧中进行文本追踪，可以生成文本运行轨迹，根据文本运行轨迹可以确定待检测视频中的滚动字幕，在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。
附图说明
59.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
60.图1为本技术实施例提供的一种滚动字幕检测方法的步骤流程图；
61.图2为本技术实施例提供的另一种滚动字幕检测方法的步骤流程图；
62.图3为图2中本发明实施例提供的另一种滚动字幕检测方法中步骤204的步骤流程图；
63.图4为本技术实施例提供的另一种滚动字幕检测方法的步骤流程图；
64.图5为本技术实施例提供的一种滚动字幕检测装置的结构框图；
65.图6为本技术实施例提供的一种电子设备的结构框图。
具体实施方式
66.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述，虽然附图中显示了本技术的示例性实施例，然而应当理解，可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本技术，并且能够将本技术的范围完整的传达给本领域的技术人员。
67.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
68.在本技术的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
69.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的滚动字幕检测方法、装置、电子设备、系统及存储介质进行详细地说明。
70.参见图1，是本发明实施例提供的一种滚动字幕检测方法步骤流程图，该方法可以包括：
71.步骤101，获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧。
72.需要说明的是，在本技术实施例中，待检测视频可以是一段包括多种文本字幕的视频，例如，影视剧片尾曲，动漫片尾，综艺片尾等，因此，本技术中待检测视频可以是包括纯片尾部分，或者完整视频源，并对完整视频源的后半部分进行处理。
73.在一些视频场景下，例如，本技术可以应用于影视剧片尾曲或者综艺片尾的滚动文本检测，因此，可以通过使用ffmpeg工具对待检测的视频源的后20％进行抽帧处理，另外，在动漫场景下，也可以选取待检测的视频源的后40％的视频片段进行抽帧处理，从而获取待检测视频的秒级视频帧图像。
74.具体的，对于一个待检测的视频源，对其进行抽帧处理，即抽取秒级视频帧，其中，秒级视频帧是指对于待检测视频中1秒中的多帧随机抽取一帧，帧是标准的中国视频格式画面，每1秒的画面可以由25帧的静帧构成，或者每秒29.97帧的ntsc制式视频。
75.步骤102，对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征。
76.需要说明的是，在步骤101之后，获取了待检测视频中的秒级视频帧以及全部视频帧之后，需要对秒级视频帧进行文本检测处理，确定秒级视频帧中的文本的位置信息。
77.具体的，文本检测处理是通过将秒级视频帧画面中的每一行的文本进行检测，并用文本框框出来，因此，可以得到每行文本对文本框的位置信息，以及，文本框中的文本特征，其中，文本特征可以指文本对应的图形特征等，本技术中的文本检测处理可以类似于目标检测原理，基于候选框的文本检测(proposal-based)，即将每行文本检测后圈起来作为一个文本框，该文本框会对应一个位置信息，这个位置信息可以表示为文本框在预设坐标系中的坐标数据，其中，预设坐标系包括x轴和y轴，x轴是与待检测视频进度条平行的方向，y轴与x轴垂直。
78.因此，本技术中的文本检测可以是基于预设文本检测模型进行的，其中，预设文本检测模型可以是ctpn、textboxes、east、seglink等，本技术对此不做具体限定。
79.步骤103，根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹。
80.需要说明的是，在本技术实施例中，上述位置信息为文本框在预设坐标系中的坐标数据，步骤103可以包括：
81.将所述秒级视频帧中文本对应的文本框的坐标数据、文本特征和所述全部视频帧输入至预设追踪网络，得到所述文本对应的文本运行轨迹；
82.其中，所述预设追踪网络用于在所述全部视频帧中查找目标视频帧，并根据所述目标视频帧和秒级视频帧中文本框的坐标数据生成所述文本对应的文本运行轨迹，所述目标视频帧是与所述秒级视频帧中文本框中的所述文本特征之间的相似度大于预设值的文本框对的视频帧。
83.需要说明的是，在步骤102获取文本框位置信息以及文本特征后，可以基于文本框位置信息、文本特征对文本框进行追踪，前序获取的位置信息和文本特征是待检测视频中的秒级视频帧对应的信息，本技术中可以根据少量文本检测结果在全部视频帧中进行追踪。
84.本技术中可以通过预设追踪网络对每帧的文本进行追踪，具体的，预设追踪网络可以是simafc网络，在本技术中，可以将帧画面和文本框的坐标数据作为输入，其中，帧画面包括全部视频帧和文本检测后的文本特征。
85.需要说明的是，siamfc是将跟踪过程规划为一个相似性学习问题，即学习一个函数f(z，x)来比较样本图像z和搜索图像x的相似性，如果两个图像相似度越高，则得分越高，为了找到在下一帧图像中目标的位置，可以通过测试所有目标可能出现的位置，将相似度最大的位置作为目标的预测位置，因此，在本技术中，在全部视频帧中查找与秒级视频帧中文本框中的文本特征之间的相似度大于预设值的文本框对应的视频帧，该视频帧可以表示为目标视频帧，并根据目标视频帧和秒级视频帧中文本框的坐标数据生成文本对应的文本运行轨迹，即文本运行轨迹是同一个文本框在不同视频帧中的位置信息确定的。
86.步骤104，根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。
87.在本技术实施例中，在步骤103中获取文本运行轨迹之后，可以根据文本运行轨迹识别出待检测视频中的滚动字幕。
88.需要说明的是，字幕是指出现在电视、电影或舞台剧等作品中的文字内容，如片名、演职员列表、对白台词、说明词、作品背景解释等等，对于滚动字幕来讲，滚动字幕的视觉效果是出现由下到上的滚动效果，一般在影视作品中，会在片尾出现滚动字幕，并且，对于视频中有追踪结果的文本，主要分为如下三类：台词、剧情背景中的文字、滚动字幕，其中滚动字幕相对于其它两类文本的最大区别在于它的位置是在变化的，且不同画面中文本的运行轨迹是一致的，基于此，可以其文本的运行轨迹进行分析，最终确定滚动字幕，具体的，可以通过一些滚动字幕判定条件确定当前字幕是否为滚动字幕，或者待检测视频中是否存在滚动字幕帧。
89.综上所述，滚动字幕还可以理解为在检测到文本运行轨迹为任意一个文本框的位置信息处于非固定状态且在同一个画面中文本的运行轨迹相同的情况下将文本确定为滚动字幕。
90.本发明实施例提供的一种滚动字幕检测方法，获取待检测视频中的秒级视频帧以及全部视频帧，其中，秒级视频帧是在待检测视频中每秒对应的多个视频帧中任意一个视频帧；对秒级视频帧进行文本检测处理，确定文本对应的文本框的位置信息，以及，文本框中的文本特征；根据秒级视频帧中文本对应的文本框的位置信息，以及，文本框中的文本特征在全部视频帧中对文本框进行追踪，生成文本框中文本对应的文本运行轨迹；根据文本运行轨迹识别出待检测视频中的滚动字幕；本技术实施例中，通过获取待检测视频中每秒对应的多个视频帧中的任意一个视频帧，并将每秒的抽取的视频帧作为秒级视频帧，进而
对秒级视频帧进行文本检测处理，可以减少文本检测的处理量，进一步地，基于文本检测后得到的秒级视频帧中的文本对应的文本框的位置信息对文本框进行追踪，可以得到同一个文本对应的文本框在不同视频帧中的位置信息，最终可以得到一个文本运行轨迹，通过文本运行轨迹可以识别出待检测视频中的滚动字幕，即本技术通过对少量秒级视频帧中的文本进行检测，得到文本框，相比于现有技术中对每帧图像进行检测，可以实现减少对运算资源的消耗；而且，文本检测后生成的文本对应的文本框的位置信息通过在全部视频帧中进行文本追踪，可以生成文本运行轨迹，根据文本运行轨迹可以确定待检测视频中的滚动字幕，在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。
91.参见图2，是本发明实施例提供的一种滚动字幕检测方法步骤流程图，该方法可以包括：
92.步骤201，获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
93.步骤202，对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
94.步骤203，根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹。
95.需要说明的是，在本技术实施例中，上述步骤201-203参照前序论述，在此不再赘述。
96.步骤204，根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。
97.需要说明的是，可以根据预设滚动字幕判定条件在待检测视频中识别滚动字幕，也可以根据预设滚动字幕判定条件在全部视频帧中确定滚动字幕的文本以及滚动字幕对应的滚动字幕帧。
98.进一步地，如图3所示，图3为图2中本发明实施例提供的另一种滚动字幕检测方法中步骤204的步骤流程图，步骤204可以包括以下步骤：
99.步骤2041，在检测到所述文本运行轨迹对应的连续视频帧的数量大于第一预设值的情况下，确定所述文本框中对应的文本为滚动字幕文本；
100.需要说明的是，文本运行轨迹对应的连续视频帧是一帧画面上的其中一行文本框在前若干帧和后若干帧画面上均存在，且运动方向一致，例如，该行文本框均朝y轴方向移动，并连续出现在75帧画面上，可以认定当前文本框中的文本为滚动字幕文本，其中，第一预设值可以根据实际需求确定，本技术对此不做具体限定。
101.其中，上述y轴是预设坐标系中的，x轴可以是与待检测视频进度条平行的方向，y轴与x轴垂直。
102.步骤2042，根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息以及角度信息，其中，所述角度信息是根据所述滚动字幕文本的运动方向和水平方向之间的夹角生成的，所述运动方向和所述水平方向是基于预设坐标系确定的；
103.在确定滚动字幕文本之后，可以根据滚动字幕文本对应的文本运行轨迹中的起始
帧和结束帧确定滚动字幕文本的距离信息和角度信息，需要说明的是，距离信息和角度信息是用于确定当前视频帧是否为滚动字幕对应的视频帧。
104.其中，角度信息是根据滚动字幕文本的运动方向和水平方向之间的夹角生成的，运动方向和水平方向是基于预设坐标系确定的，其中，预设坐标系前文论述过，在此不再赘述，当滚动字幕文本的运动方向为沿着y轴方向移动时，那么此时的夹角为90度。
105.进一步地，距离信息的生成过程包括：根据所述滚动字幕文本对应的文本框在所述起始帧中的位置和所述文本框在所述结束帧中的位置之间的相对距离生成所述滚动字幕文本的距离信息。
106.需要说明的是，距离信息是同一个文本框在起始帧画面对应的第一位置和在结束帧画面中对应的第二位置之间的相对距离，即文本框在不同位置时的两个中心点的之间的相对距离为距离信息。
107.步骤2043，在检测到当前视频帧中所述滚动字幕文本对应的行数大于预设行数且所述距离信息以及角度信息之间的方差处于预设范围的情况下，确定所述当前视频帧为滚动字幕对应的滚动字幕帧。
108.需要说明的是，在获取距离信息和角度信息之后，根据距离信息和角度信息之间的方差是否在预设范围内，并且，当前视频帧中的滚动字幕文本对应的行数是否大于预设行数，从而确定当前视频帧是否为滚动字幕对应的视频帧，即滚动字母帧。
109.其中，预设行数一般可以表示为3行，因为，对一段滚动字幕来讲，真正的起始帧中至少包括一行滚动字幕文本，因此，在此设置预设行数为3行，可以便于后续对确定初始滚动字母帧，并且对初始滚动字幕帧进行回溯处理得到滚动字幕起始点位。
110.另外，在本技术实施例中，通过设置预设行数还可以减少其他的运动的文本对滚动字幕检测的影响，例如，在影视剧正片中也会存在文字进行位置的偏移，因此，通过限制预设行数以及距离信息和角度信息可以精准的确定待检测视频中的滚动字幕，不受到其他偏移文字影响。
111.其中，关于点位的解释在后续进行阐述。
112.本技术通过对少量秒级视频帧中的文本进行检测，得到文本框，相比于现有技术中对每帧图像进行检测，可以实现减少对运算资源的消耗；而且，文本检测后生成的文本对应的文本框的位置信息通过在全部视频帧中进行文本追踪，可以生成文本运行轨迹，根据文本运行轨迹可以确定待检测视频中的滚动字幕，在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。
113.另外，通过预设判断条件对滚动字幕的确定，可以更加精准的确定滚动字幕，其中，预设判断条件的设置是根据对滚动字幕的分析从而设置的更加准确的判断条件。
114.参见图4，是本发明实施例提供的一种滚动字幕检测方法步骤流程图，该方法可以包括：
115.步骤301，获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
116.步骤302，对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
117.步骤303，根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本
框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；
118.步骤304，根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。
119.需要说明的是，在本技术实施例中，上述步骤301-304参照前序论述，在此不再赘述。
120.步骤305，根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧；
121.进一步地，步骤305包括：将所述滚动字幕帧根据时间点位进行排序，得到排序结果；将所述排序结果中最小时间点位对应的所述滚动字幕帧作为初始滚动字幕帧。
122.需要说明的是，在步骤304之后，由于设置预设行数为3行可以检测滚动字幕帧，但是可以通过确定初始滚动字幕帧，从而获取更为精准的定位，因此，将待检测视频中识别出的全部的滚动字幕帧按照时间点位进行排序。
123.其中，时间点位即为待检测视频中每一帧画面对应的时间点，因此，可以根据时间顺序排序后，得到待检测视频中时间最靠前的滚动字幕帧，将该滚动字幕帧作为初始滚动字幕帧。
124.步骤306，根据所述初始滚动字幕帧确定滚动字幕起始点位，其中，所述滚动字幕起始点位为所述待检测视频中的滚动字幕初次显示对应的时间点。
125.进一步地，步骤306包括：根据预设行数对初始滚动字幕帧进行回溯处理，得到滚动字幕起始点位。
126.在步骤305确定滚动字幕帧之后，由于预设滚动字幕判断条件中一般设置当前视频帧中出现的滚动字幕文本大于预设行数后才能确定当前视频帧为滚动字幕帧，因此，步骤305中的初始滚动字幕帧中是包括预设行数的滚动字幕文本，因此，为了找到第一行滚动字幕文本出现的滚动字幕帧以及滚动字幕真实的起始点位，需要将初始滚动字幕帧进行回溯处理，回溯处理即将初始滚动字幕帧往前退一定时间或帧数，具体的，可以根据实际需求确定回溯处理所需的时间或者帧数，本技术不做具体限定。
127.例如，第15s出现了三行滚动字幕文本(即初始滚动字幕帧)，那么回溯到第10s此时视频帧中出现了初始滚动字幕帧中的第一行滚动字幕文本，那么第10s则是待检测视频中的滚动字幕起始点位。
128.本技术通过对少量秒级视频帧中的文本进行检测，得到文本框，相比于现有技术中对每帧图像进行检测，可以实现减少对运算资源的消耗；而且，文本检测后生成的文本对应的文本框的位置信息通过在全部视频帧中进行文本追踪，可以生成文本运行轨迹，根据文本运行轨迹可以确定待检测视频中的滚动字幕，在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。
129.另外，由于前序为了减少其他有文本运行轨迹(例如，台词、剧情背景中的偏移文字)对滚动字幕的影响，设置了滚动字幕帧的判定方式，即需要当前帧上的文本行数大于预设行数，例如，当前视频帧有滚动字幕但是由于行数小于3从而被剔除，从而无法确定滚动字幕的真实起始点位，因此，通过回溯处理确定滚动字幕的真实的起始点位，即滚动字幕出现的第一帧视频画面以及时间，可以实现精准的滚动字幕起始点位的定位，在后续应用于
下游业务场景，例如，准确确定片尾，或者，在台词分析时滚动字幕会对台词造成严重干扰，可以精准的确定滚动字幕出现的时间点位以及位置信息。
130.参照图5，图5是本发明实施例提供的一种滚动字幕检测装置的结构框图，该装置可以包括：
131.获取模块501，用于获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
132.检测模块502，用于对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
133.追踪模块503，用于根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；
134.确定模块504，用于根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。
135.可选的，所述追踪模块包括：
136.追踪子模块，用于将所述秒级视频帧中文本对应的文本框的坐标数据、文本特征和所述全部视频帧输入至预设追踪网络，得到所述文本对应的文本运行轨迹；
137.其中，所述预设追踪网络用于在所述全部视频帧中查找目标视频帧，并根据所述目标视频帧和秒级视频帧中文本框的坐标数据生成所述文本对应的文本运行轨迹，所述目标视频帧是与所述秒级视频帧中文本框中的所述文本特征之间的相似度大于预设值的文本框对的视频帧。
138.可选的，所述确定模块包括：
139.确定子模块，用于根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。
140.可选的，所述确定子模块包括：
141.第一确定单元，用于在检测到所述文本运行轨迹对应的连续视频帧的数量大于第一预设值的情况下，确定所述文本框中对应的文本为滚动字幕文本；
142.生成单元，用于根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息以及角度信息，其中，所述角度信息是根据所述滚动字幕文本的运动方向和水平方向之间的夹角生成的，所述运动方向和所述水平方向是基于预设坐标系确定的；
143.第二确定单元，用于在检测到当前视频帧中所述滚动字幕文本对应的行数大于预设行数且所述距离信息以及角度信息之间的方差处于预设范围的情况下，确定所述当前视频帧为滚动字幕对应的滚动字幕帧。
144.可选的，所述生成单元包括：
145.生成子单元，用于根据所述滚动字幕文本对应的文本框在所述起始帧中的位置和所述文本框在所述结束帧中的位置之间的相对距离生成所述滚动字幕文本的距离信息。
146.可选的，所述装置还包括：
147.初始滚动字幕帧确定模块，用于根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧；
148.点位确定模块，用于根据所述初始滚动字幕帧确定滚动字幕起始点位，其中，所述
滚动字幕起始点位为所述待检测视频中的滚动字幕初次显示对应的时间点。
149.可选的，所述初始滚动字幕帧确定模块包括：
150.排序子模块，用于将所述滚动字幕帧根据时间点位进行排序，得到排序结果；
151.初始滚动字幕帧确定子模块，用于将所述排序结果中最小时间点位对应的所述滚动字幕帧作为初始滚动字幕帧。
152.可选的，所述点位确定模块包括：
153.回溯子模块，用于根据预设行数对初始滚动字幕帧进行回溯处理，得到滚动字幕起始点位。
154.本技术通过对少量秒级视频帧中的文本进行检测，得到文本框，相比于现有技术中对每帧图像进行检测，可以实现减少对运算资源的消耗；而且，文本检测后生成的文本对应的文本框的位置信息通过在全部视频帧中进行文本追踪，可以生成文本运行轨迹，根据文本运行轨迹可以确定待检测视频中的滚动字幕，在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。
155.本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，
156.存储器603，用于存放计算机程序；
157.处理器601，用于执行存储器603上所存放的程序时，可以实现如下步骤：
158.获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；
159.对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；
160.根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；
161.根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。
162.上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
163.通信接口用于上述终端与其他设备之间的通信。
164.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
165.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
166.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的滚动字幕检测。
167.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的滚动字幕检测。
168.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或第三数据库通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或第三数据库进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、第三数据库等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
169.需要说明的是，在本文中，诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
170.本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
171.以上所述仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。

技术特征：
1.一种滚动字幕检测方法，其特征在于，所述方法包括：获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。2.根据权利要求1所述的滚动字幕检测方法，其特征在于，所述位置信息为所述文本框在预设坐标系中的坐标数据，所述根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹包括：将所述秒级视频帧中文本对应的文本框的坐标数据、文本特征和所述全部视频帧输入至预设追踪网络，得到所述文本对应的文本运行轨迹；其中，所述预设追踪网络用于在所述全部视频帧中查找目标视频帧，并根据所述目标视频帧和秒级视频帧中文本框的坐标数据生成所述文本对应的文本运行轨迹，所述目标视频帧是与所述秒级视频帧中文本框中的所述文本特征之间的相似度大于预设值的文本框对的视频帧。3.根据权利要求1所述的滚动字幕检测方法，其特征在于，所述根据所述文本运行轨迹确定在所述待检测视频中存在滚动字幕包括：根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的滚动字幕帧。4.根据权利要求3所述的滚动字幕检测方法，其特征在于，所述根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的视频帧包括：在检测到所述文本运行轨迹对应的连续视频帧的数量大于第一预设值的情况下，确定所述文本框中对应的文本为滚动字幕文本；根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息以及角度信息，其中，所述角度信息是根据所述滚动字幕文本的运动方向和水平方向之间的夹角生成的，所述运动方向和所述水平方向是基于预设坐标系确定的；在检测到当前视频帧中所述滚动字幕文本对应的行数大于预设行数且所述距离信息以及角度信息之间的方差处于预设范围的情况下，确定所述当前视频帧为滚动字幕对应的滚动字幕帧。5.根据权利要求4所述的滚动字幕检测方法，其特征在于，所述根据所述滚动字幕文本的文本运行轨迹中的起始帧和结束帧生成所述滚动字幕文本的距离信息包括：根据所述滚动字幕文本对应的文本框在所述起始帧中的位置和所述文本框在所述结束帧中的位置之间的相对距离生成所述滚动字幕文本的距离信息。6.根据权利要求3所述的滚动字幕检测方法，其特征在于，在所述根据预设滚动字幕判定条件在所述全部视频帧中确定滚动字幕文本以及所述滚动字幕对应的视频帧的步骤之
后，所述方法包括：根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧；根据所述初始滚动字幕帧确定滚动字幕起始点位，其中，所述滚动字幕起始点位为所述待检测视频中的滚动字幕初次显示对应的时间点。7.根据权利要求6所述的滚动字幕检测方法，其特征在于，所述根据所述滚动字幕帧在所述待检测视频中的时间点位确定初始滚动字幕帧包括：将所述滚动字幕帧根据时间点位进行排序，得到排序结果；将所述排序结果中最小时间点位对应的所述滚动字幕帧作为初始滚动字幕帧。8.根据权利要求6所述的滚动字幕检测方法，其特征在于，所述根据所述初始滚动字幕帧确定滚动字幕起始点位包括：根据预设行数对初始滚动字幕帧进行回溯处理，得到滚动字幕起始点位。9.一种滚动字幕检测装置，其特征在于，所述装置包括：获取模块，用于获取待检测视频中的秒级视频帧以及全部视频帧，其中，所述秒级视频帧是在所述待检测视频中每秒对应的多个视频帧中任意一个视频帧；检测模块，用于对所述秒级视频帧进行文本检测处理，确定所述文本对应的文本框的位置信息，以及，所述文本框中的文本特征；追踪模块，用于根据所述秒级视频帧中文本对应的文本框的位置信息，以及，所述文本框中的文本特征在所述全部视频帧中对所述文本框进行追踪，生成所述文本框中文本对应的文本运行轨迹；确定模块，用于根据所述文本运行轨迹识别出所述待检测视频中的滚动字幕。10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一所述的方法步骤。

技术总结
本申请实施例提供了一种滚动字幕检测方法、装置、电子设备及存储介质，包括：获取待检测视频中的秒级视频帧以及全部视频帧，其中，秒级视频帧是在待检测视频中每秒对应的多个视频帧中任意一个视频帧；对秒级视频帧进行文本检测处理，确定文本对应的文本框的位置信息，以及，文本框中的文本特征；根据秒级视频帧中文本对应的文本框的位置信息，以及，文本框中的文本特征在全部视频帧中对文本框进行追踪，生成文本框中文本对应的文本运行轨迹；根据文本运行轨迹识别出待检测视频中的滚动字幕；本申请实施例提供的技术方案在实现降低运算资源消耗的同时，也可以实现对滚动字幕的精准检测。准检测。准检测。

技术研发人员：尹天舒
受保护的技术使用者：北京奇艺世纪科技有限公司
技术研发日：2023.06.30
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种基于自注意力机制的曝光融合阴影去除方法与流程 下一篇：一种用于支气管镜的导向装置以及介入设备的制作方法

滚动字幕检测方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

滚动字幕检测方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表