通过机器学习选择代表性视频帧的制作方法

未命名 09-09 阅读:109 评论:0

通过机器学习选择代表性视频帧
1.相关申请的交叉引用
2.本专利申请要求于2021年12月14日提交的序列号为第17/550,852号的美国申请的权益,该美国申请要求于2020年12月30日提交的题为“machine learning-based selection of arepresentative video frame within amessaging application”的序列号为第63/131,839号的美国临时专利申请的权益,其全部内容通过引用并入本文。
技术领域
3.本公开内容大体上涉及消息收发系统,包括实现基于机器学习来选择代表性视频帧的消息收发系统。


背景技术:

4.消息收发系统使得在用户之间交换消息内容。例如,消息收发系统允许用户与一个或更多个其他用户交换消息内容(例如,视频、图像)。
附图说明
5.在附图(其不一定按比例绘制)中,相同的附图标记可以在不同的视图中描述类似的部件。为了容易标识对任何特定元素或动作的讨论,附图标记中的一个或多个最高位数字是指该元素被首次引入时所在的图号。一些非限制性示例在附图的图中示出,在附图中:
6.图1是根据一些示例实施方式的可以部署本公开内容的联网环境的图形表示。
7.图2是根据一些示例的具有客户端侧和服务器侧两者的功能的消息收发系统的图形表示。
8.图3是根据一些示例实施方式的在数据库中维护的数据结构的图形表示。
9.图4是根据一些示例实施方式的消息的图形表示。
10.图5示出了根据一些示例实施方式的用于训练和使用机器学习模型来选择代表性视频帧的机器学习系统。
11.图6a示出了根据一些示例实施方式的使用不同选择方法选择的代表性视频帧的示例。
12.图6b示出了根据一些示例实施方式的使用不同选择方法选择的代表性视频帧的其他示例。
13.图7是示出根据一些示例实施方式的使用机器学习来选择代表性视频帧的过程的流程图。
14.图8是根据一些示例实施方式的访问限制过程的流程图。
15.图9是根据一些示例实施方式的呈计算机系统形式的机器的图形表示,在该机器内可以执行指令集合以使该机器执行本文所讨论的方法中的任何一种或更多种。
16.图10是示出其中可以实现示例的软件架构的框图。
具体实施方式
17.消息收发系统通常允许用户彼此交换内容项目(例如,视频、图像、音频和/或文本)。消息收发系统可以被配置成选择代表特定视频的视频帧以例如用作该视频的缩略图图像。
18.所公开的实施方式提供了如下消息收发系统,其被配置成训练和使用机器学习模型来选择代表性视频帧。消息收发系统利用各种类型的训练数据来训练机器学习模型。例如,训练数据可以包括具有与美学分数相对应的标签的美学视觉分析(aesthetic visual analysis,ava)图像(例如,对应于与消息收发系统分离的大规模数据库)。
19.训练数据还可以包括被弱标记(weakly-labeled)的与消息收发系统相关联地存储的随机选择的视频帧。弱标记(weak labeling)可以包括将随机选择的视频帧提供给最初用已标记的ava图像训练的机器学习模型,并且使用输出评估(例如,分数)来对随机选择的视频帧进行标记。此外,消息收发系统针对随机选择的视频帧降低图像质量,以例如用质量降低的图像来显式地训练机器学习模型。
20.此外,可以基于已标记的和未标记的视频帧来对机器学习模型至少部分地进行自训练。对于与消息收发系统相关联的给定视频,基于预定义的偏好(例如,视频的主体居中、前景突出、显得大、等等)来对一些视频帧进行标记。已标记的视频帧被提供给使用ava视频帧和降级的随机选择的视频帧进行训练的机器学习模型,以确定未标记的视频帧的伪标签(pseudo-labels)。然后,将已标记的和伪标记的视频帧用于进一步训练机器学习模型。机器学习模型可用于新的图像数据(例如,新的视频),以便对视频帧进行排序,以用于选择哪个(哪些)视频帧代表新的视频。
21.图1是示出用于通过网络来交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,每个实例托管包括消息收发客户端104和其他应用106的多个应用。每个消息收发客户端104经由网络112(例如,因特网)通信地耦接至消息收发客户端104的其他实例(例如,托管在相应的其他客户端设备102上)、消息收发服务器系统108和第三方服务器110。消息收发客户端104还可以使用应用程序接口(api)与本地托管的应用106通信。
22.消息收发客户端104能够经由网络112与其他消息收发客户端104和消息收发服务器系统108通信并交换数据。在消息收发客户端104之间以及在消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
23.消息收发服务器系统108经由网络112向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能的位置是在消息收发客户端104内还是在消息收发服务器系统108内可以是设计选择。例如,在技术上可能优选的是,最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
24.消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信
息、地理定位信息、媒体增强和叠加、消息内容持久性条件、社交网络信息以及实况事件信息。通过经由消息收发客户端104的用户界面(ui)可用的功能来激活和控制消息收发系统100内的数据交换。
25.现在具体地转至消息收发服务器系统108,应用程序接口(api)服务器116耦接至应用服务器114并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120,数据库服务器120有助于对数据库126进行访问,数据库126存储与由应用服务器114处理的消息相关联的数据。类似地,web服务器128耦接至应用服务器114,并且向应用服务器114提供基于web的接口。为此,web服务器128通过超文本传输协议(http)和若干其他相关协议来处理传入的网络请求。
26.应用程序接口(api)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(api)服务器116提供接口集合(例如,例程和协议),所述接口集合可以由消息收发客户端104调用或查询以激活应用服务器114的功能。应用程序接口(api)服务器116公开应用服务器114所支持的各种功能,包括:账户注册;登录功能;经由应用服务器114从特定消息收发客户端104向另一消息收发客户端104发送消息,从消息收发客户端104向消息收发服务器118发送媒体文件(例如,图像或视频),以及供另一消息收发客户端104的可能访问;设置媒体数据的集合(例如,故事);检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;对实体图(例如,社交图)添加和删除实体(例如,朋友);定位社交图内的朋友;以及打开(例如,与消息收发客户端104有关的)应用事件。
27.应用服务器114托管多个服务器应用和子系统,包括例如消息收发服务器118、图像处理服务器122以及社交网络服务器124。消息收发服务器118实现多个消息处理技术和功能,特别地涉及对从消息收发客户端104的多个实例接收的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理。如将进一步详细描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,被称为故事或图库)。然后,使这些集合对消息收发客户端104可用。鉴于对数据的其他处理器和存储器密集处理的硬件要求,也可以由消息收发服务器118在服务器侧执行这样的处理。
28.应用服务器114还包括图像处理服务器122,图像处理服务器122专用于通常针对从消息收发服务器118发送或在消息收发服务器118处接收的消息的有效载荷内的图像或视频执行各种图像处理操作。
29.社交网络服务器124支持各种社交联网功能和服务,并且使这些功能和服务可用于消息收发服务器118。为此,社交网络服务器124维护并访问数据库126内的实体图304(如图3所示)。社交网络服务器124所支持的功能和服务的示例包括标识消息收发系统100中与特定用户有关系或该特定用户正“关注”的其他用户,并且还包括标识特定用户的兴趣和其他实体。
30.返回到消息收发客户端104,外部资源(例如,应用106或小应用)的特征和功能经由消息收发客户端104的接口对用户可用。在该上下文中,“外部”是指应用106或小应用在消息收发客户端104外部的事实。外部资源通常由第三方提供,但也可以由消息收发客户端104的创建者或提供者提供。消息收发客户端104接收对启动或访问这样的外部资源的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的应用106(例如,“本地
app”)、或者托管在客户端设备102上或者位于客户端设备102的远端(例如,在第三方服务器110上)的应用的小规模版本(例如,“小应用”)。应用的小规模版本包括应用的特征和功能的子集(例如,应用的全规模、原生版本),并且使用标记语言文档来实现。在一个示例中,应用的小规模版本(例如,“小应用”)是应用的基于web的标记语言版本,并且嵌入在消息收发客户端104中。除了使用标记语言文档(例如,.*ml文件)之外,小应用可以包括脚本语言(例如,.*js文件或.json文件)和样式表(例如,.*ss文件)。
31.响应于接收到对启动或访问外部资源的特征的选项的用户选择,消息收发客户端104确定选择的外部资源是基于web的外部资源还是本地安装的应用106。在一些情况下,本地安装在客户端设备102上的应用106可以独立于消息收发客户端104并且与消息收发客户端104分开启动,例如通过在客户端设备102的主页屏幕上选择与应用106对应的图标。可以经由消息收发客户端104启动或访问这样的应用的小规模版本,并且在一些示例中,小规模应用的任何部分都不能(或者有限部分才能)在消息收发客户端104之外被访问。可以通过消息收发客户端104例如从第三方服务器110接收与小规模应用相关联的标记语言文档并处理这样的文档来启动小规模应用。
32.响应于确定外部资源是本地安装的应用106,消息收发客户端104指示客户端设备102通过执行与外部资源对应的本地存储的代码来启动外部资源。响应于确定外部资源是基于web的资源,消息收发客户端104(例如)与第三方服务器110通信以获得与选择的外部资源对应的标记语言文档。消息收发客户端104然后处理获得的标记语言文档以在消息收发客户端104的用户界面内呈现基于web的外部资源。
33.消息收发客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如,“朋友”)通知在一个或更多个外部资源中发生的活动。例如,消息收发客户端104可以向消息收发客户端104中的对话(例如,聊天会话)中的参与者提供与一组用户中的一个或更多个成员对外部资源的当前使用或最近使用有关的通知。可以邀请一个或更多个用户加入活动的外部资源或者启动(在该组朋友中)最近使用过但当前不活动的外部资源。外部资源可以向对话中的各自使用相应的消息收发客户端104的参与者提供与一组用户中的一个或更多个成员将外部资源中的项、状态、状况或位置共享到聊天会话中的能力。共享项目可以是交互式聊天卡,聊天的成员可以利用该交互式聊天卡进行交互,例如,以启动对应的外部资源,查看外部资源内的特定信息,或将聊天的成员带到外部资源内的特定位置或状态。在给定的外部资源内,可以在消息收发客户端104上向用户发送响应消息。外部资源可以基于外部资源的当前上下文在响应中选择性地包括不同的媒体项。
34.消息收发客户端104可以向用户呈现可用外部资源(例如,应用106或小应用)的列表以启动或访问给定的外部资源。该列表可以呈现在上下文敏感菜单中。例如,表示不同的应用106(或小应用)的图标可以基于用户如何启动菜单(例如,从对话界面或从非对话界面)而变化。
35.图2是示出根据一些示例实施方式的关于消息收发系统100的另外的细节的框图。具体地,消息收发系统100被示出为包括消息收发客户端104和应用服务器114。消息收发系统100包含多个子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、外部资源系统212和/或机器学习系统214。
36.短暂定时器系统202负责实施消息收发客户端104和消息收发服务器118对内容的临时或时间受限访问。短暂定时器系统202并入了多个定时器,这些定时器基于与消息或消息的集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息收发客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。
37.集合管理系统204负责管理媒体的集和集合(例如,文本、图像视频和音频数据的集合)。内容(例如,消息,包括图像、视频、文本和音频)的集合可以被组织成“事件图库”或“事件故事”。可以使这样的集合在指定时间段例如在与内容有关的事件的持续时间内可用。例如,可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供存在特定集合的通知的图标。
38.此外,集合管理系统204包括使得集合管理器能够管理和策展特定内容集合的策展接口206。例如,策展接口206使得事件组织者能够策展与特定事件有关的内容的集合(例如,删除不适当的内容或冗余消息)。另外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以为将用户生成的内容包括到集合中而向用户支付补偿。在这样的情况下,集合管理系统204进行操作以自动地为使用这样的用户的内容而向用户进行支付。
39.增强系统208提供使得用户能够增强(例如,注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统208提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加有关的功能。增强系统208基于客户端设备102的地理定位可操作地向消息收发客户端104提供媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、徽标、动画和声音效果。视觉效果的示例包括颜色叠加。音频和视觉内容或视觉效果可以被应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片之上的文本或图像。在另一示例中,媒体叠加包括定位标识叠加(例如,威尼斯海滩)、实况事件名称或商家名称叠加(例如,海滩咖啡馆)。在另一示例中,增强系统208使用客户端设备102的地理定位来标识包括客户端设备102的地理定位处的商家名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标记。媒体叠加可以被存储在数据库126中并通过数据库服务器120访问。
40.在一些示例中,增强系统208提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位,并且上传与选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体叠加的环境。增强系统208生成包括上传的内容的媒体叠加并且将上传的内容与选择的地理定位相关联。
41.在其他示例中,增强系统208提供基于商家的发布平台,该基于商家的发布平台使得商家能够经由出价过程来选择与地理定位相关联的特定媒体叠加。例如,增强系统208将最高出价商家的媒体叠加与对应地理定位相关联达预定义时间量。
42.在其他示例中,如下面关于图3所讨论的,增强系统208使得与客户端设备102的摄像装置所捕获的图像或视频相关联地呈现增强现实内容。增强系统208可以实现或以其他
方式访问增强现实内容项(例如,对应于应用透镜或增强现实体验)来提供可以被添加至图像或视频的实时特殊效果和/或声音。为了有助于增强现实内容的呈现,增强系统208可以实现或以其他方式访问对象识别算法(例如,包括机器学习算法),该对象识别算法被配置成扫描图像或视频并且检测/跟踪图像或视频内的对象的移动。
43.地图系统210提供各种地理定位功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统210使得能够在地图上显示(例如,存储在简档数据302中的)用户图标或化身,以在地图的上下文中指示用户的“朋友”的当前定位或过去定位以及由这样的朋友生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,可以在消息收发客户端104的地图界面上将用户从特定地理定位发布到消息收发系统100的消息在地图的该特定定位的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,使用适当的状态化身)共享他或她的定位和状态信息,其中,该定位和状态信息在消息收发客户端104的地图界面的上下文内被类似地显示给选择的用户。
44.外部资源系统212为消息收发客户端104提供接口以与远程服务器(例如,第三方服务器110)通信以启动或访问外部资源(即,应用或小应用)。每个第三方服务器110例如托管基于标记语言(例如,html5)的应用或应用的小规模版本(例如,游戏应用、实用程序应用、支付应用或乘坐共享应用)。消息收发客户端104可以通过从与基于web的资源相关联的第三方服务器110访问html5文件来启动基于web的资源(例如,应用)。在某些示例中,利用由消息收发服务器118提供的软件开发工具包(sdk)以javascript对由第三方服务器110托管的应用进行编程。sdk包括应用程序接口(api),该api具有可以由基于web的应用调用或激活的功能。在某些示例中,消息收发服务器118包括javasscript库,该库提供对消息收发客户端104的某些用户数据的给定外部资源访问。html5被用作用于编程游戏的示例技术,但是可以使用基于其他技术编程的应用和资源。
45.为了将sdk的功能集成到基于web的资源中,sdk由第三方服务器110从消息收发服务器118下载,或者由第三方服务器110以其他方式接收。一旦被下载或接收,sdk被包括作为基于web的外部资源的应用代码的一部分。基于web的资源的代码然后可以调用或激活sdk的某些功能以将消息收发客户端104的特征集成到基于web的资源中。
46.存储在消息收发服务器118上的sdk有效地提供外部资源(例如,应用106或小应用)与消息收发客户端104之间的桥接。这为用户提供了与消息收发客户端104上的其他用户通信的无缝体验,同时还保留了消息收发客户端104的外观和感觉。为了桥接外部资源与消息收发客户端104之间的通信,在某些示例中,sdk有助于第三方服务器110与消息收发客户端104之间的通信。在某些示例中,在客户端设备102上运行的webviewjavascriptbridge在外部资源与消息收发客户端104之间建立两个单向通信信道。消息经由这些通信信道在外部资源与消息收发客户端104之间异步发送。每个sdk函数调用作为消息和回调发送。通过构造唯一的回调标识符并且发送具有该回调标识符的消息来实现每个sdk函数。
47.通过使用sdk,并非来自消息收发客户端104的所有信息都与第三方服务器110共享。sdk基于外部资源的需要来限制共享哪些信息。在某些示例中,每个第三方服务器110向消息收发服务器118提供与基于web的外部资源对应的html5文件。消息收发服务器118可以在消息收发客户端104中添加基于web的外部资源的视觉表示(诸如盒设计或其他图形)。一
旦用户选择了视觉表示或通过消息收发客户端104的gui指示消息收发客户端104访问基于web的外部资源的特征,消息收发客户端104获得html5文件并且对访问基于web的外部资源的特征所需的资源进行实例化。
48.消息收发客户端104呈现用于外部资源的图形用户界面(例如,登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后,消息收发客户端104确定启动的外部资源是否先前已被授权访问消息收发客户端104的用户数据。响应于确定启动的外部资源先前已被授权访问消息收发客户端104的用户数据,消息收发客户端104呈现外部资源的另一图形用户界面,其包括外部资源的功能和特征。响应于确定启动的外部资源先前未被授权访问消息收发客户端104的用户数据,在显示外部资源的登录页面或标题画面的阈值时间段(例如,3秒)之后,消息收发客户端104向上滑动用于授权外部资源访问用户数据的菜单(例如,将菜单动画化为从画面底部浮现到画面中部或其他部分)。该菜单标识外部资源将被授权使用的用户数据的类型。响应于接收到对接受选项的用户选择,消息收发客户端104将外部资源添加至授权的外部资源的列表,并且使得外部资源能够访问来自消息收发客户端104的用户数据。在一些示例中,外部资源由消息收发客户端104根据oauth 2框架授权访问用户数据。
49.消息收发客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如,向包括全规模应用(例如,应用106)的外部资源提供对第一类型的用户数据(例如,具有或不具有不同化身特性的用户的仅二维化身)的访问。作为另一示例,向包括应用的小规模版本(例如,应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如,支付信息、用户的二维化身、用户的三维化身、以及具有各种化身特性的化身)的访问。化身特性包括定制化身的外观和感觉(例如,不同姿势、面部特征、服装等)的不同方式。
50.机器学习系统214在消息收发系统100的环境内实现机器学习的各种功能。在一个或更多个实施方式中,机器学习系统214向消息收发系统100提供了无需被显式编程即可学习的能力。机器学习系统214可以实现或以其他方式访问被配置成从现有数据中学习并对新数据进行预测的机器学习算法。例如,机器学习算法通过从示例训练数据构建机器学习模型来进行操作,以便做出数据驱动的预测或决策表达评估(例如,或分数)。
51.图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示出为包括多个表,但是将认识到,可以以其他类型的数据结构来存储数据(例如,存储为面向对象的数据库)。
52.数据库126包括存储在消息表306内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表306中的消息数据内的信息的另外的细节。
53.实体表308存储实体数据,并且(例如,参考地)链接至实体图304和简档数据302。针对其的记录被维护在实体表308内的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。每个实体设置有唯一标识符以及实体类型标识符(未示出)。
54.实体图304存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以
是基于兴趣或者基于活动的社交关系、职业关系(例如,在共同的公司或组织工作)。
55.简档数据302存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据302可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据302包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置)以及用户选择的化身表示(或这样的化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容内以及由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间传送的状态或活动的图形表示。
56.在实体是团体的情况下,除了团体名称、成员以及针对相关团体的各种设置(例如,通知)之外,针对团体的简档数据302还可以类似地包括与团体相关联的一个或更多个化身表示。
57.数据库126还在增强表310中存储增强数据,例如叠加或过滤器。增强数据与视频(视频的数据被存储在视频表316中)和图像(图像的数据被存储在图像表318中)相关联并且被应用于视频和图像。
58.在一个示例中,过滤器是在向接收方用户呈现期间被显示为叠加在图像或视频上的叠加。过滤器可以是各种类型,包括当发送用户正在编写消息时来自由消息收发客户端104呈现给发送用户的过滤器集合的用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器),其可以基于地理定位被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(gps)单元确定的地理定位信息,由消息收发客户端104在用户界面内呈现特定于附近或特殊定位的地理定位过滤器。
59.另一种类型的过滤器是数据过滤器,其可以由消息收发客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定定位处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。
60.可以存储在图像表318内的其他增强数据包括增强现实内容项(例如,对应于应用透镜或增强现实体验)。增强现实内容项可以提供可以被添加至图像或视频的实时特殊效果和/或声音。
61.如上所述,增强数据包括增强现实内容项、叠加、图像变换、ar图像以及指代可以应用于图像数据(例如,视频或图像)的修改的类似术语。这包括实时修改,其在图像被使用客户端设备102的设备传感器(例如,一个或多个摄像装置)进行捕获时对图像进行修改并且然后在修改的情况下在客户端设备102的屏幕上显示。这还包括对存储的内容(例如,图库中可以被修改的视频剪辑)的修改。例如,在访问多个增强现实内容项的客户端设备102中,用户可以将单个视频剪辑与多个增强现实内容项一起使用来查看不同的增强现实内容项将如何修改存储的剪辑。例如,通过针对同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,可以将实时视频捕获与示出的修改一起使用,以示出客户端设备102的传感器当前正捕获的视频图像将如何修改捕获的数据。这样的数据可以仅显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并存储在存储器中。在一些系统中,预览特征可以同时显示不同的增强现实内容项将在显示器中的不同窗口内
看起来如何。例如,这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
62.因此,使用增强现实内容项的数据和各种系统或使用这些数据来修改内容的其他这样的变换系统可以涉及:视频帧中各对象(例如,面部、手、身体、猫、狗、表面、对象等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时对这样的对象的跟踪,以及在跟踪这样的对象时对这样的对象的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或多个对象的三维网格模型,以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在跟踪的位置处。在另外的示例中,可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既涉及用于在内容中创建变换的图像、模型和纹理,又涉及利用对象检测、跟踪和放置来实现这样的变换所需的附加建模和分析信息。
63.可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。另外,可以使用计算机动画模型来处理任何对象,例如人的面部和人体的各部位、动物或非生物(例如,椅子、汽车或其他对象)。
64.在一些示例中,当连同要变换的内容一起选择特定修改时,由计算设备标识要变换的元素,并且然后如果要变换的元素存在于视频的帧中,则检测并跟踪要变换的元素。根据修改请求来修改对象的元素,因此变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要涉及改变对象的元素的形式的帧变换,计算对象的每个元素的特性点(例如,使用主动形状模型(asm)或其他已知方法)。然后,针对对象的至少一个元素中的每一个生成基于特性点的网格。该网格被用于在视频流中跟踪对象的各元素的后续阶段。在跟踪过程中,所提及的针对每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合,并且基于第一点的集合以及修改请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合、第二点的集合和网格修改对象的元素来对视频流的帧进行变换。在这样的方法中,也可以通过跟踪和修改背景来使修改后的对象的背景改变或发生扭曲。
65.在一些示例中,可以通过计算对象的每个元素的特性点并基于计算的特性点生成网格来执行使用对象的元素改变对象的某些区域的变换。在网格上生成点,并且然后生成基于这些点的各种区域。然后,通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素,并且可以基于修改请求来修改区域的属性,因此对视频流的帧进行变换。取决于具体的修改请求,可以以不同的方式来变换提及的区域的属性。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除至少部分区域;将一个或更多个新对象包括在基于修改请求的区域中;以及对区域或对象的元素进行修改或使其发生扭曲。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特性点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
66.在使用面部检测来变换图像数据的计算机动画模型的一些示例中,利用特定面部检测算法(例如,viola-jones)在图像上检测面部。然后,将主动形状模型(asm)算法应用于图像的面部区域以检测面部特征参考点。
67.可以使用适用于面部检测的其他方法和算法。例如,在一些示例中,使用界标来定位特征,界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的定位。如果初始界标不可标识(例如,如果人具有眼罩),则可以使用次级界标。这样的界标标识过程可以被用于任何这样的对象。在一些示例中,界标集合形成形状。可以使用形状中的点的坐标将形状表示为矢量。利用使形状点之间的平均欧几里德距离最小化的相似变换(允许平移、缩放和旋转)将一个形状与另一形状对准。均值形状(mean shape)是经对准的训练形状的均值。
68.在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的均值形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配对形状点的定位进行调整来建议暂定形状,并且然后使暂定形状符合全局形状模型,直至发生收敛。在一些系统中,单独模板匹配是不可靠的,并且形状模型对弱模板匹配的结果进行池化,以形成较强的整体分类器。整个搜索从粗略分辨率到精细分辨率在图像金字塔的每一级处重复。
69.变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功率消耗。复杂的图像操纵可以包括大小和形状改变、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减小表观年龄、改变性别)、风格转换、图形元素应用以及由已经被配置成在客户端设备102上高效地执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
70.在一些示例中,用于变换图像数据的计算机动画模型可以由下述系统使用:在该系统中,用户可以使用具有作为在客户端设备102上操作的消息收发客户端104的一部分而操作的神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍)。在消息收发客户端104内操作的变换系统确定图像或视频流内的面部的存在,并且提供与计算机动画模型相关联的修改图标以变换数据图像,或者计算机动画模型可以与本文中描述的界面相关联地存在。修改图标包括下述改变:该改变可以是作为修改操作的一部分的用于修改图像或视频流内的用户的面部的基础。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映选择的修改图标(例如,在用户上生成笑脸)的处理。一旦图像或视频流被捕获并且指定的修改被选择,则经修改的图像或视频流可以呈现在客户端设备102上显示的图形用户界面中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用选择的修改。即,用户可以捕获图像或视频流并且一旦修改图标已被选择,修改结果就被实时或接近实时地呈现给用户。此外,当正在捕获视频流时,修改可以是持久的,并且选择的修改图标保持被切换。机器教导的神经网络可以被用于实现这样的修改。
71.呈现由变换系统执行的修改的图形用户界面可以向用户提供附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的选择和内容捕获的界面(例如,从内容创建者用户界面发起)。在各种示例中,在对修改图标进行初始选择之后,修改可以是持久的。用户可以通过轻击或以其他方式选择正由变换系统修改的面部来开启或关闭修改,并将其存储以供稍后查看或浏览到成像应用的其他区域。在通过变换系统修改多个面部的情况下,用户可以通过轻击或选择图形用户界面内修改和显示的单个面部来全局地开启或关闭修改。在一些示例中,可以单独地修改一组多个面部中的各个面部,或者可以通过轻击或
选择图形用户界面内显示的各个面部或一系列各个面部来单独切换这样的修改。
72.故事表312存储关于消息和相关联的图像、视频或音频数据的集合的数据,所述消息和相关联的图像、视频或音频数据被汇编成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如,针对其的记录被维护在实体表308中的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此,消息收发客户端104的用户界面可以包括用户可选择的图标,以使得发送用户能够将特定内容添加至他或她的个人故事。
73.集合还可以构成“实况故事”,该“实况故事”是手动地、自动地或使用手动技术和自动技术的组合创建的来自多个用户的内容的集合。例如,“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。可以例如经由消息收发客户端104的用户界面向其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户呈现将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于用户的定位向他或她标识实况故事。最终结果是从群体角度讲述的“实况故事”。
74.另一种类型的内容集合被称为“定位故事”,该“定位故事”使得其客户端设备102位于特定地理定位(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中,对定位故事的贡献可能需要二级认证来验证最终用户属于特定组织或其他实体(例如,是大学校园中的学生)。
75.用户存储器表314存储关于一个或更多个“用户存储器”的数据,其中每个用户存储器对应于由单个用户保存以供该用户后续访问的内容(例如,图像、视频和/或音频文件)。特定用户存储器的创建和保存可以由单个用户(例如,其记录维护在实体表308中的每个用户)发起。此外,存储在用户存储器表314内的每个用户存储器可以由单个用户查看、编辑和/或发送。
76.例如,如果用户创建内容(例如,用于在消息收发时与其他人交换),则在默认情况下,所创建的内容通常可以在指定时间段(例如,一小时、一分钟、一秒钟等)之后自动删除并且从存储装置中移除。然而,如果在内容被自动删除的指定时间段之前,用户选择内容被永久保留(例如,经由“保存”界面),则该内容可以作为用户存储器被添加在用户存储器表314中。所保存的内容可以由单个用户访问,以用于查看、编辑和/或与其他用户共享。
77.如以上提及的,视频表316存储视频数据,在一个示例中,该视频数据与针对其的记录被维护在消息表306内的消息相关联。类似地,图像表318存储与其消息数据被存储在实体表308中的消息相关联的图像数据。实体表308可以将来自增强表310的各种增强与存储在图像表318和视频表316中的各种图像和视频相关联。
78.图4是示出根据一些示例实施方式的消息400的结构的示意图,该消息400由消息收发客户端104生成,以传送至另外的消息收发客户端104或消息收发服务器118。特定消息400的内容被用于填充存储在可由消息收发服务器118访问的数据库126内的消息表306。类似地,消息400的内容作为客户端设备102或应用服务器114的“运输中(in-transit)”或“飞行中(in-flight)”数据存储在存储器中。消息400被示出为包括以下示例组成部分:
79.·
消息标识符402:标识消息400的唯一标识符。
80.·
消息文本有效载荷404:要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。
81.·
消息图像有效载荷406:由客户端设备102的摄像装置部件捕获或从客户端设备102的存储器部件检索并且包括在消息400中的图像数据。针对发送或接收的消息400的图像数据可以存储在图像表318中。
82.·
消息视频有效载荷408:由摄像装置部件捕获或者从客户端设备102的存储器部件检索并且包括在消息400中的视频数据。针对发送或接收的消息400的视频数据可以存储在视频表316中。
83.·
消息音频有效载荷410:由麦克风捕获或从客户端设备102的存储器部件检索并且包括在消息400中的音频数据。
84.·
消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、标贴或其他注解或增强)。针对发送或接收的消息400的增强数据可以存储在增强表310中。
85.·
消息持续时间参数414:以秒为单位指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)要经由消息收发客户端104呈现给用户或使其对于用户可访问的时间量的参数值。
86.·
消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度坐标和经度坐标)。多个消息地理定位参数416值可以被包括在有效载荷中,这些参数值中的每一个与内容中包括的内容项(例如,消息图像有效载荷406内的特定图像或者消息视频有效载荷408中的特定视频)相关联。
87.·
消息故事标识符418:标识与消息400的消息图像有效载荷406中的特定内容项相关联的一个或更多个内容集合(例如,在故事表312中标识的“故事”)的标识符值。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
88.·
消息标签420:每个消息400可以用多个标签来标记,所述多个标签中的每一个指示消息有效载荷中包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如,狮子)的情况下,指示相关动物的标签值可以被包括在消息标签420内。标签值可以基于用户输入手动生成,或者可以使用例如图像识别自动生成。
89.·
消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
90.·
消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
91.消息400的各组成部分的内容(例如,值)可以是指向表中存储有内容数据值的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表318内的位置的指针(或地址)。类似地,消息视频有效载荷408内的值可以指向存储在视频表316内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表312中的数据,并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表308内的用户记录。
92.图5示出了根据一些示例实施方式的用于训练和使用机器学习模型538来选择代表性视频帧的机器学习系统214。在一个或更多个实施方式中,出于排序的目的,使用机器学习系统214来执行与确定视频帧的评估540(例如,分数)相关联的操作。并非所有描绘的部件都可以在所有实现方式中使用,并且一个或更多个实施方式可以包括除了图中所示的
部件之外的附加或不同的部件。在不脱离本文阐述的权利要求书的精神或范围的情况下,可以对部件的布置和类型进行变化。
93.如上所述,机器学习系统214可以对应于消息收发系统100的子系统,并且可以在客户端侧由消息收发客户端104支持和/或在服务器侧由应用服务器114支持。在一个或更多个实施方式中,机器学习模型538的训练和使用可以在客户端侧、服务器侧和/或客户端侧和服务器侧的组合中实现。
94.如本文所述,机器学习系统214使得利用不同类型的训练数据来训练机器学习模型538。例如,训练数据502包括具有与美学分数相对应的标签的美学视觉分析(ava)图像。此外,训练数据504包括被弱标记的与消息收发系统100相关联地存储的随机选择的视频帧。弱标记包括将随机选择的视频帧提供给最初由已标记的ava图像训练的机器学习模型538。机器学习系统214针对随机选择的视频帧降低质量,例如,以用质量降低的视频帧来显式地训练机器学习模型。此外,基于已标记的和未标记的视频帧(例如,训练数据506)来对机器学习模型538至少部分地进行自训练。对于与消息收发系统100相关联的给定视频,基于预定义的偏好(例如,主体居中、前景突出、显得大、等等)对一些视频帧进行标记。将已标记的视频帧提供给(使用ava视频帧和降级的随机选择的视频帧训练的)机器学习模型538,以确定未标记的视频帧的伪标签(pseudo-labels)。然后,将已标记的和伪标记的视频帧用于进一步训练机器学习模型538。机器学习模型538可用于新的图像数据(例如,新的视频),以便针对哪个(哪些)帧最好地表示新的视频来对视频帧进行排序。
95.如图5的示例所示,机器学习系统214包括:与ava图像510、特征524和标签512相关联的训练数据502;与机器学习系统214、特征526和(经修改的)生成的标签516相关联的训练数据504;与抓取的图像(scraped image)518、特征528、标签520和伪标签522相关联的训练数据506;机器学习算法508;视频帧530;帧过滤和关键帧提取模块532;视频帧的子集534;特征536;机器学习模型538;和评估540。然而,并非所有描绘的部件都可以在所有实现方式中使用,并且一个或更多个实施方式可以包括除了图中所示的部件之外的附加或不同的部件。在不脱离本文阐述的权利要求书的精神或范围的情况下,可以对部件的布置和类型进行变化。可以提供附加部件、不同的部件或更少的部件。
96.机器学习系统214为消息收发系统100提供了无需被显式编程即可学习的能力。机器学习系统214可以实现或以其他方式访问被配置成从现有数据学习并对新数据进行预测的机器学习算法(例如,机器学习算法508)。例如,机器学习算法通过从示例训练数据(例如,训练数据502至506)构建机器学习模型538来进行操作,以便做出表示为评估540(例如,分数)的数据驱动的预测或决策。
97.机器学习中常见的两类问题是分类问题和回归问题。分类问题(也称为归类问题)旨在将项目分类到若干类别值之一(例如,对象识别)。回归问题旨在对一些项目进行量化(例如,通过提供值以用于排序目的)。不同的机器学习算法可以用于解决分类和/或排序问题。机器学习算法的示例包括但不限于随机森林(rf)、神经网络(nn)、逻辑回归(lr)、朴素贝叶斯、矩阵分解和支持向量机(svm)算法。在图5的示例中,机器学习算法508可以实现或以其他方式访问一个或更多个机器学习算法。
98.通常,机器学习算法(例如,机器学习算法508)可以以不同的方式训练机器学习模型(例如,机器学习模型538),例如通过监督学习和/或无监督学习。监督学习是基于示例输
入-输出对来学习将输入映射到输出的函数的机器学习任务。监督学习从由训练样本集合组成的已标记训练数据中推断出函数。另一方面,无监督学习是一种如下机器学习,其在没有预先存在的标签和最少人工监督的情况下,在数据集中寻找先前未检测到的模式。如本文所述,可以使用已标记和未标记数据的组合来训练机器学习模型538。
99.关于特征524至528和536,每个单独的特征是被分析的数据(例如,ava图像510图像510、(经修改的)抓取的图像514、抓取的图像518和视频帧的子集534)的可测量的属性。每个单独的特征可以具有各自的数据类型,例如数值或结构化数据(例如直方图)。特征524至528和536可以由特征向量表示。在一个或更多个实施方式中,给定图像(例如,视频帧)的特征向量可以包括相应的值,以表示以下各项中的一个或更多个:图像的每个通道(例如,颜色通道)的颜色均值和标准偏差;颜色直方图(例如,落入每个箱(bin)内的图像像素的百分比);图像的局部二进制模式;图像的gabor滤波器结果(例如,局部能量和平均振幅)。可替选地或另外地,图像的特征向量可以包括以下一个或更多个项的相应值:图像质量特征(例如,亮度、锐度、均匀性和/或模糊度);图像静止特征(例如,基于连续视频帧之间的逐像素帧差异);图像颜色特征(例如,色调、饱和度、亮度、颜色变化和/或颜色均匀性);和/或图像组成特征(例如,对象的存在、对象的大小、对象的位置、对象的表情或特征例如面部表情、睁开的眼睛等)。
100.如本文所述,机器学习机器学习算法508使用训练数据502至506来寻找所识别特征524至528之间影响评估540(例如,分数)的相关性。在一个或更多个实施方式中,训练数据502至506包括各自的标签(例如,标签512、(经修改的)生成的标签516、标签520和伪标签522)。例如,标签512、516、520、522分别对应于ava图像510、(经修改的)抓取的图像514和抓取的图像518的评估(例如,分数)。在一个或更多个实施方式中,这样的评估可以指示图像(例如,视频帧)的总体质量和/或视频帧表示视频整体的程度(例如,用于缩略图选择)。
101.因此,机器学习算法508对应于用训练数据502至506(即特征524至528及其各自的标签512、516、520、522)训练机器学习模型538。所得到的机器学习模型538被配置成接收新的图像数据(例如,视频)作为输入,并生成新图像数据的评估540(例如,分数)作为输出。如图5的示例所示,新的图像数据可以对应于视频帧的子集534的特征536,其中视频帧的子集534是针对视频帧530使用帧过滤和关键帧提取模块532来生成的。消息收发系统100可以选择具有最高评估(例如,分数)的视频帧作为视频的代表帧(例如,用于缩略图选择)。
102.在一个或更多个实施方式中,视频帧530可以对应于存储在视频表316中的视频。视频可以对应于消息(例如,与消息表306相关联)、内容集合(例如,与故事表312相关联的故事)或用户存储器(例如,与用户存储器表314相关联)中的一个或更多个。在一个或更多个实施方式中,帧过滤和关键帧提取模块532对视频帧530执行帧过滤和关键帧提取。
103.在一个或更多个实施方式中,帧过滤对应于确定视频帧530的第一子集。帧过滤和关键帧提取模块532从视频帧530中移除在图像质量阈值之外的那些视频帧。例如,帧过滤和关键帧提取模块532被配置成基于不同的图像量化符(image quantifier)过滤出帧。每个图像量化符可以被分配有各自的图像质量阈值。可以基于针对每个图像量化符执行的测试来预先确定相应的图像质量阈值。因此,帧过滤和关键帧提取模块532可以滤除落在每个图像量化符的相应图像质量阈值之外(例如,以上或以下)的特定百分比的视频帧。
104.在一个或更多个实施方式中,图像量化符包括但不限于:亮度(例如,使得去除或
滤除低亮度帧);锐度(例如,经由与sobel算子卷积来测量,其中梯度的大小是相邻像素之间差异的度量);均匀性(例如,经由图像/视频帧的灰度直方图表示来测量);和模糊度(例如,通过图像/视频帧的拉普拉斯的方差来测量)。
105.在一个或更多个实施方式中,关键帧提取对应于确定视频帧的第一子集内的第二子集。帧过滤和关键帧提取模块532从视频帧的第一子集移除在图像静止阈值之外的那些视频帧。一个基本原理的示例是,在视频捕获期间,设备摄像机将停止以突出重要的对象。在一个或更多个实施方式中,帧过滤和关键帧提取模块532被配置成计算帧的第一子集中的连续帧之间的相应静止值。特定静止值可以对应于跨通道(例如,三个rgb通道)的逐像素帧差异。帧过滤和关键帧提取模块532基于相应静止值从第一子集中移除预设量(例如,预设百分比)的视频帧。例如,基于静止值,从第一子集移除底部60%的视频帧,以便确定帧的第二子集。因此,在一个或更多个实施方式中,视频帧的子集534对应于帧的第二子集。
106.机器学习系统214被配置成计算视频帧的子集534中的每一个视频帧的图像描述符。图像描述符包括但不限于:图像的每个通道(例如,颜色通道)的颜色均值和标准偏差;颜色直方图(例如,落入每个箱内的图像像素的百分比);图像的局部二进制模式;图像的gabor滤波器结果(例如,局部能量和平均振幅)。此外,机器学习系统214被配置成基于图像描述符生成特征向量。所生成的特征向量对应于视频帧的子集534的特征536。
107.如上所述,本文所述的消息收发系统100被配置成例如至少部分基于特征536来选择视频内的代表性帧。在一个或更多个实施方式中,这样的选择可以基于消息收发系统100(例如,结合机器学习系统214)可用的不同训练方法。不同的方法被称为下面描述的“方法1至4”。方法1至4可以选择被认为是视频帧530的代表(例如,基于图像质量、美学、用户偏好)的视频帧,并且可以用于代替仅选择视频内的第一视频帧来代表该视频。
108.关于方法1,消息收发系统100被配置成对与视频帧的子集534相对应的相应特征向量(例如,特征536)进行聚类。例如,消息收发系统100经由间隙统计算法实现或以其他方式访问k均值聚类以执行聚类。在这点上,这样的k均值聚类使得基于特征向量来动态确定聚类的数量。在一个或更多个实施方式中,消息收发系统100还被配置成基于图像静止(例如,如上所述已经确定的值)从每个聚类中选择一个视频帧。此外,如上所述,基于上述静止和模糊值(例如,最低模糊)的组合来选择视频的代表性帧(例如,最终“最佳”帧)。因此,方法1对应于不一定利用图5中描绘的机器学习算法508的示例实现方式。
109.另一方面,方法2至4对应于利用机器学习算法508来训练机器学习模型538的替选实现方式。如下面所讨论的,方法2结合机器学习算法508利用训练数据502进行训练。通过结合机器学习算法508利用训练数据502和训练数据504,方法3建立在方法2的基础上。此外,通过结合机器学习算法508利用训练数据502、训练数据504和训练数据506,方法4建立在方法2和3的基础上。
110.方法2可以对应于受监督的计算机视觉训练方法。如图5所示,训练数据502包括ava图像510和标签512,它们作为输入被提供给机器学习算法508。ava图像510对应于用于进行美学视觉分析的大规模ava数据库。例如,数据库包含多个图像(例如,250,000个图像)以及元数据,元数据包括每个图像的各种美学评分、多个类别(例如,超过60个类别)的语义标签以及与摄影风格相关的标签。
111.在一个或更多个实施方式中,机器学习系统214被配置成生成与ava图像510相对
应的特征向量(例如,特征524)。如上所述,特征向量可以指示颜色均值/标准偏差、颜色直方图、局部二进制模式和/或gabor滤波器结果的相应值,但不限于此。可以至少部分地基于由ava数据库提供的元数据来生成特征向量。可替选地或另外地,可以至少部分地基于计算ava图像510的相应图像描述符(如上所述)来生成特征向量。
112.在一个或更多个实施方式中,标签512基于由ava数据库针对ava图像510提供的美学评分。如上所述,ava数据库可以包括每个图像的各个美学分数。标签512中的每一个可以对应于基于由ava数据库提供的美学分数中的一个或更多个的单个美学分数(例如,单个分数、平均分数、加权分数等)。在一个或更多个实施方式中,标签512中的每一个的美学分数落在预定义的范围内(例如,在1与10之间)。因此,机器学习算法508使用特征524和标签512来训练机器学习模型538。
113.对于新的图像数据(例如,视频帧530),机器学习系统214计算图像描述符并生成特征向量(例如,特征536),如上所述。机器学习模型538接收特征536作为输入,并提供对视频帧的子集534的评估540作为输出。例如,评估540对应于预定义范围内(例如,在1与10之间)的分数,其在格式上类似于上述对应于标签512的分数。消息收发系统100可以选择具有最高评估(例如,分数)的视频帧作为代表性帧。
114.在方法2的一个或更多个实施方式中,机器学习模型538对应于随机森林模型。例如,机器学习模型538对应于在决策树上使用梯度提升的catboost模型。可以已经基于ava图像510和标签512训练了catboost模型,以便生成评估540。
115.注意,ava图像510的域不同于视频帧530的域。如上所述,ava图像510与对应于第一域的ava数据库相关联。另一方面,视频帧530与对应于第二域的消息收发系统100相关联。在一个或更多个实施方式中,与第二域的视频帧530相比,第一域的ava图像510具有相对较高的图像质量。如下所讨论的算法3和4使得在第一域与第二域之间传递知识(例如,用于训练),而不必要求训练数据的大量标记(例如,手动标记)。
116.如上所述,通过利用除训练数据502之外的训练数据504,方法3建立在方法2之上。方法3可以对应于弱监督训练。训练数据504对应于与消息收发系统100(例如,第二域)相关联地存储的多个图像(例如,视频帧)。例如,视频帧存储在视频表316中,并且可以对应于消息、内容集合和/或用户存储器的视频内容。
117.在一个或更多个实施方式中,针对训练数据504选择的视频帧的量是预设的。例如,机器学习系统214可以从视频表316中抓取给定数量的视频。机器学习系统214可以从该组抓取的视频中随机选择预设数量的视频帧或预设百分比的视频帧(例如,10%)。
118.虽然未在图5中示出,但是机器学习系统214被配置成对所选择的视频帧进行弱标记。在一个或更多个实施方式中,机器学习系统214使用上述用于生成特征向量的方法来针对所选择的视频帧生成特征向量。机器学习系统214将所生成的特征向量作为输入提供给机器学习模型538,在这个阶段,已经预先用基于ava的训练数据502对机器学习模型538进行了训练。机器学习模型538基于特征向量提供相应的评估(例如,分数),从而对所选择的视频帧进行标记(例如,弱标记)。
119.此外,机器学习系统214被配置成降低所选择的视频帧的图像质量。例如,机器学习系统214从关于下采样/像素化、曝光(例如,高和/或低曝光)和高斯模糊的图像操作的排序中减去设定量。以这种方式,机器学习系统214能够针对所选择的视频帧确定(经修改的)
抓取的图像514和(经修改的)生成的标签516两者。机器学习系统214还可以使用上述用于生成特征向量的方法来确定(经修改的)抓取的图像514的特征526(例如,特征向量)。
120.机器学习系统214被配置成基于特征526和(经修改的)生成的标签516进一步训练机器学习模型538。在一个或更多个实施方式中,这样的训练可以包括原始未经修改版本的所选择视频帧的特征向量和弱标签。借助于按照方法3用训练数据504训练机器学习模型538,机器学习系统214可以用质量降低的图像显式地训练机器学习模型538。
121.在基于方法3的训练之后,机器学习模型538可以生成如上所述的关于新图像数据(例如,视频帧530)的评估540(例如,分数)。具有最高评估(例如,分数)的视频帧可以被选择作为代表性帧。
122.如上所述,通过利用除训练数据502和训练数据504之外的训练数据506,方法4建立在方法2和3的基础上。方法4可以对应于使用已标记的和未标记的(例如,其变成伪标记的)数据的自训练。训练数据506对应于与消息收发系统100(例如,第二域)相关联地存储的多个图像(例如,视频帧)。例如,视频帧存储在视频表316中,并且可以对应于消息、内容集合和/或用户存储器的视频内容。
123.在一个或更多个实施方式中,针对训练数据506选择的视频帧的量是预设的。例如,机器学习系统214可以从视频表316中抓取给定数量的视频。抓取的视频可以与上面关于方法3的抓取的视频相同、不同或至少部分不同。此外,机器学习系统214从该组抓取的视频中选择预设数量的视频帧(例如,1000帧)用于标记。
124.例如,进行标记可以由被提供特定图像偏好的指令的人手动执行。在一个或更多个实施方式中,图像偏好包括以下中的一个或更多个:视频帧的主体的居中;主体在视频帧中较大;主体在视频帧的前景中;主体具有优选的表情或特征(例如,微笑、睁开眼睛等);和/或视频帧中增加的颜色变化。因此,用标签520对所选择的视频帧进行标记。
125.除了用上述训练数据502和训练数据504训练机器学习模型538之外,机器学习系统214还使得基于已标记的数据来训练机器学习模型538。对于被标记的所选择的视频帧,机器学习系统214经由机器学习算法508用对应的特征向量训练机器学习模型538。
126.此外,机器学习系统214提供关于未标记数据(例如,抓取的视频内的最初未被选择的视频帧)的附加训练。机器学习系统214被配置成通过将那些未被选择的帧的对应特征向量提交给用已标记的数据训练的机器学习模型538来对未被选择的视频帧进行伪标记。机器学习模型538针对未被选择的视频帧提供对应于伪标签的评估(例如,分数)。
127.此外,机器学习系统214被配置成基于(针对被选择的和未被选择的视频帧的)特征528、标签520和伪标签522进一步训练机器学习模型538。借助于按照方法4利用训练数据506来训练机器学习模型538,机器学习系统214可以针对已标记和未标记的数据来对机器学习模型538进行自训练。
128.例如,机器学习系统214使得利用初始训练数据(例如,训练数据502、训练数据504和已标记的视频帧)来训练机器学习模型538。在这点上,机器学习模型538可以被视为教师来针对未标记的图像生成伪标签522。然后,基于已标记图像(例如,标签520)和未标记图像(伪标签522)的组合,将机器学习模型538作为学生进行训练,然后通过将学生视为教师来迭代训练。在学生学习期间,机器学习系统214可以向学生注入噪声(例如,诸如随机增强的图像噪声和/或诸如增加的辍学率、交叉熵损失的模型噪声),使得学生可以比教师更好地
概括。
129.虽然方法4被描述为建立在方法2和3的基础上,但是方法4也可以被实现为仅建立在方法2的基础上(即,不使用方法3)。在这样的情况下,机器学习算法508将通过使用训练数据502和训练数据506来训练机器学习模型538,而不使用训练数据504。
130.在基于方法4的训练之后,机器学习模型538可以生成如上所述的关于新图像数据(例如,视频帧530)的评估540(例如,分数)。关于视频帧中的主体,机器学习系统214可以至少部分基于上述对象识别算法来检测主体。具有最高评估(例如,分数)的视频帧可以被选择作为代表性帧。
131.虽然上述示例涉及选择视频(例如,对应于视频帧530)的缩略图图像,但所选择的代表性帧可以用于不同目的。作为非限制性示例,所选择的帧可以用于以下中的一个或更多个:视频的视觉标记;对视频的突出显示的部分进行标记;相对于其他视频对该视频进行排序以用于视频编辑;地图界面内视频的内容管理;或者基于多个帧(例如,一组具有高排序的连续帧,或者一组与最高排序的帧相邻的帧)生成动画缩略图。
132.借助于使用上述方法的训练,可以减少经由机器学习算法508训练机器学习模型538所需的标记量。例如,代替需要对大量视频(例如,数百万个)进行手动标记(例如,通过人工注释),本文描述的弱标记和自训练允许对少量视频(例如,数百个或数千个)进行手动标记。减少标记量又可以减少训练机器学习模型所需的资源(例如,计算机资源和/或人力)。
133.图6a示出了根据一些示例实施方式的使用不同选择方法选择的代表性视频帧的示例。在图6a的示例中,包括多个视频帧的视频作为输入被提供给机器学习模型538。在一个或更多个实施方式中,视频帧602对应于视频的第一视频帧。另一方面,视频帧604、视频帧606、视频帧608和视频帧610分别对应于使用方法1、方法2、方法3和方法4选择的代表性视频帧(例如,具有最高分数的视频帧)。
134.此外,图像602至610中的每一个都描绘了方法3分数622和方法4分数624。例如,方法3分数622对应于如由机器学习模型538关于方法3计算的相应图像的评估(例如,分数)。注意,该评估用于确定由方法3选择的代表性视频帧,即视频帧608。方法4分数624对应于如由机器学习模型538关于方法4计算的相应图像的评估(例如,分数)。该评估用于确定由方法4选择的代表性视频帧,即视频帧610。
135.如图6a的示例所示,分别由方法3和方法4选择的视频帧608和视频帧610看起来代表视频。然而,由方法4选择的视频帧610使手指居中并指向视频的主体(例如,描绘的购物项目)。另一方面,图像602至606可能不具有代表性,例如,由于如上所述的主体的位置/可见度、模糊(未示出)和/或其他不期望的图像质量/偏好特征。
136.图6b示出了根据一些示例实施方式的使用不同选择方法选择的代表性视频帧的其他示例。在图6b的示例中,包括多个视频帧的视频作为输入被提供给机器学习模型538。在一个或更多个实施方式中,视频帧612对应于视频的第一视频帧。另一方面,图像614至620分别对应于使用方法1至4选择的代表性视频帧(例如,具有最高分数的视频帧)。
137.此外,图像612至620中的每一个描绘了方法3分数626和方法4分数628。例如,方法3分数626对应于如由机器学习模型538关于方法3计算的相应图像的评估(例如,分数)。注意,使用该评估来确定由方法3选择的代表性视频帧,即视频帧618。方法4分数628对应于如
由机器学习模型538关于方法4计算的相应图像的评估(例如,分数)。使用该评估来确定由方法4选择的代表性视频帧,即视频帧620。
138.如图6b的示例所示,由方法4选择的视频帧620看起来代表视频。例如,方法4展示了对睁开眼睛、最小面部遮挡和图像静止的偏好。另一方面,图像612至616可能不具有代表性,例如,由于如上所述的主体的位置/可见度、模糊(未示出)和/或其他不期望的图像质量/偏好特征。
139.图7是示出了根据一些示例实施方式的使用机器学习来选择代表性视频帧的过程700的流程图。出于说明的目的,本文主要参照图2和图5的机器学习系统214来描述过程700。然而,过程700的一个或更多个块(或操作)可以由一个或更多个其他部件和/或其他合适的设备来执行。进一步出于说明的目的,过程700的块(或操作)在本文被描述为串行或线性发生。然而,过程700的多个块(或操作)可以并行或同时发生。此外,过程700的块(或操作)不需要按照所示的顺序执行,以及/或者过程700的一个或更多个块(或操作)不需要执行和/或可以由其他操作代替。当过程700的操作完成时,过程700可以终止。此外,过程700可以对应于方法、程序、算法等。
140.机器学习系统214接收与视频相对应的视频帧集合(块702)。机器学习系统214通过从视频帧集合中移除在图像质量阈值之外的那些视频帧来确定视频帧的第一子集(框704)。
141.确定视频帧的第一子集可以包括针对视频帧集合中的每个视频帧应用与视频帧的亮度、锐度、均匀性和模糊度相关的相应图像量化符,以及从视频帧集合中移除相对于相应图像量化符中的每个图像量化符在预设阈值以上或以下的那些视频帧。
142.机器学习系统214通过从视频帧的第一子集中移除在图像静止阈值之外的那些视频帧来确定视频帧的第二子集(块706)。确定视频帧的第二子集可以包括在视频帧的第一子集中的连续视频帧之间计算与逐像素帧差异相对应的相应静止值,以及基于相应静止值从视频帧的第一子集中移除预设量的视频帧。
143.机器学习系统214计算视频帧的第二子集中的每个视频帧的特征数据(例如,特征向量)(块708)。机器学习系统214针对视频帧的第二子集中的每个视频帧将该视频帧的特征数据作为输入提供给机器学习模型(块710)。机器学习模型被配置成基于视频帧的特征数据输出视频帧的第二子集中的每个视频帧的分数,其中已经用基于图像美学来标记的第一图像集合对机器学习模型进行了训练,并且已经用基于图像质量来标记的第二图像集合进一步对该机器学习模型进行了训练,第一图像集合和第二图像集合与不同的域相关联。
144.与第一图像集合相关联的域可以对应于美学视觉分析(ava)数据库。视频可以被与消息收发应用相关联地存储,并且与第二图像集合相关联的域可以对应于消息收发应用,第二图像集合对应于与消息收发应用相关联地存储的附加视频。第二图像集合可以对应于与消息收发应用相关联地存储的附加视频中的随机选择的视频帧。
145.机器学习模型的训练可以包括执行基于第一图像集合来训练机器学习模型的第一阶段,将第二图像集合作为输入提供给在训练的第一阶段中经训练的机器学习模型,以便对第二图像集合进行标记,通过降低第二图像集合的图像质量来生成第三图像集合,以及执行基于已标记的第二图像集合和第三图像集合来训练机器学习模型的第二阶段。降低第二图像集合的图像质量基于以下中至少之一:第二图像集合的下采样、调整曝光或高斯
模糊。
146.机器学习模型的训练还可以包括:执行基于与消息收发应用相关联地存储的其他视频内包括的图像的已标记子集来训练机器学习模型的第三阶段,向已经通过第三阶段训练的被训练的机器学习模型提供包括在其他视频内的图像的未标记子集,以便对视频帧的未标记子集进行伪标记,以及执行基于图像的已标记子集和图像的伪标记子集来训练机器学习模型的第四阶段。图像的已标记子集可以已经基于针对以下中至少之一的偏好进行了标记:图像的主体居中、主体较大、主体在前景中或主体具有预定义表情或特征。
147.机器学习系统214基于机器学习模型输出的分数,从视频帧的第二子集中选择视频帧来代表该视频帧集合(块710)。所选择的视频帧可以对应于代表该视频帧集合的缩略图图像。可替选地或另外地,所选择的视频帧可以用于以下中至少之一:视频的视觉标记、对视频的突出显示部分进行标记、相对于其他视频对视频进行排序以用于视频编辑、地图界面内的视频的内容管理、或基于被选择来呈现该视频帧集合的其他视频帧生成动画缩略图。
148.图8是示出访问限制过程800的示意图,根据该访问限制过程,对内容(例如,短暂消息802和相关联的数据的多媒体有效载荷)或内容集合(例如,短暂消息组804)的访问可以是时间受限的(例如,使得是短暂的)。
149.短暂消息802被示出为与消息持续时间参数806相关联,消息持续时间参数806的值确定消息收发客户端104将向短暂消息802的接收用户显示短暂消息802的时间量。在一个示例中,取决于发送用户使用消息持续时间参数806指定的时间量,接收用户可查看短暂消息802长达最多10秒。
150.消息持续时间参数806和消息接收者标识符424被示出为消息定时器810的输入,该消息定时器810负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息802的时间量。特别地,仅在由消息持续时间参数806的值确定的时间段内向相关接收用户示出短暂消息802。消息定时器810被示出为向更一般化的短暂定时器系统202提供输出,该短暂定时器系统202负责向接收用户显示内容(例如,短暂消息802)的总体定时。
151.短暂消息802在图8中被示出为被包括在短暂消息组804(例如,个人故事或事件故事中的消息的集合)内。短暂消息组804具有相关联的组持续时间参数808,该组持续时间参数808的值确定短暂消息组804被呈现并可由消息收发系统100的用户访问的持续时间。例如,组持续时间参数808可以是音乐会的持续时间,其中短暂消息组804是关于该音乐会的内容的集合。可替选地,当执行短暂消息组804的设置和创建时,用户(拥有用户或策展者用户)可以指定组持续时间参数808的值。
152.另外,短暂消息组804内的每个短暂消息802具有相关联的组参与参数812,该组参与参数812的值确定在短暂消息组804的上下文内可访问短暂消息802的持续时间。因此,特定的短暂消息组804可以在短暂消息组804本身根据组持续时间参数808到期之前在短暂消息组804的上下文中“到期”并且变得不可访问。组持续时间参数808、组参与参数812和消息接收者标识符424各自向组定时器814提供输入,该组定时器814可操作地首先确定短暂消息组804中的特定短暂消息802是否将被显示给特定接收用户,并且如果为是,则确定显示多长时间。注意,由于消息接收者标识符424,短暂消息组804也知道特定接收用户的身份。
153.因此,组定时器814可操作地控制相关联的短暂消息组804以及短暂消息组804中
包括的单独的短暂消息802的总使用期限。在一个示例中,短暂消息组804内的每个短暂消息802在由组持续时间参数808指定的时间段内保持可查看和可访问。在另一示例中,在短暂消息组804的上下文内,某个短暂消息802可以基于组参与参数812而到期。注意,即使在短暂消息组804的上下文内,消息持续时间参数806也仍然可以确定向接收用户显示特定短暂消息802的持续时间。因此,消息持续时间参数806确定向接收用户显示特定短暂消息802的持续时间,而不管接收用户是在短暂消息组804的上下文之内还是之外查看该短暂消息802。
154.短暂定时器系统202还可以基于确定已经超过相关联的组参与参数812而从短暂消息组804中可操作地移除该特定的短暂消息802。例如,在发送用户已经建立了从发布起24小时的组参与参数812的情况下,短暂定时器系统202将在指定的24小时之后从短暂消息组804中移除相关的短暂消息802。短暂定时器系统202还进行操作以在针对短暂消息组804内的每个短暂消息802的组参与参数812已经到期时,或者在短暂消息组804本身根据组持续时间参数808已经到期时,移除短暂消息组804。
155.在某些使用情况下,特定短暂消息组804的创建者可以指定无期限的组持续时间参数808。在这种情况下,针对短暂消息组804内最后剩余的短暂消息802的组参与参数812的到期将确定短暂消息组804本身何时到期。在这种情况下,添加至短暂消息组804的具有新的组参与参数812的新的短暂消息802有效地将短暂消息组804的寿命延长到等于组参与参数812的值。
156.响应于短暂定时器系统202确定短暂消息组804已经到期(例如,不再是可访问的),短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信,以使与相关短暂消息组804相关联的标记(例如,图标)不再显示在消息收发客户端104的用户界面内。类似地,当短暂定时器系统202确定针对特定短暂消息802的消息持续时间参数806已经到期时,短暂定时器系统202使消息收发客户端104不再显示与短暂消息802相关联的标记(例如,图标或文本标识)。
157.图9是机器900的图形表示,在该机器900内可以执行用于使机器900执行本文所讨论的方法中的任何一个或更多个方法的指令910(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令910可以使机器900执行本文中描述的方法中的任何一种或更多种。指令910将通用的未编程的机器900转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器900。机器900可以作为独立设备操作或者可以耦接(例如,联网)至其他机器。在联网的部署中,机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器900可以包括但不限于:服务器计算机、客户端计算机、个人计算机(pc)、平板计算机、膝上型计算机、上网本、机顶盒(stb)、个人数字助理(pda)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器900采取的动作的指令910的任何机器。此外,虽然仅示出了单个机器900,但是术语“机器”也应当被认为包括单独地或联合地执行指令910以执行本文中讨论的方法中的任何一种或更多种的机器的集合。例如,机器900可以包括客户端设备102或者形成消息收发服务器系统108的一部分的多个服务器设备中的任何一个。在一些示例中,机器900还可以包
括客户端系统和服务器系统两者,其中特定方法或算法的某些操作在服务器侧执行,并且所述特定方法或算法的某些操作在客户端侧执行。
158.机器900可以包括可以被配置成经由总线940彼此通信的处理器904、存储器906和输入/输出(i/o)部件902。在示例中,处理器904(例如,中央处理单元(cpu)、精简指令集计算(risc)处理器、复杂指令集计算(cisc)处理器、图形处理单元(gpu)、数字信号处理器(dsp)、专用集成电路(asic)、射频集成电路(rfic)、另外的处理器或其任何合适的组合)可以包括例如执行指令910的处理器908和处理器912。术语“处理器”旨在包括多核处理器,所述多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时被称为“核”)。尽管图9示出了多个处理器904,但是机器900可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任何组合。
159.存储器906包括主存储器914、静态存储器916和存储单元918,所述主存储器914、静态存储器916和存储单元918均可由处理器904经由总线940访问。主存储器906、静态存储器916和存储单元918存储实现本文中描述的方法或功能中的任何一种或更多种的指令910。指令910在其被机器900执行期间还可以完全地或部分地驻留在主存储器914内、在静态存储器916内、在存储单元918内的机器可读介质920内、在处理器904中的至少一个处理器内(例如,在处理器的高速缓存存储器内)、或者在其任何合适的组合内。
160.i/o部件902可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的具体i/o部件902将取决于机器的类型。例如,便携式机器诸如移动电话可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。将理解,i/o部件902可以包括图9中未示出的许多其他部件。在各种示例中,i/o部件902可以包括用户输出部件926和用户输入部件928。用户输出部件926可以包括视觉部件(例如,诸如等离子显示面板(pdp)、发光二极管(led)显示器、液晶显示器(lcd)、投影仪或阴极射线管(crt)的显示器)、听觉部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号发生器等。用户输入部件928可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸姿势的定位和力的触摸屏或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
161.在其他示例中,i/o部件902可以包括生物识别部件930、运动部件932、环境部件934、或位置部件936以及各种其他部件。例如,生物识别部件930包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件932包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
162.环境部件934包括例如一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如,检测附近对象的红外传感器)、气体
传感器(例如,用于出于安全而检测危险气体的浓度或用于测量大气中的污染物的气体检测传感器)或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
163.关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频,这些图像类似地使用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360
°
照片和视频的360
°
摄像装置。
164.此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感应摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
165.位置部件936包括定位传感器部件(例如,gps接收器部件)、海拔传感器部件(例如,检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如,磁力计)等。
166.可以使用各种技术来实现通信。i/o部件902还包括通信部件938,该通信部件938可操作以经由相应的耦接或连接将机器900耦接至网络922或设备924。例如,通信部件938可以包括与网络922接口的网络接口部件或另一合适的设备。在另外的示例中,通信部件938可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(nfc)部件、938可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(nfc)部件、部件(例如,低能耗)、部件以及经由其他模态提供通信的其他通信部件。设备924可以是其他机器或各种外围设备中的任何外围设备(例如,经由usb耦接的外围设备)。
167.此外,通信部件938可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件938可以包括射频识别(rfid)标签阅读器部件、nfc智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品代码(upc)条形码的一维条形码、诸如快速反应(qr)码、aztec码、数据矩阵、数据符号(dataglyph)、最大码(maxicode)、pdf417、超码(ultra code)、ucc rss-2d条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件938得出各种信息,例如经由因特网协议(ip)地理位置的位置、经由信号三角测量的位置、经由检测可以指示特定位置的nfc信标信号的位置等。
168.各种存储器(例如,主存储器914、静态存储器916以及处理器904的存储器)以及存储单元918可以存储由本文中描述的方法或功能中的任何一种或更多种实施或使用的指令和数据结构(例如,软件)中的一个或更多个集合。这些指令(例如,指令910)在由处理器904执行时使各种操作实现所公开的示例。
169.可以经由网络接口设备(例如,通信部件938中包括的网络接口部件)使用传输介质并且使用若干公知的传输协议中的任何一个传输协议(例如,超文本传输协议(http))通过网络922来发送或接收指令910。类似地,可以使用传输介质经由与设备924的耦接(例如,对等耦接)来发送或接收指令910。
170.图10是示出可以安装在本文中描述的设备中的任何一个或更多个设备上的软件架构1004的框图1000。软件架构1004由硬件诸如包括处理器1020、存储器1026和i/o部件1038的机器1002支持。在该示例中,软件架构1004可以被概念化为层的堆栈,其中每个层提供特定功能。软件架构1004包括诸如操作系统1012、库1010、框架1008和应用1006的层。在操作上,应用1006通过软件堆栈来调用api调用1050并且响应于api调用1050接收消息1052。
171.操作系统1012管理硬件资源并且提供公共服务。操作系统1012包括例如核1014、服务1016和驱动器1022。核1014充当硬件层与其他软件层之间的抽象层。例如,核1014提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置等功能。服务1016可以为其他软件层提供其他公共服务。驱动器1022负责控制底层硬件或与底层硬件接口。例如,驱动器1022可以包括显示驱动器、摄像装置驱动器、或低功耗驱动器、闪存驱动器、串行通信驱动器(例如,usb驱动器)、驱动器、音频驱动器、电力管理驱动器等。
172.库1010提供由应用1006使用的公共低级基础设施。库1010可以包括系统库1018(例如,c标准库),该系统库提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外,库1010可以包括api库1024,例如媒体库(例如,用于支持各种媒体格式的呈现和操纵的库,所述各种媒体格式例如运动图像专家组-4(mpeg4)、高级视频编码(h.264或avc)、运动图像专家组-3(mp3)、高级音频编码(aac)、自适应多速率(amr)音频编解码器、联合图像专家组(jpeg或jpg)或便携式网络图形(png))、图形库(例如,用于在显示器上的图形内容中以二维(2d)和三维(3d)渲染的opengl框架)、数据库库(例如,提供各种关系数据库功能的sqlite)、web库(例如,提供web浏览功能的webkit)等。库1010还可以包括各种其他库1028,以向应用1006提供许多其他api。
173.框架1008提供由应用1006使用的公共高级基础设施。例如,框架1008提供各种图形用户界面(gui)功能、高级资源管理以及高级位置服务。框架1008可以提供可以由应用1006使用的广泛的其他api,其中的一些api可以特定于特定的操作系统或平台。
174.在示例中,应用1006可以包括家庭应用1036、联系人应用1030、浏览器应用1032、书籍阅读器应用1034、定位应用1042、媒体应用1044、消息收发应用1046、游戏应用1048和例如第三方应用1040的各种各样的其他应用。应用1006是执行程序中限定的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1006中的一个或更多个,编程语言例如面向对象的编程语言(例如,objective-c、java或c++)或过程编程语言(例如,c语言或汇编语言)。在特定示例中,第三方应用1040(例如,由特定平台的供应商以外的实体使用android
tm
或ios
tm
软件开发工具包(sdk)开发的应用)可以是在诸如ios
tm
、android
tm
、phone的移动操作系统或另外的移动操作系统上运行的移动软件。在该示例中,第三方应用1040可以激活由操作系统1012提供的api调用1050以便于本文中描述的功能。
175.术语表
[0176]“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以便于这些指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。
[0177]“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(pda)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
[0178]“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(vpn)、局域网(lan)、无线lan(wlan)、广域网(wan)、无线wan(wwan)、城域网(man)、因特网、因特网的一部分、公共交换电话网(pstn)的一部分、普通老式电话服务(pots)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(cdma)连接、全局移动通信系统(gsm)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xrtt)、演进数据优化(evdo)技术、通用分组无线电服务(gprs)技术、增强数据速率的gsm演进(edge)技术、包括3g的第三代合作伙伴计划(3gpp)、第四代无线(4g)网络、通用移动电信系统(umts)、高速分组接入(hspa)、全球微波接入互操作性(wimax)、长期演进(lte)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
[0179]“部件”是指具有以下边界的设备、物理实体或逻辑,该边界由功能或子例程调用、分支点、api或者对特定处理或控制功能提供分区或模块化的其他技术定义。部件可以经由它们的接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的封装功能硬件单元,以及通常执行相关功能的特定功能的程序的一部分。部件可以构成软件部件(例如,体现在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为进行操作以执行如本文中描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是例如现场可编程门阵列(fpga)或专用集成电路(asic)的专用处理器。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,则硬件部件成为被唯一地定制成执行所配置的功能的特定机器(或机器的特定部件)并且不再是通用处理器。应当认识到,可以出于成本和时间考虑来决定是机械地在专用且永久配置的电路系统中实现硬件部件还是在临时配置(例如,通过软件配置)的电路系统中实现硬件部件。因此,短语“硬件部件”(或“硬件实现的部件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处被配置为各自不同的专用处理器(例如,包括不同的硬件部
件)。软件相应地配置特定的一个或多个处理器,以例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过在两个或更多个硬件部件之间或之中(例如,通过适当的电路和总线)的信号传输来实现通信。在多个硬件部件在不同时间被配置或实例化的示例中,可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在与其通信地耦接的存储器设备中。然后,另外的硬件部件可以在随后的时间访问存储器设备,以检索所存储的输出并对其进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。在本文中描述的示例方法的各种操作可以至少部分地由临时地配置(例如,通过软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是永久地配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,在本文中描述的方法可以至少部分地由处理器实现,其中,特定的一个或多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或更多个处理器1004或者处理器实现的部件来执行。此外,一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(saas)操作。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中这些操作可经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,api)来访问。某些操作的执行可以分布在处理器之间,不仅驻留在单个机器内,而且跨多个机器部署。在一些示例中,处理器或处理器实现的部件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例中,处理器或处理器实现的部件可以跨多个地理定位分布。
[0180]“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。
[0181]“短暂消息”是指在时间有限的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,该消息都是暂态的。
[0182]“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的缓存和服务器)。因此,该术语应当被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、fpga和闪存设备;磁盘,例如内部硬盘和可移除盘;磁光盘;以及cd-rom和dvd-rom盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
[0183]“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
[0184]“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以有助于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”意指相同的事物,并且可以在本公开内容中互换使用。

技术特征:
1.一种方法,包括:接收与视频相对应的视频帧集合;通过从所述视频帧集合中移除在图像质量阈值之外的那些视频帧来确定视频帧的第一子集;通过从所述视频帧的第一子集中移除在图像静止阈值之外的那些视频帧来确定视频帧的第二子集;计算所述视频帧的第二子集中的每个视频帧的特征数据;针对所述视频帧的第二子集中的每个视频帧将所述视频帧的特征数据作为输入提供给机器学习模型,其中,所述机器学习模型被配置成基于所述视频帧的特征数据来输出所述视频帧的第二子集中的每个视频帧的分数,其中已经用基于图像美学来标记的第一图像集合对所述机器学习模型进行了训练,并且已经用基于图像质量来标记的第二图像集合进一步对所述机器学习模型进行了训练,所述第一图像集合和所述第二图像集合与不同的域相关联;以及基于由所述机器学习模型输出的分数,从所述视频帧的第二子集中选择视频帧来代表所述视频帧集合。2.根据权利要求1所述的方法,其中,确定所述视频帧的第一子集包括:针对所述视频帧集合中的每个视频帧,应用与所述视频帧的亮度、锐度、均匀性和模糊度相关的相应图像量化符;以及从所述视频帧集合中移除相对于所述相应图像量化符中的每个图像量化符在预设阈值以上或以下的那些视频帧。3.根据权利要求1所述的方法,其中,确定所述视频帧的第二子集包括:在所述视频帧的第一子集中的连续视频帧之间计算与逐像素帧差异相对应的相应静止值;以及基于所述相应静止值,从所述视频帧的第一子集中移除预设量的视频帧。4.根据权利要求1所述的方法,其中,与所述第一图像集合相关联的域对应于美学视觉分析(ava)数据库,其中,所述视频被与消息收发应用相关联地存储,并且其中,与所述第二图像集合相关联的域对应于所述消息收发应用,所述第二图像集合对应于与所述消息收发应用相关联地存储的附加视频。5.根据权利要求4所述的方法,其中,所述第二图像集合对应于与所述消息收发应用相关联地存储的所述附加视频中的随机选择的视频帧。6.根据权利要求4所述的方法,其中,所述机器学习模型的训练包括:执行基于所述第一图像集合来训练所述机器学习模型的第一阶段;将所述第二图像集合作为输入提供给在训练的所述第一阶段中经训练的所述机器学习模型,以便对所述第二图像集合进行标记;通过降低所述第二图像集合的图像质量来生成第三图像集合;以及执行基于已标记的第二图像集合和所述第三图像集合来训练所述机器学习模型的第二阶段。7.根据权利要求6所述的方法,其中,降低所述第二图像集合的图像质量基于以下中至
少之一:所述第二图像集合的下采样、调整曝光或高斯模糊。8.根据权利要求6所述的方法,其中,所述机器学习模型的训练还包括:执行基于与所述消息收发应用相关联地存储的其他视频内包括的图像的已标记子集来训练所述机器学习模型的第三阶段;向已经通过所述第三阶段的训练被训练的所述机器学习模型提供包括在所述其他视频内的图像的未标记子集,以便对视频帧的所述未标记子集进行伪标记;以及执行基于所述图像的已标记子集和所述图像的伪标记子集来训练所述机器学习模型的第四阶段。9.根据权利要求8所述的方法,其中,所述图像的已标记子集已经基于针对以下中至少之一的偏好进行了标记:所述图像的主体居中、所述主体较大、所述主体在前景中或所述主体具有预定义表情或特征。10.根据权利要求1所述的方法,其中,所选择的视频帧对应于代表所述视频帧集合的缩略图图像。11.根据权利要求1所述的方法,其中,所选择的视频帧用于以下中至少之一:所述视频的视觉标记、对所述视频的突出显示部分进行标记、相对于其他视频对所述视频进行排序以用于视频编辑、地图界面内的视频的内容管理、或者基于被选择来呈现所述视频帧集合的其他视频帧生成动画缩略图。12.一种系统,包括:处理器;和存储指令的存储器,所述指令在由所述处理器执行时将所述处理器配置成执行操作,所述操作包括:接收与视频相对应的视频帧集合;通过从所述视频帧集合中移除在图像质量阈值之外的那些视频帧来确定视频帧的第一子集;通过从所述视频帧的第一子集中移除在图像静止阈值之外的那些视频帧来确定视频帧的第二子集;计算所述视频帧的第二子集中的每个视频帧的特征数据;针对所述视频帧的第二子集中的每个视频帧将所述视频帧的特征数据作为输入提供给机器学习模型,其中,所述机器学习模型被配置成基于所述视频帧的特征数据输出所述视频帧的第二子集中的每个视频帧的分数,其中已经用基于图像美学来标记的第一图像集合对所述机器学习模型进行了训练,并且已经用基于图像质量来标记的第二图像集合进一步对所述机器学习模型进行了训练,所述第一图像集合和所述第二图像集合与不同的域相关联;以及基于由所述机器学习模型输出的分数,从所述视频帧的第二子集中选择视频帧来代表所述视频帧集合。13.根据权利要求12所述的系统,其中,确定所述视频帧的第一子集包括:针对所述视频帧集合中的每个视频帧,应用与所述视频帧的亮度、锐度、均匀性和模糊度相关的相应图像量化符;以及从所述视频帧集合中移除相对于所述相应图像量化符中的每个图像量化符在预设阈
值以上或以下的那些视频帧。14.根据权利要求12所述的系统,其中,确定所述视频帧的第二子集包括:在所述视频帧的第一子集中的连续视频帧之间计算与逐像素帧差异相对应的相应静止值;以及基于所述相应静止值,从所述视频帧的第一子集中移除预设量的视频帧。15.根据权利要求12所述的系统,其中,与所述第一图像集合相关联的域对应于美学视觉分析(ava)数据库,其中,所述视频被与消息收发应用相关联地存储,并且其中,与所述第二图像集合相关联的域对应于所述消息收发应用,所述第二图像集合对应于与所述消息收发应用相关联地存储的附加视频。16.根据权利要求15所述的系统,其中,所述第二图像集合对应于与所述消息收发应用相关联地存储的所述附加视频中的随机选择的视频帧。17.根据权利要求15所述的系统,其中,所述机器学习模型的训练包括:执行基于所述第一图像集合来训练所述机器学习模型的第一阶段;将所述第二图像集合作为输入提供给在训练的所述第一阶段中经训练的所述机器学习模型,以便对所述第二图像集合进行标记;通过降低所述第二图像集合的图像质量来生成第三图像集合;以及执行基于已标记的第二图像集合和所述第三图像集合来训练所述机器学习模型的第二阶段。18.根据权利要求17所述的系统,其中,降低所述第二图像集合的图像质量基于以下中至少之一:所述第二图像集合的下采样、调整曝光或高斯模糊。19.根据权利要求17所述的系统,其中,所述机器学习模型的训练还包括:执行基于与所述消息收发应用相关联地存储的其他视频内包括的图像的已标记子集来训练所述机器学习模型的第三阶段;向已经通过所述第三阶段的训练被训练的所述机器学习模型提供包括在所述其他视频内的图像的未标记子集,以便对视频帧的所述未标记子集进行伪标记;以及执行基于所述图像的已标记子集和所述图像的伪标记子集来训练所述机器学习模型的第四阶段。20.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在由计算机执行时使所述计算机执行操作,所述操作包括:接收与视频相对应的视频帧集合;通过从所述视频帧集合中移除在图像质量阈值之外的那些视频帧来确定视频帧的第一子集;通过从所述视频帧的第一子集中移除在图像静止阈值之外的那些视频帧来确定视频帧的第二子集;计算所述视频帧的第二子集中的每个视频帧的特征数据;针对所述视频帧的第二子集中的每个视频帧将所述视频帧的特征数据作为输入提供给机器学习模型,其中,所述机器学习模型被配置成基于所述视频帧的特征数据输出所述视频帧的第二
子集中的每个视频帧的分数,其中已经用基于图像美学来标记的第一图像集合对所述机器学习模型进行了训练,并且已经用基于图像质量来标记的第二图像集合进一步对所述机器学习模型进行了训练,所述第一图像集合和所述第二图像集合与不同的域相关联;以及基于由所述机器学习模型输出的分数,从所述视频帧的第二子集中选择视频帧来代表所述视频帧集合。

技术总结
本公开内容的各方面涉及包括存储程序的介质的系统和基于机器学习选择代表性视频帧的方法。该程序和方法使得接收视频帧集合;通过移除图像质量阈值之外的帧来确定帧的第一子集;通过移除图像静止阈值之外的帧来确定第二子集;计算第二子集中的每个帧的特征数据;针对第二子集中的每一个帧将特征数据提供给机器学习模型(MLM),该MLM被配置成基于特征数据输出帧的第二子集中的每一个帧的分数,其中已经用基于美学来标记的第一图像集合和基于图像质量来标记的第二图像集合对MLM进行了训练;以及基于输出分数来选择帧。以及基于输出分数来选择帧。以及基于输出分数来选择帧。


技术研发人员:卡维亚
受保护的技术使用者:斯纳普公司
技术研发日:2021.12.16
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐