极光开发者大会:Video++张毅谈人工智能与消费级视频解析-行业资讯-康沃思物联-楼宇自控、智慧园区、IBMS

行业资讯

实时动态,深度解析,把握行业脉搏

行业资讯

实时动态,深度解析,把握行业脉搏

首页 > 新闻资讯 > 行业资讯

极光开发者大会:Video++张毅谈人工智能与消费级视频解析

发表时间:2023-03-13

2018年11月17日,首届极光开发者大会在深圳召开。 本次大会由国内领先的移动大数据服务平台极光大数据主办。 近千位互联网企业的技术负责人、合作伙伴和开发者齐聚一堂,围绕大数据、人工智能、移动开发等热点话题,共商移动开发的下半场,共建健康的开发者生态。

Video++ AI Lab负责人张毅博士作为人工智能分论坛的重要嘉宾出席了本次大会,并发表了“人工智能在消费者视频分析中的应用”的主题演讲。

人工智能在消费级视频分析中的应用

主讲人:张毅博士,Video++AI实验室负责人

大家好,我是Video++智能网络技术AI实验室的张毅。 今天要和大家分享的是人工智能在消费级视频分析领域的应用。

首先给大家解释一下什么是消费级视频。 消费级视频主要区别于工业级视频。 工业级视频主要是专业人士通过专业设备采集的视频。 最常见的工业级视频是监控视频。 相对来说,消费级视频就是我们平时用手机或者其他便携式图像采集设备生成制作的视频。 由于制作简单,传播方便,消费级视频的体量非常大。 如果人工智能技术可以用来发现消费级视频中的一些内容,其商业应用价值可以说是非常大的。

作为国内最大的在消费视频领域深耕AI技术的公司,Video++主要专注于AI在消费视频领域的技术研发和产业落地。 我们的主要工作是识别消费级视频中的相关内容,通过数据结构化识别不同维度的消费级视频内容,从而从时间和空间上定位出现目标。

1. 消费视频分析领域的技术框架

首先,让我介绍一下视频娱乐行业的一些基本概况。 视频娱乐行业主要有两个主体:视频流量平台和视频浏览者。 视频流量平台经历了多轮发展,从有线电视到视频点播平台,再到直播平台和短视频平台。 风口已经很多,但都面临一个痛点,就是如何利用视频流量变现盈利; 对于视频观看者来说,他们每天花费大量时间观看网络视频,对与视频更好的互动有需求。

正是基于以上两个需求,Video++希望成为视频娱乐行业的超级服务商。 不仅为视频流量平台提供相应的视频变现工具,还为终端客户提供视频交互工具。

截至目前,Video++已与国内头部流量平台建立深度合作,积累了约60%的视频用户。 由此,我们获得了大量的视频流量数据,为AI算法提供了必要的支持。

在Video++的主要技术框架中,核心是AI算法。 通过AI算法,我们可以输出视频中出现的目标的时间、空间等信息,包括它们的类别标签。 我们在AI算法的基础上,包含了一层,就是视频操作系统。 视频操作系统基于底层AI算法提供数据,从而为上层应用提供接口,然后可以在这个操作系统上开发广告、电子商务等各种应用。

那么AI是如何服务于视频内容识别的呢? 先从数据说起,这里主要涉及视觉数据。 视觉数据有几种类型:最基本的是图像,其次是视频,视频分为工业级视频和消费级视频。 Video++主要关注消费类视频领域。

消费级视频的第一个特点是数据量大。 据思科统计,截至2015年,互联网传输的数据中有70%是视频数据,到2020年,这一比例将达到80%。 与专业级视频相比,消费级视频由于制作简单、传播方便,在体量上具有绝对优势。 消费级视频的第二个特点是它们来自各种类别。 广义的消费级视频包括电影、电视剧、综艺、直播、短视频、广告等; 消费级视频的第三个特点是场景非常复杂,与第二个特点相辅相成。 消费级视频中经常会出现一些复杂的场景,比如摄像头切换变焦、特效植入、灯光变化、模糊、遮挡、旋转等,这些因素都对消费级视频的内容识别提出了更高的要求。

消费级视频的这些特点对系统提出了几个要求:第一,处理速度快; 第二,准确率高。

根据消费级视频的特点,我们设计了一个消费级视频内容识别的通用框架,主要分为五个步骤:第一是视频输入层,第二是视频处理层,第三是内容抽取层,第四层是语义融合层,第五层是数据输出层。 其中,内容提取层是核心识别步骤。

最后,我们会输出一个结构化的识别结果数据,主要包括视频的基本信息和目标轨迹列表。 目标轨迹列表又分为起始帧数、轨迹长度等时间标签、目标坐标列表等空间标签、目标类别标签等内容标签、识别结果置信度等。

2. 消费者视频分析的识别维度

我们目前可以识别人脸、场景、地标、物体、标识、情绪、动作和声音等多维内容。 作为补充,我们还做了视频内容检索。

在人脸识别的算法结构中,输入视频后,首先要做的是视频预处理,即镜头分割。 镜头分割完成后,进行内容提取。 对于人脸识别,内容提取主要是人脸检测框的获取和人脸ID的识别。 人脸检测框的获取分为人脸检测和人脸跟踪。 为了兼顾准确性和速度,我们首先需要在全局范围内进行人脸检测,检测完成后再进行跟踪。 跟踪时,我们会在跟踪框周围的一个小区域做一个局部检测,来修正人脸检测。 接下来是面部对齐和质量评估。 质量评估在视频识别中非常重要,因为视频中有大量冗余数据会干扰结果。 在质量评估之后,我们提取并比较特征以获得更好质量的样本。 比对之后,所有的特征都会生成一个识别标签智能视频分析,这个标签属于某个人。 在整个采样序列中,每一帧都会有一个识别结果。 为了融合识别结果,我们创建了融合机制。

在场景识别的算法结构中,还需要对输入视频进行分割和采样。 不像人脸识别,不需要做全序列采样,可能只做时间间隔采样。 在场景识别中,前期需要先对视频进行分类,比如是古装场景还是现代场景。 经过预处理后,进入卷积神经网络阶段。 卷积神经网络通过预训练不同的数据集得到不同的特征表示,最后将这些特征组合起来进行降维。 得到最终的特征表示后,我们会对不同的场景进行分类处理:比如高频场景、次要场景和新场景都有不同的处理方式。 最后,我们将融合识别结果。

在物体和标志的算法结构中,需要在多个尺度上提取特征,然后根据特征变化进行采样,最后进行特征融合。 在这个算法中,需要添加几个新的东西。 例如,要识别一个物体的运动轨迹,就必须对其进行跟踪; 并且相关对象的类型也需要针对结果进行优化。

在地标识别算法结构中,主要分为三个步骤:一是通过基础网络从输入图像中提取特征图,通过ROI、PCA白化等得到高维特征描述,然后利用kNN, MR 特征描述同理进行后处理。 此外,我们还可以通过数据增强来增强获得的特征。 我们自研的算法主要做了以下优化:首先,我们在基础网络上提取并融合了多层特征; 此外,我们还提取了一个多分辨率、多尺度的特征,可以用在通道上加权的不同特征中。

下面介绍视频检索,即按图查找视频的过程。 首先,我们通过视频下载、数据库存储、特征提取、特征排序等方式生成离线特征表示数据库,当用户的需求到来时,我们对用户输入的图片和视频进行特征提取、比对、排序、结构化展示。用户。 这是一个标准的检索过程。

在算法结构上,在用户输入后,我们通过神经卷积网络和索引得到初步的检索结果,然后通过精细检索进行排序和查询,最后输出镜头信息。 此外,我们还可以通过剧目、视频等信息进行分片检索,减轻检索的任务压力,同时提高算法的准确率。

除了算法,我们还做了一些工程。 在工程化过程中,我们主要解决了几个问题:首先,将算法并行化,以加快其运行速度; 其次,处理高并发,解决分布式系统和多任务调度问题; 最后是资源调度,算法切分和CPU+GPU配比; 最后是高优先级任务处理策略。

3. 消费级视频分析解决方案工具——Osmo

下面介绍视频结构化整体解决工具——Osmo 。 Osmo系统主要有几个功能:接收用户上传的视频,分析上传的视频,实时展示分析结果。 此外,Osmo系统的另一大功能是样本管理。 我们先收集原始样本,然后用原始样本进行训练,得到初始模型并上线。 上线后,我们可以手动审核并标记错误的输出,从而改进模型。

Osmo系统的主要应用场景之一是AI情景营销平台(ASMP)。 主要用于帮助广告主在流量平台投放广告。 AI情景营销平台不仅支持底层的语音信息,还支持一些高层的领域,比如场景。 一个场景中往往有很多语义元素,比如场景、物体、人脸等,不同的低级语义可以组合成很多高级场景。 广告主关注的是对应视频中出现对应商品的场景,Osmo系统可以帮助其自动找到视频中对应商品的场景进行自动投放。

另一个应用场景是人工智能内容审核平台(ACAP)。 内容审核主要分为几个方面:智能色情监控、智能暴力检测、识别政治敏感人物、涉毒涉政名人。 目前,视频中敏感因素的识别主要靠人工完成,耗费大量人力。 因此,对于视频平台来说,需要借助AI技术来替代部分人力进行内容审核。 虽然我们现有的人工智能识别技术还不能完全替代人类的劳动,但是假设我们的人工智能识别技术能够达到90%,至少可以替代大部分人类的工作。

4. 数据对人工智能的重要性

最后,我想强调数据对人工智能的重要性。 数据是人工智能的生命。 可以说没有数据就没有AI,任何AI算法都是以数据为基础的。

在设计人工智能算法的过程中,我们应该考虑以下问题:

1.什么样的训练数据是更好的数据?

2、常规的数据操作有哪些?

3、如何获取“高效”的数据?

4.数据管理工具的巨大作用?

3.3 典型企业竞争分析与回顾

3.3.1竞争分析

目前,我国智能安防在传统安防产业发展区域代表性的基础上,形成了以电子智能安防产品厂商聚集为特征的“珠三角”区域,以及以电子智能安防产品生产企业聚集为特征的“长三角”区域。由高科技和外资企业聚集。 以综合应用、软件、服务企业集聚为特征的“环渤海”地区三大产业集群,占我国安防产业的三分之二以上。 三大产业集群在产品方面各有优势。

图 安防行业三大产业集群

表产业集群的优势

3.4 中国重要竞争对手

中国智能安防行业部分上市公司名单

(一)海康威视(.SZ):

海康威视是一家以视频为核心的智能物联网解决方案和大数据服务商。 面向中小企业用户提供服务,致力于打造云与边缘、物与信息、数智融合的智慧城市和数字企业。 公司在全球拥有超过42,000名员工(截至2020年12月31日),其中研发人员和技术服务人员超过20,000人。 研发投入占全年营业收入(2020)的10.04%,绝对值位居行业首位。

(2) 大华(.SZ)

浙江大华科技股份有限公司是全球领先的以视频为核心的智能物联网解决方案提供商和运营服务商。 立足科技创新,围绕客户服务,持续构建全链路技术开放体系,全方位拓展。 物联网数据在城市级和企业级市场的应用和深度,为城市、企业、家庭的数字化转型提供一站式智能物联网服务和解决方案。

公司现拥有员工18000余人,其中研发人员占比超过50%。 公司每年将销售收入的10%左右投入研发,不断致力于技术创新。 下设先进技术研究院、大数据研究院、中央研究院、网络安全研究院、智慧城市研究院。 公司依托对智能物联网的深入洞察和布局,不断开拓新兴业务,延伸机器视觉、机器人、视频协作、智能无人机、智能消防、汽车科技、智能仓储、智能安检、智能显控、智能控制。 和其他创新业务。

(3) 通用技术:

()是全球AIoT产品、解决方案和全栈能力提供商,以物联网、人工智能、大数据和云计算技术为核心的领导者。 宇视九周年(2011-2020),营收增长18倍(3亿元→52.7亿元),2018年进入全球前4,研发技术人员占公司总人数的50% 有研发机构深圳、西安、济南、天津、武汉,全球智能制造基地桐乡。

宇视专利申请总量2500件,发明专利占比81%。 每天新增一项发明专利申请,涵盖光电、图像处理、机器视觉、大数据、云存储等多个维度。 我们每年将超过10%的收入投入研发,为可持续发展提供有力支持。 宇视推出AIoT大型操作系统IMOS,探索“ABCI”技术前沿,实现产品方案在大数据、人工智能、物联网等领域的持续应用。

(4)天地伟业

天地伟业是全球领先的智能安防解决方案提供商。 基于人工智能、大数据、云计算、物联网等技术,为公安、政法、交通、金融、教育、水利、环保等行业提供智能视频产品及系统解决方案和高优质的技术服务。 天地伟业以“放眼世界”为企业使命,产品远销全球60多个国家和地区,位居全球安防前10名。

天地伟业精于产品,专注于行业。 定位为“科技领先”企业。 建有“国家级企业技术中心”和“国家地方联合工程实验室”。 以及“中国软件百强企业”,通过了CMMI5软件成熟度认证。 公司拥有国家级模范院士专家工作站和博士后科研工作站。 主持和参与起草国家行业标准25项,拥有专利/软件著作权700余项。 先后承担国家发改委高技术产业化项目、国家科技支撑项目、国家重点研发计划项目等国家级科研项目获省部级科技奖励一等奖4项.

3.5 全球主要竞争对手

表全球主要竞争对手

(1) 亚萨合莱

该集团是访问控制解决方案的全球领导者。 产品和服务涵盖与开锁相关的产品和服务,如锁、门和入口自动化解决方案。 钥匙、卡片、标签、手机和生物识别认证系统也是产品的一部分。

ASSA ABLOY 通过创新的解决方案帮助数十亿人体验更加开放的世界,这些解决方案能够安全、可靠且轻松地访问物理和数字场所。 ASSA ABLOY 拥有世界上最大的锁具和访问控制解决方案安装基础,占销售额的很大份额。 亚萨合莱在欧洲大部分地区、南北美洲、亚洲和大洋洲均处于领先地位,在知名品牌中具有相当的价值。

2.博世BOSCH

博世是德国的工业公司之一,从事汽车和智能交通技术、工业技术、消费品以及能源和建筑技术等行业。 1886 年智能安防,25 岁​​的罗伯特博世先生在斯图加特创立公司时,将公司定位为“精密机械和电气工程工厂”。

博世总部位于德国南部的斯图加特,在 50 多个国家拥有超过 230,000 名员工。 博世以其创新和尖端的产品和系统解决方案而闻名于世。

博世为中国市场和用户提供汽车与智能交通、工业、消费品、能源与楼宇科技等领域的先进技术与解决方案,将“科技让生活美好”的理念深入贯彻和诠释在各项业务中领域。 截至2020年12月31日,博世在华经营56家公司,销售额1173亿元。 中国市场首次成为博世集团最大的单一市场,也是博世在德国以外拥有最多员工的国家。

(3) 轴

Axis成立于1984年,总部位于瑞典,在全球20个国家和地区设有分支机构,合作伙伴遍及70多个国家和地区。

Axis 是一家专门提供和实施网络视频解决方案的 IT 公司。 作为网络视频解决方案的全球领导者,安讯士一直致力于推动传统模拟视频监控技术向数字视频监控技术的演进。 安讯士的产品和解决方案基于创新和开放的技术平台,始终专注于安防监控和远程监控应用。

(4) 安朗格

艾伦(纽约证券交易所股票代码:ALLE)是全球领先的集门禁硬件、电子门禁、生物识别和智能物联网于一体,集研发、生产、销售和服务为一体的专业门禁安防产品。 和解决方案提供商。 致力于引领门控安防市场,拥有一支充满激情的专业团队,为客户和合作伙伴提供创新的机械和电子门控安防解决方案,打造卓越的用户体验。

凭借专业的知识、经验、产品和服务,艾朗格得到了国内外众多高端客户的认可和信赖。 客户群涵盖高端住宅、金融、医院、酒店、商业、交通和学校等行业。 作为门控安防行业的高端品牌,艾朗格对产品的研发和制造提出了严格的要求。艾朗格的产品经过了各种严苛的测试,甚至高于美标、欧标和国标的研发要求, 设计制造

(5) 韩华

韩华成立于1977年,拥有世界领先的光学制造和视频处理技术。 公司拥有完整的监控摄像头(CCTV)、存储设备、综合管理软件等产品线,为城市安防、道路、机场、港口、工业设施、军事保护区等各个领域提供最优安防解决方案。

公司基于30多年积累的核心技术竞争力,形成了满足客户多元化需求的产品阵容,面对生活环境和产业模式的变化,通过以下方式巩固了全球领先地位:领先一步的技术研究。

目前,公司在韩国、中国、越南设有生产基地,年均生产监控摄像机(CCTV)超过270万台。 在全球市场建立了16000多个销售网点,占全部销售额的75%,并积极开展营销活动。

第四章未来行业展望

2014年以来,“消费”在我国经济结构中的地位逐步提升,成为拉动国民经济增长的重要动力。 中国居民人均可支配收入和消费支出逐步增加,恩格尔系数整体下降。 虽然疫情暂时影响了居民消费支出的规模和结构,但从长远看,国民消费能力明显增强,消费结构优化。 在国民消费能力提升、消费结构升级的经济环境下,安全性更高的智能家居安防产品逐渐被大众所接受。

图 中国居民人均可支配收入和人均消费支出

在国家智慧城市和信息化、数字化、人工智能化发展的推动下,传统安防企业的生产逐渐向智能安防领域转移。 从目前智能安防设备三大细分领域的十大品牌排名来看,海尔智能锁、霍尼韦尔安防和海康威视分别占据智能门锁、智能防盗和智能监控领域的前列品牌。 在智能防盗报警和智能视频监控两大领域,海康威视、霍尼韦尔安防、博世安防和大华均榜上有名。

联系我们

电话
0791-86572999
邮箱
sales@ctrlworks.cn
微信客服
添加微信好友×
微信号:ctrlworks-cn