人工智能也可输出视频“不雅后感”：增加时间标准建模品牌箱包货拉客微商论坛

货拉客 发表于 2024-3-1 13:16:56

人工智能也可输出视频“不雅后感”：增加时间标准建模

“对视频的智能理解是人工智能的最年夜战场。”说出这一不雅点的上海交通年夜学教授倪冰冰坦言这一说法“不会有若干人有否决意见”。作为深耕计算机视觉中智能视频剖析的专家，他甚至愿意称之为人工智能的“体量之最”。
这一称呼不无事理。在近日召开的全球科技青年论坛上，倪冰冰将其中的“简单事理 ”娓娓道来，“人类每天接触到的‘听说读写’信息里有70%实际上是视觉信息。而在信息领域，年夜多半的信息也是视频图片数据。”
“体量之最”当然还包含视频智能识其余 “计算量之巨”。
“全世界每秒钟传到Youtube的视频要达到几千个小时。”倪冰冰表示，即使使用现在流行的神经网络、深度学习技术，加上高性能硬件设备，计算时间之久也超乎想象。
“视频一直被视为计算机视觉里的暗物质。”谷歌云人工智能和机器学习前首席科学家李飞飞曾如是说。即便如此，科学家及互联网公司对视频智能理解技术的“征服欲”也没有减退之意，纷纷投入巨年夜的财力物力人力去攻坚克难，IBM、谷歌都曾为视频智能理解的深入研究宣布视频数据集，脸书CEO扎克伯格在最新一季财报剖析师沟通会上透露，视频识别已成为旗下视频在线产品、VR产品的核心竞争力之一。
因何具有如此动力？倪冰冰一语道破其中缘由：智能视频理解技术在安防监控、自动驾驶，以及在社交媒体短视频、直播里，都是最核心的技术。
而随着视频在人们生活中所占的分量越来越重，视频智能理解技术有了越来越深厚的现实基础。经过曩昔数年的努力，视频智能理解研究领域已经有了一些突破式进展，变得更具有实际应用价值。

对视频的智能理解是人工智能的最年夜战场
增加时间标准建模
打开一些视频网站，用户经常可以看到与自身历史浏览痕迹相关的视频推荐，或者“以视频搜索视频”的内容搜索功能，这其中首先涉及到的技术其实就是视频的行为识别。通俗而言，就是给正在运行的法度模范一段视频，让它告诉你“里面产生了什么”。
识别智能理解技术的研发进程并不像描述起来这么简单，其面临的技术挑战巨年夜。除了视频体量，视频的质量、视频内容中有效信息的数量也都是很年夜的技术难题。
以安防领域的视频数据为例，倪冰冰解释道，摄像头的视频质量有时候比较差，人动一下会有些模糊，使得技术对所捕获到的动作的理解变得异常困难；另外，不合的人做同样动作的样式异常不合，“有人快有人慢”，这也造成智能理解的难点；不合位置的物体在视频中的尺寸相异，要把“年夜的器械、小的器械 ”同时“抓”出来是很有难度的。
倪冰冰所在的团队提出了时序金字塔算法，该算法通过对时间轴进行分标准建模，使不合标准的数据特征都能获得很好的表达。
“我们又配合流行的深度学习里的LSTM（长短期记忆网络）、深度递归网络，使得不合标准的信息在不合时间进行流动，最后达到很好的识别效果。”倪冰冰进一步阐释道。
这一研究在由谷歌、斯坦福等国际顶尖人工智能研究机构主办的THUMOS行为检测国际竞赛中，获得视频检测小组国际第一名。
“找人”不再是难题
“找人”是理解视频中行为的症结所在。在计算机视觉领域中，“找人”行为的专业术语叫做“行人重识别”，专指利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。
而在人工智能家当化的进程中，“找人”也恰恰是视频智能理解可以快速投入的应用场景的形象描述。倪冰冰讲述道，“如果我们能把人和人在不合摄像头下的影像追踪起来的话，就可以获得这小我在整个时间轴和空间轴上的散布，这可以实现很多的应用，比如找到一些异常敏感的人物。”
曩昔，倪冰冰团队在进行视频行为里的行人重识别时，通常利用单帧信息，比如在某个时间点上选一帧图像与旁边的其他帧图像进行比对，但这样的做法存在一定的问题。
“我们发明单帧图像的信息是丧失的，摄像头所拍摄的是行为人整个‘动’的进程，取得单帧的话，整个‘动’的行为就损失失落了。”倪冰冰说。
另外，利用单帧图片信息很有可能会遇到一些特殊姿势、遮挡、运动的模糊等问题。对此，倪冰冰团队提出的一个办法使得识别技术能够对整个视频进行时序上的小我信息加以汇总，形成定量表征，从而使行人重识其余性能达到最优。
基于多角度摄像机的3D定位跟踪模块是当前业界比较新的技术。倪冰冰表示，曩昔，单个相机对人在2D场景进行定位，现在，技术可以在相机和相机之间形成匹配，用重识别以及跟踪技术可以在3D空间里对人进行追踪，对人的动态进程进行画像。
“这些技术产生了很多应用，新零售、智能零售系统就是很好的例子。”倪冰冰自豪地说道，“新零售里，无非是有若干人进入我的商店、若干男生若干女生、什么年龄段、他们在哪个商品面前停留了若干时间，这些通过技术都可以解决。”
倪冰冰表示，抓到这些数据之后，可以反应在年夜数据端，有了客流剖析、轨迹、略读图的数据，店家就能够对行销展开结构，对行销策略做一定的转变和优化。
在小型终端运行
“用深度学习网络进行视频智能剖析所需的网络是很年夜的，它的参数量异常多，甚至跨越几十、几百兆。”倪冰冰表示，以这样年夜的网络去做视频剖析，显然使用时间是异常久的，但新一代人工智能希望很多智能的工作在端上进行，比如手机、平板电脑等，而如此年夜的模型显然无法在一个小的运算设备上进行运算。
针对这个问题，倪冰冰团队对网络进行了二值残差定量的简化，使得曩昔用浮点数表达的网络，用现在的二进制数据网络来表达，这使得整合各个模型的进程变得简单，计算变得加倍高效。
“有了这个技术之后，实际上，很多原来一定要在‘云’上、在办事端去做的一些人脸识别功能，现在可以在很小的手机上进行。”倪冰冰表示，“智能刷脸闸机、智能访客机以及智能门禁等有了这个网络压缩技术，都能在小型设备上运行。”
倪冰冰认为，对一个公司团队来说，从算法到技术落地还有很长的路要走，“这里面相当多的工夫用在了工程化的落地上”。对此，其团队提出的人、物检测的算法也做了工程化的努力。
“现在对人的定位有轻量级的人脸检测模块，这样，一个几兆的小模块可以在手机里运行；也有轻量级的人体骨骼检测模块，实际就是抓住人的一个动作，曩昔它是一个别量异常年夜的计算，现在，通过一些新算法和工程实践可以把它做到很小的手机模块上，并且能够达到实时运行的效果。”倪冰冰表示。
“定位了人以后要进行识别，现在在小设备上，人脸识别也能做到在百万底库下95%以上的通过率，这是异常难的一个进程。”倪冰冰说。

页: [1]

货拉客微商论坛's Archiver

人工智能也可输出视频“不雅 后感”：增加时间标准 建模

人工智能也可输出视频“不雅后感”：增加时间标准建模