Depth.Love Blog

GitHub:https://github.com/depthlove

0%

【译】人工智能和机器学习将视频质量推向新的高度

英语原文:AI and Machine Learning Push Video Quality to New Heights

人工智能和机器学习将视频质量推向新的高度
人工智能和机器学习以及深度学习和神经网络正在解决编码质量到隐藏字幕的 OTT(Over To Top)挑战。
作者:Ankur Patel
发布时间:2018-02-15

[对人工智能和机器学习如何彻底改变视频感兴趣?加入我们2月27日在伦敦的流媒体论坛,我们将介绍亚马逊,IBM等专注于人工智能和机器学习的演讲。]

自从1928年第一次播出电视节目以来,视频技术已经从模拟标准清晰度(SD)黑白电视到 OTT 数字高清(HD)流式传输到数百个的连接设备。根据思科最新的可视网络指数,到2021年视频流量将占所有互联网流量的82%,高于2016年的73%。而且,思科首席执行官 Chuck Robbins 预测,到2020年每小时将有100万台设备添加到网络中。 OTT 视频流最大的挑战是提供尽可能高的体验质量(QoE)和服务质量(QoS)。

根据马萨诸塞大学阿默斯特分校的 Ramesh K. Sitarman 教授发表的一篇论文,观众在2秒延迟后开始放弃一个视频,其后每秒钟有6%消失。缓冲和像素化会导致数字广告带来负面的用户体验和收入损失。通过根据需要切换比特率并通过带宽波动,自适应比特率(ABR)流已经被采用来保证最小化缓冲。 ABR 的概念解决了 OTT 流媒体的部分挑战。但是,考虑到移动用户的位置和连接性的动态变化,ABR不能完全消除移动手持设备上的重新缓冲和像素化,需要重新缓冲过去的事物。另外,诸如快进和快退等其他复杂性通常会导致播放停顿,从而产生负面的用户体验。

这些挑战的答案隐藏在人工智能(AI)和机器学习的新技术概念中。麻省理工学院的计算机科学和人工智能实验室(CSAIL)开发了 Pensieve 神经网络,这是一种人工智能(AI)系统,它使用机器学习来选择不同的现有算法,例如基于速率的算法,取决于网络条件的基于缓冲区的算法。 Pensieve 神经网络提前预测连接问题,并预测性地调整流分辨率,为无缓冲用户体验创建足够的回放缓冲区。实际上,这种方法不会完全消除缓冲,但它可以帮助减少缓冲,让我们更接近无缓冲视频流。使用 Pensieve 神经网络进行的现场实验减少了30%的重新缓冲,并将主要 QoE 矩阵增加了25%。然而,随着更全面的数据可用于训练 Pensieve 神经网络,总会有进一步改进的空间。

视频流也可以受益于机器学习技术的进步。 YouTube 和 Netflix 采用机器学习动态优化编码参数。这不仅增加了用户的 QoE 和 QoS,而且还减少了相同质量所需的比特数。使用机器学习的编码优化还可以帮助优化带宽使用率较低的成本。它还将减少以前用于手动优化的工程资源成本。就 YouTube 来说,神经网络(NN)用于动态预测视频编码量化等级(QL),该等级可以产生目标比特率,并且在单程中实现双通编码的性能。因此,它也将减少整体视频延迟和编码成本。

从手持移动设备到大屏幕电视的连接设备的可用性已经产生了许多挑战,因为不同的屏幕尺寸可以使感知视频质量产生巨大差异。静态编码模型不具有成本效益,因为它们不会将屏幕大小和场景复杂度计算在内。机器学习算法可用于基于视频的感知质量来实现“内容感知”编码。机器学习算法可以根据针对该特定屏幕尺寸的屏幕大小和目标感知质量来决定编码参数。例如,为了在两种不同的屏幕尺寸上实现相同的感知质量,一个屏幕所需的位数可能比另一个屏幕少得多。机器学习可以帮助我们即时执行此操作,从而减少带宽消耗并节省成本。

人工智能和机器学习可以为动态检测唇形同步和隐藏字幕(CC)文本同步问题提供有效的解决方案,否则需要主动眼球检测或使用侵入性方法,例如在基带视频中插入水印或指纹(SDI)和音频。由牛津大学计算机科学系使用名为 LipNet 的人工智能系统进行的实验可以识别出准确率为93.4%的单词,而与仅达到52.3%的人类专业人员相比,其准确性达到了93.4%。 Google DeepMind 项目进行的类似测试表明,AI 很容易胜过试图破译200个随机剪辑数据集的专业口头读者。 人工智能成功破译了所有单词的46.8%,而专业唇读者则破译了12.4%。市场上出现的产品使用AI和机器学习来检测唇形同步和 CC 文本同步问题。一种这样的产品是来至于 Multicoreware 公司的 Li​​pSync,它使用人工智能和深度学习来跟踪嘴唇的运动以测量视频-音频同步。

随着我们进入人工智能的世界,新的概念和理论正在出现,以优化内容生成,准备,交付,安全和演示。例如,深度神经网络的实施对 YouTube 视频推荐系统产生了巨大的积极影响。更为有希望的是基于人工智能和机器学习的下一代高度直观的网络,这将对 OTT 视频流产生巨大的积极影响,改变其采用和增长以及增强内容安全性。