王亚楠:基于强化学习的自动码率调节

  • 时间:
  • 浏览:1
  • 来源:uu快3开奖_uu快3娱乐_输钱

2.1 介绍自适应码流

4、基于强化学习的自动码率调节

 自适应码流包括一个多方面:

4) 成本控制

一群人好,我是王亚楠,现在就职于爱奇艺终端网络部署,今天很高兴能在其他 平台来跟一群人讲述一下一群人在爱奇艺做的其他很有意思的工作,其他 工作主要就说 一群人基于强化学习做的自动码率调节。

今天的主要内容:

https://www.baijiayun.com/web/playback/index?classid=130007185432963000&session_id=20130007190&token=vXamnizuU6dg5tXwrQlPW6an_eFRTsE-RX2EUXwv2bLyp54lF984rOVN2zjNT9VCwX5XhtNXtMuMCTpCPak4Cg

当在刚开播的之前 用户的网络环境不可能 不太好,不可能 是Buffer中没法内容,这时先给他一个多比较低的码率,当用户的网速起来之前 ,不可能 当它的Buffer慢慢的变多之前 ,一群人会给他提供一个多比较高的码率,原来句子,他还要切换到原来一个多更高的码率,不可能 用户的网速变得更好,没法一群人也还要给他提供更高清的码率,有之前 其他 在切换的之前 ,一群人会选则一定的时间点,其他 时间点也就说 一群人在自适应码流中所称为的关键帧。没法一群人怎样才能根据用户的当前情况表来选则下一个多要播放码率呢?目前采用的十有几个 通用的方面,主就说 时延,还有目前不可能 缓存了十有几个 的数据,设备的类型,以及当前设备所能支持的码率。当协议选则之前 ,就要通过自适应码流的一个多非常关键的技术,也就叫自适应码率调节来根据用户的网络环境来进行码率的调节。

3、强化学习

本期奖品

Q1:亚楠老师,有一位同学问到,请别问一群人其他 是用在点播上的吗?有应用在直播吗?

一群人项目组是隶属于爱奇艺网络终端部的,爱奇艺目前是国内最大的长视频网络公司,仅在过去的一年,共增加两千八百多部的电视剧,以及一万多部的电影,移动端的月活动量达到6.1亿,PC端也达到了3.6亿,是除了微信和QQ之外,月活动量最多的一个多应用。一群人用户的网络环境和设备是千差万别的,网络环境主要分为一种 , PC端主要用的是有线连接,手机端大多是的是WiFi,数据网络用的时会 没法多,除了这种种 还有其他网络,比如连上其他其它的手机热点等等。爱奇艺的终端也包括就说 种,现在最多的用户是手机用户,除了手机还有其他比较常见的如PAD和PC。另外,在中国的家庭底下,网络电视也是非常重要的一个多方面。除此之外,还一个多特殊的应用——奇艺果,这是一群人自己推出的一个多很适合连接到网络电视上,还要将你手机上内容全部在电视上进行播放的一个多工具,效果很好有之前 也很便宜。一群人组老要致力于用技术手段为用户提供更清晰流畅的观看体验,下面为一群人介绍的自适应码率调节就说 提升观看体验的一种 手段。 

2) 码率调节算法:ABR

A: 这是个好哪些地方的问题,一群人其他 工作就说 和mao合作协议协议的,一现在开始了了是一群人和他合作协议协议的,一群人希望不想可不能否用其他业界的数据来证明一下,原来们在做其他 事情的之前 ,不可能 做研究的模型,直接拿出来用到一群人线上句子,是有就说 方面是还要进行改动的,调节的。原来们最现在开始了了的思想是借鉴的毛的其他 Pensieve的一个多思想,最后加入了就说 一群人的思考,以及针对一群人在实际的工作中遇到的就说 哪些地方的问题进行了正确处理。那基本思想就说 Pensieve,一群人是和他进行一个多合作协议协议的。Performance,不可能 一群人是在其他 模型之换成入了就说 一群人自己的其他理解,还有其他其他因素原来做的,具体的performance数据数据还要关注一群人后续的技术分享。

上期中奖名单

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/81295311

同一个多用户的时延在不同的时间段是会有一定的波动的,不可能 一群人为用户只提供单一码率句子,那在一次要时间之内会造成用户很大的时延浪费,原来用户的观看体验并时会 很好,在一定观看时间内,当时延小于码率的之前 ,会造成用户观看的之前 非常卡,而卡顿是对用户的观看体验影响最大的一个多方面。

Q4:在实战蕴含没法部署过mao的Pensieve,在相同的State&Action下,Performance是缘何样的?

1) 码率预测模型的选则

活动规则

直播回放:

Q2:亚楠老师还要具体的说一下QoS的评分吗?

这就要实现一个多BS架构,自动码率调节功能是由客户端和服务器端同时来做的,服务器端来决定选则哪个码率,有之前 将其他 码率再发送给客户端。

1. 自适应码流

2.3 现行自动码率调节算法

1、关于一群人

为了使用户观看之前 不想可不能否流畅,自适应码流不想可不能否根据用户的不同的网络环境和不同的设备类型,在特定的时间段内来选则特定的码率,使得用户在观看的之前 既能不卡,又能提供在他的网络环境所能容纳的最高的码率节目,原来用户观看下来就会比较清晰、流畅。

3) QoS评估

在考虑还要用一种 新的算法之前 ,一群人还要先决定,一群人缘何样来评估一群人做的其他 自动码率调节,要评估它在哪些地方情况表下才算是好的,它的效果是还要接受的。现在评估主就说 从一个多方面:清晰度,流畅度,平滑度。

1)传输形式:HLS/DASH/Smooth Streaming

HLS是苹果656手机手机公司推出的一个多传输协议,Smooth Streaming是微软推出的一个多标准协议,DASH是一群人目前用的最多的开源的传输形式。一群人还要通过码率调节算法来选则怎样才能通过用户的网络情况表来提供不同码率,它整个流程是在节目生产的之前 就会被编码为不同的码率,根据用户的不同情况表,比如说在PC观看还是在手机观看,以及用户的网络情况表不同,会给用户整理不同码率的节目,使得用户在观看的之前 不想可不能否不卡且清晰度最高。

2) 选则合理的训练最好的妙招

3)综合考虑Buffer和时延的算法:MPC

图文推送后48小时内,用户可在文章下留言,LiveVideoStack会对所有留言进行筛选并放出次要精选留言,被选出的精选留言即可参与《有奖留言》活动。LiveVideoStack会与文章作者或相关技术专家商议,从中选出最具层厚与影响力的留言,赠送精美礼品。

强化学习它有就说 模型,不可能 码率预测它的情况表是个连续的过程,就说 一群人选则DRL,DRL对连续的输入输出时会一个多比较好的结果。

基于时延的算法主就说 通过用户前一段时间的网络变化,有之前 来预估后续不可能 的网络时延,有之前 根据预估的时延,来决定其他 用户所适合的码率。

简单解释一下,清晰度就说 用户直观看一遍的码率的清晰度,比如说是720P,还是103000P;另外,流畅度比较好理解,用户有之前 我不卡,它的观看就说 流畅的,不可能 它卡顿句子,卡的时间越长,那用户不可能 就更多的会不再看你其他 视频了;再一个多就说 平滑度,不可能 你在非常频繁的切换句子,用户不想可不能否很清晰的感知到你其他 切换过程,也是对用户的观看体验也是有个影响的。

不可能 强化学习所正确处理的哪些地方的问题就说 马尔科夫过程的哪些地方的问题,ABS哪些地方的问题又正好是一个多马尔科夫过程的哪些地方的问题,不可能 ABS实在是根据一群人当前的情况表来选则下一个多码率,它和之前 的情况表时会 不相关的。不可能 一群人采用强化学习来做选则下一个多码率,一群人把时延,Buffer,还有等等其他播放情况表来当作我的情况表,只还要把哪些地方地方情况表输入我的Agent,无还要对时延进行预测了,有之前 一群人现在的技术不可能 还要满足,提供其他数据后,强化学习自动训练,有之前 针对不同的场景还要使用不同模型,原来句子,就说 想进行调参。

强化学习目前是AI领域中运用非常广泛的一个多技术,主就说 在预测,就说 做决策方面比较擅长。它主要包括一个多次要,一个多是Agent,即最终做决策的一个多单位,另外一个多就说 Environment,其他 环境也就说 Agent所面临的所有输入。整个流程就说 在每一步,Environment会给Agent一个多输入,其他 输入也就说 情况表。在Agent取得其他 情况表之前 ,会采取一定的动作。在采取其他 动作之前 ,其他 Agent会获得一定的奖励,也就说 Reward,那其他 Agent就会观察我现在的情况表,我所采取的动作是哪些地方,我所获得的Reward是哪些地方,原来在经过一系列的训练之前 ,它不想可不能否使得我之前 再采取其他动作的之前 ,我所能获得的奖励就说 最高的,就说 原来一个多过程。

Q3:输出的码率是连续的吗?

1)基于时延的算法:FESTIVE

所一群人优缺点:

在利用A/B Test来评估最优模型的过程也会遇到就说 的哪些地方的问题:

《有奖留言》第二期

基于Buffer和时延的算法,也就说 把这种种 因素综合考虑起来。

下面来看一个多实时多模型的A/B Test架构图:

每期中奖名单会在下一期《有奖留言》的文章中公布

模型训练好了之前 ,还要进行一个多评估,评估好了之前 ,一群人会选则一群人评估效果最好的那个模型来使用,在其他 过程一群人会选则用A/B Test的架构来选则最优模型。A/B Test的结果是选则最终模型的关键;C/S架构更适合做A/B Test,不可能 服务器端是还要很容易控制的,一群人在CS原来一种 架构上来做A/B Test是比较简单方便的。

温馨提示

2)基于Buffer的算法:BOLA

客户端和服务器端进行沟通的之前 ,一群人还要先经过一个多算法的选则器,还要用一个多服务器来做整理,来实现A/B Test以更好的评估训练出来的模型,在其他 算法服务器底下,就说 对应的一个多一个多的强化学习模型的服务器,通过一个多算法整理器,就不想可不能否决定一个多模型它所针对哪些地方用户。同时Selector也还要知道它所整理到的不同模型的数据是哪些地方;有之前 通过其他 A/B Test Selector服务器,将整理到的数据通过QoS Scorer服务器来进行最终的计算,原来就实现了一个多A/B Test 的过程。

基于Buffer是不可能 用户的网络环境的变化最终会体现到用户的Buffer中,也就说 Buffer中缓存了十有几个 数据,是受时延的影响的,没法有之前 我基于Buffer,也还要决定我下一个多将要选则的码率。

在做成基于强化学习的自动码率调节后首先还要考虑一个多哪些地方的问题,即其他 过程是放上客户端还是服务器端来做?

没法为哪些地方要用强化学习完成自动码率调节呢?

一群人的目标就说 在尽量不产生卡顿的基础还要够最大化的尽量利用用户的时延,同时尽量减少一群人的切换次数。基于原来一个多标准,一群人形成了一个多公式:

今天的主要内容分一个多方面,第一,介绍一下哪些地方叫自适应码流,在自适应码流中我会着重介绍为哪些地方要用自动码率调节。有之前 会给一群人介绍一个多很清晰的评价标准来衡量一群人做的自动码率调节。第二,介绍强化学习,不可能 在座的大次要人对强化学习的了解应该时会 就说 。第三,基于强化学习的自动码率调节,在这里会简单介绍一下缘何样用强化学习来实现自动码率调节,自动码率调节现在不可能 有其他算法了,但哪些地方地方算法时会 自己的优势,当有之前 会 自己的短处,没法为哪些地方一群人要用强化学习来做?以及一群人在用强化学习做自动码率调节的之前 ,它应该是采用一种 怎样才能的技术架构,以及哪些地方地方要实现的技术要点?

感谢一群人老要以来的认可与支持,LiveVideoStack现推出《有奖留言》活动。一群人不可能 在每周的5篇图文中选出1-2篇精品文章,开启有奖评论、留言活动。

A: QoS评分一群人现在会有就说 种了,我现在翻到那页PPT,一群人现在的QoS评分,目前其他 QoS评分是一群人做得一个多Reward,一群人最终在做,我刚才给的那一幅图底下,会加就说 其他的因素,我这里的卡顿次数,还有用户观看的体验的原来一个多得分,在这里定义的QoS是清晰度的得分,还有流畅度的得分,平滑度的得分,这三项结合到同时,有之前 一群人自己调节的原来一个多模型。

首先,训练数据的整理是还要客户端来投递的;其次是Reward的选则,不可能 强化学习一个多不得劲要因素就说 还要给它一个多Reward,那Reward的选则会直接影响到后续训练出来模型的效果;再就说 On-Policy还是Off-Policy的训练最好的妙招。

1) 客户端实现码率预测功能

tnti  

2、自适应码流

2.4 自动码率调节评价标准

5、Q&A

A: 一群人现在是在点播上用,不过会计划部署到直播端,线上现在也是有用户在用,不可能 你是一群人的灰度用户,你不可能 会观看一遍原来一个多效果。最后的效果也是我刚才介绍的一次要,这底下会一个多评分,评分最高就说 用强化学习来做自动码率调节的效果,相比于其他的得分是其他其他模型的得分,目前一群人来看用强化学习来做原来的事情还是还要的,相对于强化学习来说,自动码率调节还算是一个多非常简单的事情。

一群人现在很常用的其他模型它没法考虑卡顿次数的因素,就说 还要考虑其他 ;再就说 一群人会增加其他用户反馈的数据来直观的表现出用户算是喜欢一群人原来给他做的自动码率调节,不可能 有的用户固然喜欢。

Q6:比如卡顿比各播放码率分布在部署前后的变化,总时延的变化,下载时延的统计等哪些地方地方是怎样才能的?

3. 基于强化学习的自动码率调节

整理 / LiveVideoStack

Q5:客户端集成模型,一群人感觉它的性能是怎样才能的?

2) 服务器端实现码率预测功能

A: 客户端集成模型一群人时会 评估,最终选则出来效果之前 ,一群人实在影响应该不想很大,不得劲是对PC端,当然对其他低端的安卓机不可能 会有其他影响,具体的其他低端的安卓机一群人要固然用原来一种 在客户端实现的最好的妙招,一群人底下还还要继续评估。对于其他比较高端的安卓机,还有苹果656手机手机机应该是没哪些地方地方影响。复杂化度,看你缘何说,不可能 原来一个多事情,除了网络和Buffer以外,就说 其他一群人所考虑到的,比如说成本的因素,等等原来其他因素,一群人的维度是比较少的,并没法就说 ,就说 它的复杂化度也并时会 很高,原来句子,对于一群人的放上客户端来做,实在是有优势的。一群人现在固然会首先选则C/S架构,主就说 为了先做A/B Test,做完A/B Test之前 ,一群人能最终选则一个多最优的一个多模型。

文 / 王亚楠



2.2 实现过程

有观点、有想法的留言更容易获得奖品

A: 输出码率是不连续的,不可能 自适应码率它的码率时会 固定档位的,它会有几档之分,它时会 连续的码率的。

其他 公式考虑到了刚才说的一个多方面的纬度,当然也会加其他调节因子。再者就说 一群人不可能 想做上线句子,还要考虑的一个多重要方面就说 成本控制。不可能 一群人提高QoS的最终目的,就说 希望用户不想可不能否更长时间观看一群人的视频,原来会为一群人带来更高的收益,有之前 不可能 一群人全部不考虑时延来为用户提高更高的码率,一群人整体的时延的成本也会变得没法高,原来不可能 意味着 一群人所取得的收益不可能 并缺乏以覆盖所付出的成本,就说 不可能 要上线句子,成本控制也是还要考虑的一个多重要方面。在其他 评估模型中,它实在有就说 方面都没法考虑到,一个多是没法考虑到卡顿的次数;另外一个多,它并时会 用户观看体验直接的体现,就说 一群人一个多计算公式。

2. 强化学习

用户在观看一个多视频的之前 ,还要将视频内容从服务器上取到本地不可不能否观看,在其他 过程中不可能 用户的网络环境和设备千差万别,怎样才能在一个多复杂化的环境中给用户提供一个多清晰流畅的视频,自适应码流就说 一个多很好的正确处理最好的妙招。不可能 它还要根据用户的网络情况表来为用户提供不同的码率节目,它不想可不能否更充分的利用用户的时延,根据用户的时延提供不同的码率节目,相比较于之前 单一的码率节目,它所提供的节目会更清晰流畅。

一群人还要考虑的非常清楚,一群人为用户提供更清晰的视频,收益算是会大于支出。

另外一个多哪些地方的问题,经过模型训练后,怎样才能选则一个多最优模型呢?

A: 卡顿比,其他 数据都比较细了,一群人还要说一下,首先是码率分布句子,码率的质量是一个多很明显的提升的,包括一群人的720P和103000P的占比时会一个多非常明显的提升,相对应的卡顿比的变化倒时会 很明显。我在这里固然提高到,提了就说 次哪些地方地方成本控制,就说 一群人观测到,不可能 一群人的清晰度,就说 高码率的占比会比较大的之前 ,我的时延的增长实在是非常大的,就说 其他 时延的变化也是比较大的。下载时延,当然下载时延一群人倒没法特意的去评估,不可能 一群人实在,一群人从一群人评估的层厚来看,卡顿比不可能 没法增加句子,它的下载时延是不想可不能否支撑他在下载的码率。

本文来自 爱奇艺 技术产品中心 资深工程师 王亚楠在LiveVideoStackCon 2018热身分享,并由LiveVideoStack整理而成。在分享中,王亚楠分别介绍了自动码率调节的实现过程、现行算法与评价标准,并重点介绍了基于强化学习的自动码率调节算法的技术架构与实现要点。

架构非常简单,一群人有之前 我把其他 模型训练好之前 ,拿到客户端来做,由客户端自己来决定下一个多码率就好了。