技術(shù)引領(lǐng)直播未來(lái) 騰訊音視頻實(shí)驗(yàn)室解讀直播前沿技術(shù)
發(fā)表時(shí)間:2023-03-29 來(lái)源:本站整理相關(guān)軟件相關(guān)文章人氣:
3月20日,2017“云+視界”大會(huì)在北京召開,聚焦視頻、直播行業(yè)的“新洞察、新趨勢(shì)、新格局”,集結(jié)視頻、直播行業(yè)的一眾行業(yè)巨擘。文化部市場(chǎng)司副司長(zhǎng)馬峰、人民日?qǐng)?bào)總經(jīng)理葉蓁蓁、騰訊集團(tuán)高級(jí)執(zhí)行副總裁湯道生、騰訊公司副總裁騰訊云負(fù)責(zé)人邱躍鵬、騰訊音視頻實(shí)驗(yàn)室總經(jīng)理劉曉宇等500余位來(lái)自視頻、直播、廣電、新媒體、金融、電商、文化、娛樂(lè)相關(guān)全產(chǎn)業(yè)鏈的行業(yè)領(lǐng)軍人物集聚大會(huì)現(xiàn)場(chǎng),共同探討直播行業(yè)的未來(lái)之路。
現(xiàn)場(chǎng),騰訊音視頻實(shí)驗(yàn)室總經(jīng)理劉曉宇分享了音視頻實(shí)驗(yàn)室在直播技術(shù)上的發(fā)展現(xiàn)狀,根據(jù)應(yīng)用場(chǎng)景進(jìn)行了展示和解析,同時(shí)也展望了直播技術(shù)的未來(lái)趨勢(shì)。在直播上半場(chǎng)面臨挑戰(zhàn)之下,技術(shù)將引領(lǐng)直播行業(yè)未來(lái),助力直播行業(yè)高速發(fā)展。
以下為劉曉宇演講實(shí)錄:
大家好,2016年是整個(gè)直播元年,我們直播SDK從去年開始對(duì)外開放,到現(xiàn)在已經(jīng)有兩億多的終端用戶用了我們的SDK。去年其實(shí)有很多的直播APP成長(zhǎng)出來(lái),但是提供低延遲高互動(dòng)的直播平臺(tái)并不多,因?yàn)檫@里面涉及到的技術(shù)相當(dāng)多,這里僅僅是列出了所有用到直播技術(shù)的冰山一角。
直播技術(shù)在垂直行業(yè)場(chǎng)景的深耕
在直播通用方案的基礎(chǔ)上,我們持續(xù)的在垂直行業(yè)場(chǎng)景上深耕細(xì)作,不斷的針對(duì)場(chǎng)景特點(diǎn)進(jìn)行技術(shù)上的創(chuàng)新,將細(xì)微的體驗(yàn)做到極致,下面會(huì)詳細(xì)講兩個(gè)場(chǎng)景的案例。
首先是K歌場(chǎng)景。音樂(lè)對(duì)音質(zhì)的要求非常高,正常情況下人的感知損傷,對(duì)音樂(lè)的感知非常明顯。假如是普通的語(yǔ)音通訊,其實(shí)60毫秒的丟包基本上人耳有所感知,但是換作音樂(lè)場(chǎng)景,20毫秒可能就會(huì)聽得非常明顯。我們會(huì)從采集到傳輸?shù)讲シ,將整個(gè)鏈路進(jìn)行優(yōu)化,降低整個(gè)的感知損傷。第二,我們還給音樂(lè)信號(hào)做了拉伸、壓縮的技術(shù),都是為了抗抖動(dòng)、丟包產(chǎn)生的損傷以后怎么樣去彌補(bǔ)。
另一個(gè)是金融直播場(chǎng)景。金融場(chǎng)景的屏幕分享不僅是講K線圖,其實(shí)在教育場(chǎng)景用的也比較多,這里有一個(gè)技術(shù)難點(diǎn),對(duì)屏幕編碼的要求非常高,這里面會(huì)涉及到對(duì)屏幕壓縮后怎么樣傳輸,還有CPU怎么樣去控制。在屏幕分享的過(guò)程中,還涉及到一些問(wèn)題。比如,從語(yǔ)音、視頻到屏幕,三方的流量是完全不一樣的,怎么樣控制這三方的同步,我們也是花了很長(zhǎng)時(shí)間去解決。
技術(shù)創(chuàng)新促進(jìn)直播+AI&VR發(fā)展
2016年是直播的元年,也是人工智能和VR的元年,我們?cè)谶@些技術(shù)方面有一些思考和研究。首先是語(yǔ)音識(shí)別和自然語(yǔ)言處理,直播加上語(yǔ)音識(shí)別,會(huì)有很多的玩法。QQ早在今年春節(jié)的時(shí)候,已經(jīng)有了這樣的嘗試。在QQ視頻聊天的時(shí)候,大家可能會(huì)出發(fā)一些彩蛋,假如跟對(duì)方聊天的時(shí)候說(shuō)恭喜發(fā)財(cái),我們的界面上就會(huì)飄出一個(gè)紅包,類似這樣的語(yǔ)音命令,在直播的場(chǎng)景下也是非常契合的。還有實(shí)時(shí)字幕和翻譯,假如一個(gè)老外在你的直播平臺(tái),他邊說(shuō)自己的家鄉(xiāng)話,他下面會(huì)有翻譯出來(lái)的字幕,他作為一個(gè)外國(guó)的主播,是不是可以和中國(guó)的觀眾進(jìn)行無(wú)縫的交流。實(shí)時(shí)變聲,QQ本身已經(jīng)實(shí)現(xiàn)了很多,可以變?yōu)樽冃谓饎偟穆曇艋蛘吒愎值穆曇簟=酉聛?lái)我們會(huì)把某一個(gè)人的聲音,或者你自己的聲音,變成某一個(gè)明星的聲音。在K歌場(chǎng)景,假如你可以把自己變成某一個(gè)歌星,在上面唱歌也是挺有意思的一件事情。
在機(jī)器視覺(jué)方面,外面展臺(tái)有我們的直播和綠幕的技術(shù)。之前技術(shù)只是用作于電影制作,現(xiàn)在這種技術(shù)已經(jīng)可以慢慢地民用。我們同事也在嘗試非綠幕的一些算法,通過(guò)人工智能怎么樣可以進(jìn)行更好的前景和背景的分割,我相信不遠(yuǎn)的將來(lái)這方面會(huì)有一些成績(jī)出來(lái)。
還有手勢(shì)識(shí)別,涉及到人機(jī)交互的方向,傳統(tǒng)的算法進(jìn)展不是很大。去年AR的發(fā)展,我覺(jué)得手勢(shì)識(shí)別技術(shù)方向,可能是下一個(gè)突破口,因?yàn)橥ㄟ^(guò)人工智能可以把這方面技術(shù)很快突破。有了這樣一個(gè)全新的進(jìn)展以后,我們?cè)谥辈ァ⒒?dòng)方面,可以讓主播和我們的觀眾進(jìn)行一個(gè)更多花樣的互動(dòng)。
最后我會(huì)講一下VR的方向,雖然VR在整個(gè)行業(yè)來(lái)看不是特別成熟,畢竟會(huì)有一個(gè)起步的階段。首先會(huì)有一些360度全景的視頻,在這個(gè)過(guò)程中我們?cè)诓粩嗟卮蚰ノ覀兊幕舅惴ê湍芰,比如說(shuō)一些拼接的能力,怎么樣進(jìn)行一些雙目渲染,為我們將來(lái)做VR做儲(chǔ)備。
剛才說(shuō)到很多技術(shù)并不是科幻,也不是離我們很遠(yuǎn)的事情,這些技術(shù)很多已經(jīng)在我們的產(chǎn)品中使用,后面很多都會(huì)加入到開放,給更多的合作伙伴提供這樣一些能力。
我覺(jué)得可能從技術(shù)來(lái)講,直播的未來(lái)可能更多是一種技術(shù)創(chuàng)新,不管是AI或者VR,技術(shù)創(chuàng)新可能才是直播下一個(gè)真正的戰(zhàn)場(chǎng),謝謝大家。
據(jù)了解,騰訊在音視頻實(shí)時(shí)通信、音視頻直播、圖像處理、視頻處理和語(yǔ)音處理等技術(shù)領(lǐng)域擁有十多年的經(jīng)驗(yàn)沉淀,技術(shù)水平已在業(yè)內(nèi)領(lǐng)先。為行業(yè)數(shù)百個(gè)產(chǎn)品提供了音視頻技術(shù)支持與服務(wù),如QQ電話/視頻電話、騰訊云、QQ空間、全民K歌、快手、斗魚、虎牙、蘑菇街等。
騰訊在2011年成立了音視頻中心,2015年底向行業(yè)開放了其自主研發(fā)的SPEAR音視頻引擎,目前僅QQ音視頻每天的通話就高達(dá)12億分鐘,2016年成立的騰訊音視頻實(shí)驗(yàn)室致力于音視頻及圖像處理技術(shù)創(chuàng)新,為更廣大的用戶和行業(yè)客戶提供穩(wěn)定優(yōu)質(zhì)的音視頻及圖像處理服務(wù)。