国产精品奶水无码视频免费|激情五月天深爱网|精品国产女主播一区在线观看|国产黄网一区二区

金山云高級(jí)技術(shù)總監(jiān)韓博:多模態(tài)理解視頻,5G時(shí)代AI的認(rèn)知進(jìn)階

5月28日,第七屆中國網(wǎng)絡(luò)視聽大會(huì)由金山云承辦的以“5G釋能 超清視界”為主題的“5G視頻應(yīng)用創(chuàng)新技術(shù)論壇”上,金山云高級(jí)技術(shù)總監(jiān)韓博發(fā)表了題為《多模態(tài)理解視頻,5G時(shí)代的AI認(rèn)知進(jìn)階》的主題演講。韓博表示,5G時(shí)代,AI也要跟上,金山云將運(yùn)用自身相關(guān)的輸出和能力真正的解決行業(yè)當(dāng)中遇到的各種問題。
 
金山云高級(jí)技術(shù)總監(jiān)韓博:多模態(tài)理解視頻,5G時(shí)代AI的認(rèn)知進(jìn)階-DVBCN

圖:金山云高級(jí)技術(shù)總監(jiān)韓博

 
首先,韓博講到通信技術(shù)的發(fā)展和內(nèi)容傳播的關(guān)系。每一次通信技術(shù)的變革對(duì)消費(fèi)者來說感觸最大的是信息載體,也就是內(nèi)容形式上的變化。2G時(shí)代使用短信和QQ文字的溝通方式。3G時(shí)代是圖片時(shí)代。人們開始使用圖片記錄分享生活中的精彩瞬間。進(jìn)入4G時(shí)代,短視頻和直播蓬勃發(fā)展。14年被稱為移動(dòng)互聯(lián)網(wǎng)的元年,依托技術(shù)涌現(xiàn)了很多非常知名的公司,頭條系、快手系、抖魚、龍珠等等。
 
5G是一個(gè)新時(shí)代,首先一定是一個(gè)視頻時(shí)代。5G帶來的高帶寬、低延時(shí)、低成本,大并發(fā)的等優(yōu)勢(shì)給新的視頻形態(tài)的產(chǎn)生和傳播帶來了新的機(jī)遇。還有一個(gè)方面是物聯(lián)網(wǎng)。一個(gè)單一的基站可以接入上千、上百萬的小型的IOT設(shè)備,給物聯(lián)網(wǎng)帶來新的繁榮的機(jī)會(huì)。另外,從內(nèi)容傳輸?shù)慕嵌龋?G的到來也會(huì)真正的把VR/AR代入蓬勃發(fā)展期。
 
5G技術(shù)帶領(lǐng)視頻進(jìn)入生活智能化時(shí)代
 
回到命題,5G帶我們?nèi)孢M(jìn)入了視頻時(shí)代,生活智能化從幾個(gè)方面體現(xiàn),一個(gè)是5G推動(dòng)了IOT技術(shù)的發(fā)展讓傳播和制作更加方便。再之后是AI賦能生產(chǎn),人工智能技術(shù)已經(jīng)貫穿了內(nèi)容生產(chǎn)的全過程,使過程更加高效。最后是內(nèi)容分發(fā),做高質(zhì)量的真正的個(gè)性化推薦,讓內(nèi)容直接觸達(dá)用戶,這就是AI感知賦能內(nèi)容生產(chǎn)的全過程。
 
韓博接下來談到了用戶感知升級(jí)。金山云在AI賦能生產(chǎn)方面已經(jīng)嘗試了兩年多的時(shí)間,從兩年前的圖片層面到如今感知升級(jí)到語義的層面,這是一個(gè)視頻理解的過程。5G的一個(gè)重要的方面是記錄生活,生活到底是什么,生活并不僅僅是一系列的快照,而是隨著時(shí)間變化在現(xiàn)實(shí)世界中發(fā)生的事情,是一個(gè)動(dòng)詞,而不是名詞。
 
隨后,韓博談到單模態(tài)理解的局限性,相似的圖像會(huì)造成誤判,韓博舉例到一個(gè)人拿著一根棒棒糖,單純看圖難以分辨他是在抽煙還是吃糖。如何解決這個(gè)問題呢?在多模態(tài)的情況下,有前后文,多模態(tài)的場景可以很好的解決這個(gè)問題。另外脫離場景判斷內(nèi)容,判斷是跟場景、其他的信息相關(guān)時(shí)會(huì)更加客觀。最后結(jié)合文本識(shí)別。韓博強(qiáng)調(diào),真正的多模態(tài)融合,最終要輸出一個(gè)跟場景和具體命題相關(guān)的整體視頻結(jié)論。
 
多模態(tài)融合理解助力讀懂視頻
 
韓博介紹到在讀懂視頻這件事情上金山云具體的實(shí)現(xiàn)方案分為兩個(gè)階段:第一個(gè)是感知階段,第二個(gè)是推理階段?,F(xiàn)有的絕大多數(shù)技術(shù)更多的是局限于前一個(gè)階段,一些低層語義的信息感知上,而且感知的手段是多方面的,可以有音頻、視頻圖像,還可以有字幕,一系列的基礎(chǔ)模型,OCR識(shí)別、音頻識(shí)別,人臉識(shí)別,可以處理一堆結(jié)果,這是相關(guān)標(biāo)簽,但是這些標(biāo)簽并不足以支撐最終讀懂視頻,缺一個(gè)推理的過程,最終我們需要一個(gè)決策引擎把所有的信息融合在一起。
   
韓博以內(nèi)容審核為例,如果你在前面一系列的視頻得出的標(biāo)簽,有一女生穿著校服,還有一個(gè)場景是封閉的賓館,那么以現(xiàn)有的知識(shí)圖譜講是有一定的危險(xiǎn)度場景,需要進(jìn)一步的判斷或者進(jìn)一步分析。
 
韓博介紹到多模態(tài)的概念,模態(tài)是一個(gè)生物學(xué)的概念,是一個(gè)生物通過自己的感覺器官,通過自己的新知識(shí)從自然界或者外界的信息中獲取信息的一個(gè)通道。從計(jì)算機(jī)科學(xué)的角度講,其實(shí)是一個(gè)感官或者是信息的通道,從不同的感官上搜集信息,最終做綜合的決策。
 
隨后韓博談到內(nèi)容生產(chǎn)的幾個(gè)場景:語音字幕You Tube已經(jīng)有這樣的場景,自動(dòng)的進(jìn)行語音的轉(zhuǎn)寫。還有智能的BGM,根據(jù)視頻的內(nèi)容自動(dòng)的推薦音樂,可以分析整個(gè)視頻中的節(jié)奏和韻律推薦最合適的音樂。還有視頻特效,識(shí)別出對(duì)應(yīng)的場景和動(dòng)作,可以自動(dòng)添加視頻特效,相當(dāng)于把5G內(nèi)容生產(chǎn)的門檻進(jìn)一步降低。多模態(tài)融合也存在許多技術(shù)難點(diǎn),主要體現(xiàn)在兩個(gè)方面:第一個(gè)還是特征,第二個(gè)是融合。   
 
相對(duì)于 AI 目前所展示出在圖像和語音領(lǐng)域的單一感知能力,視頻理解更加復(fù)雜,也更加困難,這體現(xiàn)在理解視頻是二者的疊加,是圖像到視頻的變化。對(duì)于一個(gè)視頻來講目前的模態(tài)區(qū)分成以下幾個(gè)方面,首先是視頻截禎,有可能封面或者代表性的圖片,還有音頻提取或者視頻本身。對(duì)于音頻,一方面用ASR轉(zhuǎn)化成文本,還有一種經(jīng)過聲文的特征,謾罵等等敏感詞,會(huì)經(jīng)過聲文特征的模型。還有一個(gè)文本分析的過程,最終這幾類的信息會(huì)進(jìn)入決策引擎,產(chǎn)生AI認(rèn)知,這是全過程。
   
最后,韓博介紹了多模態(tài)視頻理解帶來的展望,首先是人機(jī)交互的升級(jí),無論是物聯(lián)網(wǎng)、智能家居,其實(shí)都是一個(gè)典型的多模態(tài)過程?,F(xiàn)在用戶家中都有智能音箱入口,還有各種各樣的傳感器感知到周圍環(huán)境的變化,某種意義上這就是多模態(tài)的過程,而且多模態(tài)交互最終的訴求是想人機(jī)交互會(huì)更加自然,使用戶感到溫度,所以多模態(tài)一定是未來5G的大趨勢(shì)。最終帶來的算法技術(shù)的革新,新的技術(shù)場景一定會(huì)推動(dòng)技術(shù)的演進(jìn),AI的技術(shù)會(huì)跟著5G的技術(shù)一起成長,一起賦能人類美好生活。

相關(guān)文章
『金山云』李希源:邊緣云發(fā)展實(shí)踐分享
『金山云』李希源:邊緣云發(fā)展實(shí)踐分享
福建省舉行座談研究推進(jìn)福建IPTV天翼高清發(fā)展
福建省舉行座談研究推進(jìn)福建IPTV天翼高…
金山視頻云推出QUIC+ ,暢快直播再升級(jí)
金山視頻云推出QUIC+ ,暢快直播再升級(jí)
AI應(yīng)用再升級(jí) 金山云金睛率先推出涉政圖像識(shí)別服務(wù)
AI應(yīng)用再升級(jí) 金山云金睛率先推出涉政圖…
擁抱5G,CDN管道化發(fā)展:向上AI、向下邊緣
擁抱5G,CDN管道化發(fā)展:向上AI、向下邊緣
金山云順應(yīng)邊緣計(jì)算三大趨勢(shì) 構(gòu)建5G時(shí)代增長引擎
金山云順應(yīng)邊緣計(jì)算三大趨勢(shì) 構(gòu)建5G時(shí)代…
我還沒有學(xué)會(huì)寫個(gè)人說明!