未來媒體訪談全新改版|王仲遠:隨着AI模型越來越大,創作想象空間越來越廣
來源:封面新聞
在萬物互聯的5G時代,媒體智能化已經成爲不可阻擋的趨勢和發展方向。人工智能技術與媒體如何融合?智能化會帶來哪些媒體倫理問題?進入智能時代,媒體如何做好社會的“瞭望者”?新浪新聞、封面新聞聯合推出《未來媒體訪談》節目智能媒體專題,探討與智能媒體相關的問題。
本期訪談嘉賓:
王仲遠,博士,快手技術副總裁,MMU&Y-tech負責人。榮獲2018年“《麻省理工科技評論》35歲以下科技創新35人”。曾在美團、Facebook、微軟亞洲研究院任職,負責人工智能核心技術研發。
王仲遠博士在國際頂級學術會議及期刊發表論文50餘篇,其中包括美國著名科學雜誌《自然》人工智能子刊《Nature Machine Intelligence》,以及獲得國際頂級學術會議ICDE 2015最佳論文獎。出版學術專著3部,獲得美國專利5項,中國專利30餘項。在NLP、知識圖譜研究領域及搜索推薦等實際產品系統中均有豐富經驗與產出。
他的研究興趣包括:自然語言處理、知識圖譜、多模態、搜索推薦、深度學習、數據挖掘等。
以下爲訪談實錄:
主持人:
我們先從快手聊起,作爲國民短視頻APP,我們都知道快手擁有海量的內容、超高的流量,還有高用戶的粘性。在這個做節目之前我們做了一組調查,有76%的快手用戶在這個短視頻裡面它是有配樂的,高達90%的人羣,他們期望短視頻有配樂,我們不禁就有點好奇,爲什麼用戶在創作短視頻作品時,對於音樂有這麼強的一個依賴性?
王仲遠:
我覺得音樂是一個非常神奇的藝術,對於快手的用戶而言,每天其實他會刷幾百個視頻,那麼一個熟悉的音樂,對於他去看一些新的視頻的時候,其實會有一種新的獨特的熟悉感。其實早在35000年前就已經有了人類的第一支的樂器是德國的骨,在那個時候音樂其實主要存在於皇族貴族。所以我們可以看到在國內的話,這種編鐘其實它從周朝開始興起,國外其實整個音樂也基本上處在宗教以及皇族當中。
那麼進入到了工業化時代,其實隨着這種機械工藝的製作水平的提升。樂器之王鋼琴的誕生使得音樂進入到了更多的百姓的當中。
到了電子化的時代,其實音樂又有了新的一些發展,所以音樂其實已經從一個少數人才能欣賞的這樣的一個特權階層所有的一種藝術形式已經到了每一個普通用戶都能欣賞到的一種藝術形式。
進入到現在的AI時代,在這些年,其實隨着短視頻平臺的興起,越來越多的神曲是從我們的短視頻平臺上興起的,所以我們可以看到有越來越多的這種洗腦的神曲,讓人一聽就非常的上頭,然後其實大家也會非常的喜歡。
主持人:
像您剛纔所說的音樂在隨着技術的發展而產生了很多新的表現的形式,在電子化時代,電子技術的發展創造出了自然界機械無法發出的聲音,所以讓音樂的表現力更加的豐富,那麼我們現在步入到人工智能時代,AI技術能夠幫助音樂實現哪些變化呢?
王仲遠:
在AI時代,有可能我們能夠讓AI去幫助我們一起去創作音樂,去演唱我們的歌曲,所以使得音樂的創作會進入到一個新的階段,那麼它不再是音樂人所獨有的一種能力,而是普通的用戶都能夠去嘗試創作屬於自己的音樂,去演唱自己的歌曲。
主持人:
剛纔您說的這些帶來的這些變化,又能爲短視頻創造一個什麼樣的新的發展空間?
王仲遠:
在短視頻其實它是包含三個階段,包括短視頻的創作理解以及短視頻的分發。在每一個階段我們其實都使用了大量的AI的技術。那麼在短視頻的創作環節,我們其實投入了非常多的AI工程師,使用AI的模型去幫助我們做一些音樂的創作,以及 Ai歌手的研發,我們都在做各種各樣的努力,希望讓創作進入到一個普惠的階段,希望每一個用戶都能夠用非常便捷的方式創作出短視頻,所以我們現階段已經有一些像AI音樂、AI歌手、AI導演以及像AI的虛擬人、AI主播這樣的一些項目。
主持人:
您剛纔聊到了 AI歌手和AI音樂,我們非常的感興趣,所以說像我們作爲人工智能的一個分支,我們都知道智能語音正在被用到越來越廣的越來越多的領域,AI歌手更是一個多學科交叉的體現,我們想了解一下從2019年到現在,AI歌手經歷了怎樣一個迭代的過程?
王仲遠:
在AI歌手過去這兩年的研發當中,我們其實也經歷了兩個大的階段,從一個傳統的一種我們把它稱之爲word模型,它是一個基於信號處理的,將這樣的一個文字變成一個演唱出來的這樣的一種形式。到現在我們基本上都已經基於了深度學習的網絡模型,所以我們有了我們的網絡的聲碼器,那麼它能夠基於我們的大數據,通過這樣的一個反覆的學習,使得AI的模型能夠模仿出歌手的演唱。
主持人:
AI歌手出現正在挑戰着真人歌手的地位,帶來一個不一樣的科技感,我們就會好奇說,在未來或者是目前爲止,這個技術角度,AI歌手有沒有可能頂替真人歌手?
王仲遠:
每一次技術的變革,其實我們更期待的是如何去擁抱技術,使得技術與人和諧相處。當前其實我們的AI歌手的演唱水平,經過過去兩年的技術迭代,在我看來已經基本接近一個普通歌手的水平,但是它依然有很多的問題。比如說真人的歌手他在演唱的時候會有他的情感,會有他的演唱的技巧,以及他在不同的場合的一些臨場發揮。但是在我們目前的AI歌手的這種模型,依然是在追求使得他唱得準,使得他能夠把整首歌曲給演唱下來,所以其實我在我看來,他跟人還是有很多本質的區別,並不期待AI歌手能夠非常快速的對我們真實的歌手有一種頂替的作用。但是它其實會是一個幫助我們的用戶有更加趣味性的能夠去互動,能夠去欣賞,以及使用自己的音色去演唱出屬於自己的歌曲,這樣的一個有趣的一種互動的形式。
主持人:
您剛纔描述的基本都是 Ai歌手的短板之處,它的優勢是什麼呢?
王仲遠:
它的優勢是他總能唱的那麼好聽
主持人:
總能唱的那麼好聽?只就只有這一個優勢嗎?
王仲遠:
這是應該它最大的一個優勢,我們的AI歌手還是能夠通過大量的數據的學習,使得他的演唱水平是遠超普通用戶的。同時我們也正在研發能夠把自己的音色融進去,我們期待有一天我們的用戶也許只需要把歌詞讀出來,然後他就能夠聽到用自己的音色唱出來的歌曲了。
主持人:
我們都知道這個真人歌手錄製一首,成品歌曲需要消耗很多的精力和時間,AI歌手可能幾分鐘就錄製完一首歌了,而現在 AI技術的發展可能已經基本可以做到讓普通人的人耳可以聽不出 AI的歌手和真人歌手的唱歌的一個區別。那麼是不是可以這麼理解,就是真人歌手的一個生存空間正在被 AI歌手所傾軋呢?
王仲遠:
其實計算機的一個優勢就是它算得特別快,它通過這樣一個海量數據的學習,使得他去探索整體的這種藝術的空間的速度也是非常快的,所以您可以想象我們的一首音樂確實對於音樂的製作人,快則可能幾天,慢則可能一兩個月才能創作出一首音樂,然後我們的歌手可能要花幾天的時間才能夠去錄製一首歌曲,但是所有這些對於AI的模型來說,它只需要幾分鐘,乃至幾十秒的時間就能夠完成。
主持人:
作爲AI音樂的愛好者,我們想知道傳統音樂的製作流程是我們先作詞作曲,然後是編曲,最後進行一個錄音和混音,那麼在AI技術的幫助下,AI的作詞和AI的旋律的創作跟傳統的模式有什麼不同?
王仲遠:
其實從流程上來看,沒有什麼特別大的不同,更多的是在每一個環節,我們的AI的模型都能夠幫助人們去探索新的可能性,而且是非常的便捷和快速,它其實是通過海量數據的學習,使得他知道把什麼樣的音符組合起來,是一個人們比較喜歡的這樣的一種旋律。
主持人:
我們移步到 AI歌曲和短視頻創作的結合,短視頻我們都知道這個優點是傳播的非常快,而且非常廣泛,AI歌曲的創作加短視頻對於大衆音樂的發展有哪些幫助?
王仲遠:
我們原來的音樂通常以流行音樂爲例,通常它是3-4分鐘,但是在短視頻時代,它的一個音樂的節奏可能只有十幾秒,所以在這樣的新的發展階段當中,其實音樂也需要去有一些新的發展形勢,那麼把AI在融入之後,使得我們海量的用戶都能夠創作出一些音樂,同時又通過其他用戶的這種消費的行爲,能夠選出那些真正讓人非常上頭上腦的這樣的一些神曲,那麼這種非常好聽的一些音樂或者非常讓人喜歡的音樂也能夠更快的涌現出來。
主持人:
有沒有哪一個短視頻是利用了音樂和視覺AI的技術進行了混合的創作,讓您覺得印象非常深刻的?
王仲遠:
我想短視頻的用戶在前幾個月應該都有聽到過一首嗎咿呀嘿,它能夠對於很多的用戶來講,只需要上傳一張照片,就能夠讓這個照片上的人活動起來,並且伴隨着《嗎咿呀嘿》這樣的一個音樂的節奏,活動起來非常簡單,但是又非常的有趣。那麼類似這樣的一個火爆全網的一些視覺以及音樂結合的一些形式,這種爆款的玩法在短視頻平臺上是不斷的涌現的。
主持人:
海量短視頻用戶的使用,對於AI學習,尤其是對AI的創作方面有哪些幫助呢?
主持人:
用戶能夠更加便捷的去創作出一個屬於自己個性化的音樂,也能夠創作出非常高質量的視頻,並且能夠通過其他用戶的一些反饋的行爲,能夠知道自己創作的作品,別的用戶是不是喜歡,所以它會使得一個從創作到反饋的這樣的一個流程更加的快速和便捷化,同時因爲有海量用戶的這些行爲,也能夠幫助我們的模型更好的去學習適合短視頻時代的這樣的一些音樂以及視頻。
主持人:
現在各大音樂平臺都已經有了微軟小冰的音樂專輯,而且我注意到很多短視頻音樂短視頻的APP,也相應的推出了AI技術相結合的說話成歌的新功能,就是將用戶說出的歌詞和AI作曲相互的匹配,快速的生成一首全新的歌曲,那麼這首歌的版權應該歸個人所有,還是應該歸於我們AI的技術團隊呢?
王仲遠:
這是一個非常好的問題。其實進入到一些新的時代,隨着技術的發展,其實會帶來很多關於法律倫理道德方面的一些探討,那麼在音樂版權、像AI音樂版權這一塊,應該來講還處在一個非常開放討論的一個階段,那麼我個人會認爲在這個過程中創作出來的AI音樂,那麼它與我們背後的AI模型的研發團隊肯定是有非常密切的關係,其中有一部分的版權應該屬於AI模型的研發團隊。但另外一方面,如果我們的用戶基於這樣的AI創作出來的歌曲,有了很多自己獨到的新的改編和創作那麼版權的問題我覺得是可以被進一步的討論,是不是應該雙方共享或者有其他的一些方式。
主持人:
假設說AI技術是根據某一個知名的音樂人的曲風進行深度的學習,然後根據他的曲風創作出來的一首AI歌曲,這樣的版權應該歸誰所有,是不是應該歸知名的音樂人所有呢?
王仲遠:
如果我們的AI音樂能夠把貝多芬的音樂風格重新學到,在幾百年後的今天,我們能夠創作出更多的貝多芬風格的音樂,這應該是一件非常美妙的事情。
主持人:
您作爲快手的技術負責人,怎麼去考慮 AI技術佈局和視頻創作佈局?
王仲遠:
相信大家也聽過近期非常火熱的一個名詞叫元宇宙,它可以把很多的技術都融合在一起,使得我們開創一個新的虛擬的世界數字的世界。那麼像短視頻只是當前移動互聯網時代的一個產物,大家能夠利用碎片化的時間去消費我們的短視頻,但是技術的發展是沒有上限的,我們可以看到現在有越來越多關於真實世界和數字世界如何更好的融合。那麼我們可以想象在不遠的將來,我們可以有真人,也可以有數字的虛擬人,那麼都可以在不同的時間和空間進行對話。
主持人:
我們剛纔一直在討論當前的AI音樂技術,我們來聊聊未來,AI歌手在未來可以與真人歌手進行一個互動嗎?
王仲遠:
答案是肯定的!我想在不遠的將來,我們的AI歌手和我們的真人歌手就一定可以進行互動,AI歌手只是我們其中的一種藝術創作的形式,那麼對於人類而言,除了音樂而言,還有非常多種藝術,所以我非常期待在各種藝術創作上都能夠有AI的身影。
主持人:
目前比如說我們在國際上,我們討論人工智能寫作技術在突飛猛進的發展,比如我們經常看到一些新聞、財經類新聞、包括一些體育類新聞以及廣告郵件等內容都是由人工智能程序寫出來的。我們作爲觀衆想知道一點,AI音樂的技術在國際的領域上現在發展是一個什麼樣的情況?
王仲遠:
其實不止AI音樂,包括像AI的文本的創作、或者說 AI劇本的創作、AI寫詩、AI的小說的創作、其實這些年都有非常快速的發展。就技術而言,這些年我們的AI的模型是變得越來越大,AI模型的大小通常我們會用一個參數的量級來做一個評判,大概在幾年前這樣的參數可能還在10億的量級,但是這兩年已經逐步的突破了百億的參數、千億的參數、萬億的參數。那麼以大家可能技術領域比較耳熟能詳的一些大模型,比如說GPT-3,它的參數已經到的到了千億量級。那麼有了這種千億量級的AI模型,他所能夠去做一些智能的問答,能夠去寫像您剛纔提到的寫新聞,能夠去做小說的創作,以及能夠去做一些藝術的創作,比如說自動的作畫,然後以及產生AI的音樂。
主持人:
謝謝仲遠老師今天來參加我們的節目,我們很期待下一次和您繼續對話。
王仲遠:
謝謝。