微軟小冰唱歌惹怒二次元,但深度學(xué)習(xí)和音樂的故事才剛開始
最近,人工智能第一次和人類在小范圍爆發(fā)了沖突,而雙方的主角是人見人愛的人工智能少女微軟小冰和虛擬歌姬們的粉絲。
虛擬歌姬是二次元中的圈子之一,愛好者們用一款名為Vocaloid的軟件,輸入歌詞和音符,利用音源庫中的人聲音源和伴奏制作音樂。再搭配上虛擬形象,就變成了初音未來、洛天依這樣的虛擬歌姬。
而最近,微軟亞洲研究院為微軟小冰打造了人工智能歌手深度學(xué)習(xí)模型,只需要人聲清唱一遍,就能學(xué)會人類的感情和演唱風(fēng)格。在微博上發(fā)布關(guān)于這一消息時,小冰用到了過時的技術(shù)等等話術(shù),惹惱了虛擬歌姬粉絲,甚至有些粉絲喊出了讓小冰滾出中國。
雖然這件事最終以小冰道歉為結(jié)尾,但深度學(xué)習(xí)和音樂之間的故事卻要更豐富的多。
理解音樂,是創(chuàng)造的前提
用算法創(chuàng)造音樂這件事,需要的技術(shù)門檻不高,更不需要多大的硬件成本,但真正的難點,卻是如何創(chuàng)造出好聽的音樂。
其實在音樂的創(chuàng)作上,最基礎(chǔ)的就是七個音符的排列組合,利用隨機輸入和聚類算法,就能用無規(guī)律的音符組合出想要模仿的旋律。又或者,干脆讓電腦把音符隨機組合,讓人來判斷好不好聽,工業(yè)機器人維修,最終電腦總會創(chuàng)造出讓人滿意的旋律。
以上這些方法都存在于理論中,音符、樂器、和弦、人聲之間可以有無限組合,而音樂類型中既存在通俗歌曲這種規(guī)律性較強的,也有爵士樂這種幾乎找不到規(guī)律的。單純靠無限組合這種概率事件,恐怕比讓猴子打出一部莎士比亞還要難。
這一切的局限就在于,人工智能不能理解音樂,因為不能理解,所以只能無意識的模仿和排列組合。而深度學(xué)習(xí)的加入,讓理解音樂這件事成為可能。
再造一個巴赫:庖丁解牛的創(chuàng)作模式
在人工智能理解音樂這件事上,可以參考音樂平臺的推薦算法。音樂屬于非結(jié)構(gòu)化數(shù)據(jù),能夠從中識別的推薦標(biāo)簽通常是歌手、出版年份等等信息,或者人為添加上去的歌曲風(fēng)格。
可如果利用信號分離技術(shù),提取出音頻文件中的分軌(既把人聲、器樂等等音樂的不同部分分離出來),則可以利用深度學(xué)習(xí)技術(shù)分別學(xué)習(xí)音樂中和弦、節(jié)奏、人聲中的規(guī)律,更完整的理解音樂。
深度學(xué)習(xí)作曲最好的案例就是DeepBach,一個誕生于索尼計算機科學(xué)實驗室的開源項目。
巴赫創(chuàng)作過大量的復(fù)調(diào)圣歌,既一種包含兩條獨立旋律的復(fù)音音樂。這種音樂形式極具共同點,同時結(jié)構(gòu)簡單,非常適合作為研究對象。實驗室的科學(xué)家選擇了巴赫的三百多部作品,在一定范圍內(nèi)變調(diào),再利用循環(huán)神經(jīng)網(wǎng)絡(luò)反復(fù)訓(xùn)練。最終訓(xùn)練出來的曲目,幾乎可以以假亂真。
其實聽過一些復(fù)調(diào)歌曲就會發(fā)現(xiàn),在演奏時這種左右互搏的音樂雖然很難,但從結(jié)構(gòu)上來說,復(fù)調(diào)音樂的特點非常明晰。以巴赫的復(fù)調(diào)來說,精準(zhǔn)的對位、明顯的階梯感和層次感、更嚴(yán)禁的節(jié)奏等等。
嚴(yán)謹(jǐn)、有規(guī)律、特點鮮明,意味著巴赫的復(fù)調(diào)音樂更容易理解、更容易模仿。
說白了,DeepBach創(chuàng)作的音樂談不上有多高的原創(chuàng)性,只是琢磨透了巴赫復(fù)調(diào)圣歌的特點,在其原作品形式上進行變化,庫卡機器人驅(qū)動器維修,創(chuàng)作出與之十分相似的音樂。
只會做數(shù)學(xué)題的深度學(xué)習(xí)
目前大多數(shù)人工智能作曲都和DeepBach類似,捕捉音源中的特點,再根據(jù)用戶的需求對有限的元素進行組合。
Jukedeck、AmperMusic等等人工智能作曲平臺也是一樣,把原本被標(biāo)注為作者、年份、風(fēng)格的整首歌曲分解成器樂、節(jié)奏等等多個部分,再進行更詳細(xì)的標(biāo)注。最后,再根據(jù)用戶設(shè)定的音樂類型、情緒、速度等等創(chuàng)作一首歌曲。
微軟小冰雖然不是依靠深度學(xué)習(xí)作曲,但提出的示唱人概念,也是收集用戶的音準(zhǔn)、音高、顫音振幅和顫音頻率等等數(shù)據(jù),再將這種特征植入到用戶制作的歌曲中。
在微軟小冰開放平臺之前,我們很難距離了解到小冰如何在十幾分鐘內(nèi)通過一段語音訓(xùn)練處相似的風(fēng)格和情感。不過可以確定的是,目前多數(shù)依靠深度學(xué)習(xí)的音樂創(chuàng)作不外乎都是如此,玩票、再創(chuàng)作的性質(zhì)遠(yuǎn)高于原創(chuàng)性。
深度學(xué)習(xí)只能去學(xué)習(xí)流行歌曲、復(fù)調(diào)音樂等等結(jié)構(gòu)清晰、規(guī)律性強的音樂,給它一段Coleman的FreeJazz,它可能學(xué)著學(xué)著就崩潰了。目前深度學(xué)習(xí)在音樂領(lǐng)域中可以把數(shù)學(xué)題做的很好,可到了數(shù)學(xué)公式不管用的領(lǐng)域,它也無能為力。
所以,音樂人們可以放下心來,你們暫時還不會被AI替代。
是包容侵權(quán)者,還是和音樂人好好相處?
雖然利用深度學(xué)習(xí)創(chuàng)作的音樂沒有那么高的原創(chuàng)性,AI也暫時不能替代音樂人,但深度學(xué)習(xí)卻可以幫助音樂人更好的工作,也能給人們帶來很多便利。
比如說,當(dāng)我們想為視頻作品、PPT、H5等加入一段配樂時,可以通過AmperMusic選擇風(fēng)格,隨機創(chuàng)作一段音樂。既不用承擔(dān)使用盜版音樂的侵權(quán)風(fēng)險,也繞開了不會創(chuàng)作這個大坑。
又比如說唱音樂的伴奏,工業(yè)機器人維修,通常來自某一首歌的采樣,再經(jīng)編輯而成。這就導(dǎo)致在其他樂迷看來,說唱音樂經(jīng)常有抄襲的嫌疑。而有了深度學(xué)習(xí)的存在,創(chuàng)作者可以利用算法學(xué)習(xí)采樣歌曲的風(fēng)格,而不是直接使用原有旋律。
不僅如此,深度學(xué)習(xí)讓所有沒有作曲能力的愛好者都有機會創(chuàng)造自己的歌曲,不用再扒曲子、翻唱。
其實,對于大多數(shù)人來說,利用了深度學(xué)習(xí)的人工智能作曲工具只不過是在打侵權(quán)的擦邊球把想抄襲的歌曲喂給算法,算法就能吐出一段非常相似但不涉及到侵權(quán)的旋律。
至于專業(yè)音樂人,當(dāng)我們還在擔(dān)憂他們被人工智能搶走飯碗時,人家已經(jīng)開始熟練的應(yīng)用各種人工智能平臺進行創(chuàng)作了。美國歌手TarynSouthern的新專輯《IAMAI》中,就有一首由人工智能負(fù)責(zé)編曲的歌,歌手創(chuàng)造旋律和歌詞,算法完成編曲。雖然這首歌的編曲聽起來沒有太多亮點,但它的完整度已經(jīng)很接近人類的創(chuàng)作了。
或許在未來,深度學(xué)習(xí)可以更好的為創(chuàng)作者提供靈感,創(chuàng)作者給出一段旋律,算法就可以為這段旋律渲染上各種不同的風(fēng)格和感情,以此拓寬思路。
換個角度想,小冰和虛擬歌姬粉絲間的沖突就是一種預(yù)示。現(xiàn)在讓我們直接接受人工智能創(chuàng)作歌曲還為時過早,但利用深度學(xué)習(xí)加持音樂創(chuàng)作的時代已經(jīng)來臨。不管是Amper還是小冰,又或者是有著眾多粉絲的Vocaloid,他們的本質(zhì)都是工具。工具本身毫無意義,但有了人類參與,才能一起創(chuàng)造出整個瑰麗的世界。




