人的耳朵能夠輕松分辨出歌曲的各種情緒,未來,機器也能如此。為了讓機器人也能聽懂人類創作的歌曲,法國在線音樂網站Deezer的研究人員開發了一種人工智能系統,可以將某些音軌與情緒聯系起來。 Deezer的研究人員在Arxiv.org網站上發表了一篇新論文《基于音頻歌詞與深度神經網絡的音樂情緒檢測》,在論文中,他們描述了這項工作的細節。研究人員表示,智能音樂情緒檢測在過去二十年里一直是一個活躍的研究領域,它包括自動確定聽音樂時感受到的情緒。在這項工作中,他們將專注于基于音頻信號和音軌、歌詞的多模態情緒檢測。 該團隊引用心理學研究結果,表示在分析音樂所表達的情緒時,歌詞是密不可分的考慮因素,所以他們設計了一個神經網絡,分別提供音頻信號和word2vec(一種用于生成單詞嵌入的相關模型)嵌入訓練160萬首歌詞。為了教它確定歌曲的情感,形成共鳴,他們選擇了一組超過100萬主流歌曲元數據的Million Song Dataset (MSD),這個數據庫和Last.fm(在線音樂服務商)的標簽相關聯,它們大多和描述情緒有關,形成標簽推薦的數據集,同時還用人工智能對標簽中的14000個英語單詞進行標記,包括從負面到正面和從平靜到激情程度,作為歌曲情緒強度的標記。 由于MSD不包含音頻信號和歌詞,因此團隊將歌曲元數據映射到Deezer的目錄 - 特別是歌曲標題,藝術家姓名和專輯標題。其中大約60%的結果數據集 (總共18,644個音軌) 被用于訓練模型,其中40%用于驗證和測試。 與描繪和情緒相關的詞匯的經典系統相比,深度學習模型在檢測方面更優越。研究人員表示:“看起來這種性能的提升要歸功于我們的模型能夠揭示并使用音頻和歌詞之間的中級相關性,特別是在預測效價的時候”。 |