Horizon AI成首個用于生產的開源RL平臺 Horizon AI是一個端到端的強化學習(reinforcement learning,即RL)平臺,目的是訓練計算機系統(tǒng)分析數據,并利用反饋將決策過程的回報最大化,以持續(xù)優(yōu)化Facebook旗下各類產品和服務的使用體驗。 在近期的一份聲明中,Facebook如此介紹Horizon AI: “我們開發(fā)這個平臺,是為了彌合強化學習在學術研究方面日益增長的影響力與實際應用狹窄范圍之間的差距。過去一年,我們在Facebook上部署了Horizon AI,提高了該平臺把 RL 基于決策的方法運用到大規(guī)模應用程序的能力。” 當其他人致力于研究RL應用程序時,Horizon AI是第一個用于生產的開源RL平臺。 Horizon AI 助力更多領域應用RL 谷歌的研究科學家凱文?墨菲(Kevin Murphy)在1998年撰寫了一篇文章,舉了一個例子來解釋強化學習:“在訓練狗時可以玩一個小把戲:不要告訴它應該做什么,但如果它做了正確或錯誤的事情,你可以獎勵或懲罰它,它必須自己找出得到獎勵或遭受懲罰的原因。我們可以用類似的方法來訓練AI完成許多任務。” 強化學習是機器學習( machine learning,即ML)的一個分支。機器學習系統(tǒng)通常會生成預測,隨后需要工程師將這些預測轉換為策略(即行動策略)。強化學習系統(tǒng)則更進一步,它創(chuàng)建的系統(tǒng)能夠做出決策、采取行動,然后根據反饋進行調整。例如,RL 系統(tǒng)可以根據其他 ML 系統(tǒng)的估計和視頻緩沖區(qū)的狀態(tài),直接為特定播放中的視頻選擇高比特率或低比特率。 雖然 RL 的策略優(yōu)化能力在研究中顯示出了良好的效果,但人工智能社區(qū)很難使用這些模型處理生產環(huán)境中有很大差別的實際需求。借助 Horizon AI,研究者可以將兩種完全不同類型的應用連接起來:復雜但終究有限的研究用模擬器環(huán)境;基于 ML 的策略優(yōu)化系統(tǒng),依賴于存在固有噪聲的、稀疏的、任意分布的數據。 就像深度學習徹底改變了神經網絡的應用,Horizon AI這樣的項目有可能將定義科學家和工程師未來如何將 RL 應用到生產環(huán)境中,怎樣使用策略優(yōu)化來產生影響。Horizon AI 考慮了特定生產環(huán)境的問題,包括特征規(guī)范化、分布式訓練、大規(guī)模部署和服務、具有數千種不同特征類型和分布的數據集,以及高維離散的連續(xù)動作空間。 盡管行業(yè)內也存在其他強化學習平臺,但Horizon AI是獨一無二的,因為它的設計意圖是輸出產品和結果,而非用于測試和實驗。 在Facebook平臺上,它基于用戶數據為推送通知系統(tǒng)提供決策,頁面管理員據此向用戶發(fā)送他們感興趣的信息更新,并提高網站關鍵功能(如在線視頻)的質量。 Facebook工程師、Horizon AI項目負責人杰森?高奇(JasonGauci)表示:“我認為強化學習將是整個行業(yè)的未來趨勢,會在機器學習方面得到廣泛采用。所以我們將Horizon AI開源,為全世界的愛好者提供一個出色的強化學習應用平臺。任何有基本經驗的人都可以生成一個數據集,訓練一個模型,看看它是如何工作的。我們希望讓更多人對這個領域感到興奮。” |