騰訊正在聯動高校,利用王者榮耀的復雜環境,為推動通用人工智能研究創造各種可能性。 4月14日,第二屆“騰訊開悟多智能體強化學習大賽”(以下稱“大賽”)決賽在成都落幕,來自20多所頂尖高校的AI研發團隊,經過半年來的比拼,共有4支團隊進入決賽。經過現場激烈角逐,來自清華大學計算機系的團隊獲得本屆大賽冠軍。 本屆大賽由騰訊AI Lab、王者榮耀、騰訊新文創總部、騰訊高校合作、騰訊游戲學堂等共同發起。騰訊“開悟”AI開放研究平臺依托于騰訊太極機器學習平臺,為參賽團隊提供了研究資源、全棧打通的閉環科研驗證環境和輔助管理服務;算力方面,基于遨馳分布式云操作系統的新一代全球領先的異構加速引擎技術,為本屆AI大賽全程提供資源及技術支持。 據開悟平臺技術專家介紹,各隊在算法模型設計、獎勵函數設計以及訓練方式等方面,分別進行了探索嘗試,訓練出了較高強度的AI,并且在對戰中表現出了獨特的戰略風格。 本次賽事的四強隊伍,來自清華大學自動化系的王博源同學在分享中表示:“我們在參賽過程中極大地促進了合作能力,為今后的科研做好了鋪墊”;來自西安交通大學的王子儒同學更是表示,本次參賽經歷讓隊員們堅定了未來從事的科研方向。 開放AI能力,讓參賽者聚焦算法研究 本屆賽事沿用過往面向高校的邀請賽制,進一步擴大了開放規模,邀請20多所國內外知名高校參賽。參賽隊伍需要在指定的時間內,在給定的資源下訓練出最優模型,并最終部署好使用最優模型的AI服務器,提交系統完成1V1、3V3對局挑戰。 在賽事各階段,每支參賽隊伍都可獲得等量的訓練資源。這意味著參賽者無法通過無限加大算力來提升AI能力,而是需要不斷優化模型。同時,為了讓參賽者將目光聚焦于算法本身,賽事禁止參賽者為AI編寫規則,AI只能通過行為反饋來優化自身策略。 目前AI學界面臨的四大挑戰:算法、數據、算力、場景。研究場景稀缺、沒有數據、算法測試困難、算力昂貴等問題一直困擾高校AI研究團隊;隨著高校對強化學習算法研究的不斷深入,計算資源的需求量也水漲船高。除了機器資源本身,高校也缺乏容易上手的AI開放實驗平臺。 騰訊正在將自身的AI能力開放給AI研究者,致力于成為國內科研的助推器。 “開悟”是騰訊牽頭構建的AI多智能體與復雜決策開放研究平臺,依托騰訊AI Lab和王者榮耀在算法、算力和實驗場景方面的核心優勢,旨在為學術研究人員和算法開發者開放國內領先、國際一流研究與應用探索平臺。 其中,王者榮耀為高校AI研究提供了一種現實可用的場景。這款移動端的MOBA類游戲,具有高復雜度、高挑戰性、強協作性的特點。據統計,在王者5V5對局中,玩家的動作狀態空間高達10的20000次方,遠遠大于圍棋及其他簡單游戲,甚至超過整個宇宙的原子總數(10的80次方)。 “開悟”持續擴大開放范圍,發力AI人才教育 賽事之外,騰訊“開悟”AI開放研究平臺正持續擴大開放范圍,發力AI人才教育。 今年3月,成都大運會“數智競技”邀請賽正式啟動,該邀請賽由大運會執委會主辦、騰訊承辦,邀請全球12所高校的學生于開悟平臺上進行AI技術博弈,最終成績將于今年7月大運會期間發布。 騰訊新文創總部自2020年落戶成都,不斷探索區域科技創新、文化創新,與城市的整體力量合作,大運會世界大學生數智競技邀請賽和第二屆“開悟"Al大賽落地蓉城,是立足成都,講好科技故事的創新實踐。通過與互聯網企業的協作以及連接新型數字文化載體,推動建設人工智能開放交流的“科技+體育”新體系。 今年上半年,“開悟”平臺還基于兩屆賽事的積累,與北京大學、清華大學、電子科技大學、中科大四所國內高校合作開發了創新課程,進一步幫助高校學生在實踐中理解強化學習知識,目前相關課程已經陸續開課。 從短期來看,若AI能在類似“王者榮耀”這樣復雜的環境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、復雜的真實環境中發揮更大作用。下一個AI里程碑可能會在復雜策略游戲中誕生。 長遠來說,AI攻克游戲的能力將有助于解決真實世界的復雜問題。借助開悟平臺,騰訊AI Lab和王者榮耀希望聯動更多有興趣的高校和學者參與,共同在游戲環境中探討和研究這些難題,并尋找AI新技術覆蓋更多場景的可能性,服務醫療、工業、農業、交通等行業。 |