當前位置: 主頁 > 商業 >

        Facebook和Netflix都在用的實時機器學習什么樣?

        時間:2018-11-15來源:互聯網 作者:編輯 點擊:
        圖片來源:視覺中國 文|腦極體 最近,Facebook宣布開發出了一種新的算法Spiral,可以為網站上的數十億用戶提供實時調節的服務。能夠在短短幾分鐘內預測并將新結果輸出給用戶,而不

        圖片來源:視覺中國

        文|腦極體

        最近,Facebook宣布開發出了一種新的算法Spiral,可以為網站上的數十億用戶提供實時調節的服務。能夠在短短幾分鐘內預測并將新結果輸出給用戶,而不是依靠好幾周的數據來優化和更新服務。

        舉個例子,如果一個用戶突發奇想,想要知道“我的哪些朋友贊過此貼”,傳統算法的解決方案是,創建一個龐大而持續的長時間記錄,精心觀察和記錄每個相關用戶行為對結果的影響。

        但Spiral只需要幾分鐘就能收集反饋,自動學習并立即獲得精準推斷。

        聽起來是不是很神奇?

        最近,這種能夠隨數據獲取實時調整模型的實時機器學習,正在成為媒體技術領域的新“網紅”。曾經連續兩年,都被FTI評為傳媒業的重要技術趨勢之一,與自然語言理解NLU、機器閱讀理解MRC、音視頻算法等共享金字塔頂端的榮光。

        實時機器學習技術的深入應用,將解鎖很多超乎想象的媒體功能和應用場景。但是,盡管學界已經在算法上提出了幾種理想的架構,但產業端卻未迎來蓬勃的質變。這究竟是為什么?

        什么是實時機器學習

        在開啟扒皮模式之前,我們先來了解一下,實時機器學習究竟在哪些地方比傳統的機器學習更強?

        傳統的機器學習(ML)正在媒體領域得到越來越多的應用,利用算法實現內容的“個性化推薦”,已經成為主流媒體的標配。

        但過去的算法,主要側重于使用靜態模型和歷史數據進行訓練并提供預測。比如用戶在瀏覽網站時,可以根據用戶歷史行為數據來推送新聞。

        而一些新的涉及動態實施決策的業務,比如具備時效性的熱點新聞,或是用戶想要看點新東西,這就需要用一種新的算法來實現,即實時機器學習Real-Time Machine Learning。

        以頭條的核心技術“個性化推薦算法”為例,其核心原理就是根據用戶對文章的歷史行為數據反饋,進行統計挖掘和判斷。

        比如具有相同偏好的三個用戶,分別選擇了自己喜歡的文章,得到最高票數的文章就會被推薦給被系統打上同一屬性標簽的第四個人……以此類推。

        不難發現,傳統機器學習算法的成功,依賴于對用戶的“知根知底”,需要用戶不斷開放自己的私人領地。

        而實時機器學習,更擅長對用戶的當下需求體察入微,讓用戶在保持隱私安全感的同時,獲得如沐春風的瀏覽體驗。

        顯然,實時機器學習算法將主導一個令人期待的新世界,也有越來越多的媒體在為此做著準備。

        帶來的新挑戰

        實時機器學習雖然很美好,但要讓機器在數據獲取過程中實時調整模型,也帶來了不同維度的技術挑戰,讓工程師們為之禿頭:

        1. 高吞吐量與低延遲的平衡。

        媒體平臺的海量用戶需求,決定了實時機器學習要在每秒處理數百萬任務量級。以這樣的速度進行大規模的信息分發,需要細致到毫秒級的任務執行能力。

        2. 動態異構任務模塊的高效喚醒。

        對于Facebook這樣體量龐大的平臺來說,其服務是由成千上萬個不同模塊構建而成的,流量調節、圖像轉碼、存儲編碼等等。在實時任務中,會伴隨生成很多不同資源支持的新任務,增加系統的響應和處理難度。

        如何對這些重要且不一樣的特性進行預測,十分具有挑戰性。

        3. 實時算法與業務場景的融合。

        實時響應和預測,意味著留給系統的容錯空間更小。要保障這一技術在實際應用場景中的穩定性,就要在完成高吞吐量任務的同時,能夠快速模擬真實世界的交互,然后精準地判斷出,哪些是結果的決定性因素,從而做出正確的響應。

        舉個例子,如果想給用戶推薦“哪些朋友贊過此貼”,實時算法會快速判斷出“最近一次查看”這一數據集對完成該任務毫無意義,然后快速修改關聯并重新學習。這種自適應調整,可以有效防止用戶收到的結果中出現明顯的錯誤點。

        以上這些問題,似乎說明媒體們挑戰實時機器學習的難度還是蠻大的。那么,有必要做這么吃力不討好的事嗎?

        進擊的媒體:實時機器學習的N種可能

        盡管在剛剛問世時,基于靜態模型的機器學習算法,展現出了很高的分發效率優勢,目前看來,也仍舊能夠滿足大部分用戶的需求。但在某些場景下,還是會有鞭長莫及的地方:

        首先,是高質量流媒體體驗帶來的技術要求。目前主流內容平臺都在向音視頻業務推進,面對多元化內容和行為數據的及時分發,高延遲的解決方案就變得不太理想了。

        另外,傳統的機器學習算法,往往會為用戶打上各種各樣的偏好標簽,難以對即時或潛在的信息需求及時洞察與響應。這就會使用戶在“貼心”之余幸福地進入信息繭房,習慣性地被既有興趣所引導,失去了探索未知的動力和可能性。

        更為重要的是,靜態模型對歷史數據的規模化處理,只是一種理想狀態的假設。由于技術能力和隱私授權等重重限制,實現“全樣本”的數據分析幾乎不可能,結果就是其統計結果往往“以偏概全”。

        因此,作為一種更加高效的解決方案,實時機器學習自然成為了接下來媒體平臺提升用戶體驗的主戰場。

        其中,又分為了三個主要議題:

        1. 常規信息流與突發新聞實時推送的相互補充。目前,常規信息流依然在主流媒體的內容呈現中占據主要位置。而借由實時機器學習,可以將用戶偏好與突發的熱點事件相結合,方便讀者及時了解其他事件;

        2. 對歷史緩存機制的合理規避。為了應對用戶的查詢和需求,傳統的機器學習系統需要進行大量的數據庫更新。實際上,只有很小一部分數據才是真正影響輸出結果的,這無疑增加了很多不必要的工作量。通過更高效的算法來降低資源存儲和管理成本,自然吸引了媒體們用腳投票;

        3. 主動挑戰意外和偏見。媒體的本質是建立一個匯集各種不同觀點的公共平臺,而個性化算法總會讓人們停留在認知的舒適區。未來的新聞服務,如果想要挑戰讀者的偏見,又不愿激怒用戶,就需要運用實時算法來小心試探。未來,商業服務與新聞意志之間的矛盾,可能會被新的算法所消融,這種結果無疑會讓媒體的生存環境變得更好。

        總體來說,實時機器學習雖然還是個新生事物,已經吸引了眾多媒體巨頭們為它消得人憔悴,不僅因為它比此前的算法有著更低的成本與更好的療效,更因為它代表了一種媒體與AI融合更光明的前景:讓技術的革新為人類創造更多的可能性,而不是相反。

        頂一下
        (0)
        0%
        踩一下
        (0)
        0%
        ------分隔線----------------------------
        發表評論
        請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
        評價:
        文章導航
        推薦內容
        主站蜘蛛池模板: 国产成人精品视频福利app| 无码免费一区二区三区免费播放 | 免费传媒网站免费| 韩国一大片a毛片女同| 国产香蕉尹人综合在线观看| 免费无码黄网站在线观看| 免费观看成人羞羞视频软件| 夫妇交换性三中文字幕| 久久久综合久久| 欧美伊人久久大香线蕉综合| 动漫美女www网站免费看动漫| 国产精品你懂得| 国语free性xxxxxhd| 中文字幕一二三区乱码老| 最近2019中文字幕大全第二页| 亚洲视频在线免费| 色吊丝二区三区中文字幕| 国产欧美精品一区二区三区四区| a级情欲片在线观看hd| 抱着cao才爽| 久久精品欧美日韩精品| 欧美精品手机在线| 免费看的黄网站| 色噜噜狠狠一区二区三区果冻 | 精品久久8X国产免费观看| 国产伦一区二区三区免费| 久久久久国产一区二区| 欧美成人第一页| 免费A级毛片AV无码| 老外一级毛片免费看| 国产成人精品AA毛片| 4虎1515hh永久免费| 夫妇交换性三中文字幕| 中文字幕亚洲精品资源网| 日韩美女在线观看一区| 亚洲国产精品综合久久2007| 福利姬在线精品观看| 国产91伦子系列沙发午睡| 鲁一鲁一鲁一鲁一曰综合网| 国产精品免费αv视频| 99久热re在线精品996热视频|