全球數據經濟暴漲的當下,構建一個負責任的數據經濟框架關乎每一個人的安全。然而,什么是負責任的數據經濟?它的目標和原則是什么?在構建數據經濟框架前,我們該以何種方式對數據進行確權和保管? 11月10日,加州大學伯克利分校電子工程和計算機學系教授、Oasis Labs創始人宋曉冬在翼方健數舉辦的“Data X大會暨翼方健數戰略發布會”上提出上述問題。 這是一個數據安全和數據經濟大討論的時代。翼方健數在圍繞數據要素市場建設、行業數據價值輸出、數據開發應用生態以及隱私安全計算的技術進步等話題,邀請了宋曉冬、商湯科技創始人兼CEO、創新工場董事長兼首席執行官李 開復等數百位數據科技業界領先人物參與討論。 宋曉冬認為,當下最刻不容緩的事情是,構建一個負責任的數據經濟框架,這樣才能不斷激發數據的潛在價值。 她非??粗匚磥硎陮祿洕奶剿?,“2020這個時代會是建立負責任數據經濟的重要十年?!彼f。 技術欠缺阻礙數據價值發揮 如何用隱私數據安全技術激發數據的價值,是宋曉冬一直探討的課題。在她看來,作為數字和智能時代最重要的生產要素,數據已經成為現代經濟的關鍵驅動力。 她用一組數字佐證她的觀點,全球現在每天產生2.5萬億字節的數據,這個龐大數字的背后,意味著不可估量的價值。據推測,2020年全球數據經濟產值估計已達到3萬億美元;而歐盟公司的估測顯示,2020年個人數據產生的價值已占歐洲GDP總量的8。 然而,在宋曉冬看來,當下時代里個人對自身數據的使用權已經失去控制。很多個人數據在本人不知道的情況下被第三方買賣,例如美國加利福尼亞州機動車輛管理局(DMV)曾被查出違法銷售駕駛員個人信息,每年獲利達5000萬美元。 也有第三方買賣數據時號稱數據是在已經被匿名化前提下進行的。但是研究表明,數據匿名化并不能充分保護用戶的隱私信息。 《紐約時報》做過一個研究,他們從匿名手機位置數據中,追蹤到保衛前總統特勤局特工的位置,從而獲知特朗普的位置。 隱私數據保護不足除了對個人造成安全威脅,對企業來講,也同樣被大規模數據攻擊所困擾,攻擊者已經很多次成功從企業獲取上億甚至幾十億用戶的敏感信息。 龐大的數據與真正的數據價值實現之間,確實存在著不小的鴻溝。宋曉冬稱,根據數據的特性,傳統的技術解決方案存在很多不足。 傳統的技術解決方案主要是對數據在靜止或傳輸中進行加密,所以只能在數據靜止或傳輸中進行保護,這種情況下,數據要么還沒有被使用,要么已經被復制。而數據在復制之后就很難再被控制,被復制的數據在以后怎樣被使用,我們不得而知。 “所以今天我們面臨的如何更好使用數據的最大的挑戰,是怎么在使用數據的同時又能對用戶隱私進行保護,而且能負責任的使用數據?!彼螘远f,這些挑戰如果不解決,問題會變得越來越嚴峻,未來甚至會阻礙社會進步,乃至破壞人類基本權利和價值。 上述多重隱私數據安全問題不僅困擾個人和企業,也對數據安全技術公司提出了挑戰。今天,如宋曉冬所述的蘊含巨大經濟價值的數據,大都因為缺乏保障隱私數據的解決方案,而被鎖在數據庫中不能被利用,更難談發揮其應有的數據價值。針對這個問題,作為數據安全技術公司,翼方健數認為,在“解鎖數據價值”技術路徑的實現上,隱私計算僅是必要不充分條件,而翼方健數所做的,就是將條件補足充分,提供了數據的全生命周期服務。翼方健數不僅僅局限于某一單個技術,而是專注于解決數據流通全流程的問題,以滿足行業實現可量化、可分配的數據價值。 構建負責任的數據經濟框架刻不容緩 宋曉冬提出,我們應該盡快構建一個負責任的數據經濟框架。 什么是負責任的數據經濟?負責任數據經濟的目標和原則是什么?在她看來,這首先應考慮到個人的數據權益保護。 “數據權益是數據經濟的基石,需要先建立數據權益,我們才能防止數據的濫用和誤用?!彼f。除了建立數據權益保護機制,我們還需要公平地分配數據產生的價值,使用戶能夠從自身數據當中獲得更好的收益。最重要的一點,我們需要能夠更有效地使用數據,來實現社會福利和經濟效益最大化。 但是數據有很多獨特的特性,數據的這些獨特特性對建立負責任的數據經濟提出了很大的挑戰。例如,數據的使用和數據隱私之間是天然對立的。我們希望從數據當中得到很多信息、獲得更多的價值,但我們也希望在數據使用過程中能夠確保用戶的隱私安全。此外,數據自身還有其他的特性,包括關聯性、外部性等等。 所以要建立一個負責任的數據經濟框架,原有的數據隱私保護框架并不能滿足,“我們需要提出一個新的解決方案。” 宋曉冬提出的“負責任的數據經濟框架”有三個部分,即技術解決方案、更好的法律框架及激勵模式。 其中技術解決方案即針對上述提到的傳統技術的不足之處,即怎樣對使用過程中的數據進行保護。她認為主要有兩點,第一我們需要能夠控制數據的使用,包括數據可用不可見;第二我們需要保護計算的結果輸出不泄露敏感信息,而且保證數據使用的合規性。 在新的技術領域下,有幾大方面用來幫助共同解決技術方面的問題。包括安全計算,它包括使用安全硬件和密碼學支持的方案來確保數據在計算過程中沒有數據信息的泄露;差分隱私,可以用來確保數據的輸出結果不會泄露個人的敏感信息;聯邦學習,可以幫助數據在不離開數據所有者的機器的前提下,運用分布式方法進行模型訓練。 “簡單提一下安全計算技術,安全計算的目的是為了保證在數據計算過程中,不泄露數據敏感信息。在這里主要有兩種方法,一種是使用可信硬件,一種是使用密碼學包括安全多方計算、同態加密等等。它不需要依賴于硬件支持,但是在信任上會有很大損耗,通常會是上百倍上千倍甚至更多?!?/p> 最近幾年對運用同態加密和多方安全計算有很多研究,但是從性能來講這些方法還是不足以支持很多實際當中的應用,包括在很多應用場景下,應用這些方法來做機器模型訓練需要花很多年時間。 另一種做安全計算的方法是使用可信硬件,它的好處是性能非常好,可以支持通用計算。近年來不少硬件廠商也研發了他們自己的可信硬件的產品。比如2014年由ARM公司提出的一套基于嵌入式設備的硬件隔離技術,其后Intel、NVIDIA等也都分別研發了自己的產品。伯克利大學也研發了一個開源的安全硬件,Keystone,它是一個開放框架、可定制的可信執行環境,其實驗結果表明,在Keystone環境下進行繼續學習跟native computation(原生計算)相差很小。 隱私安全計算現在距大規模落地還有很大的差距,目前除了翼方健數等少數一線數據安全計算公司,全球能真正實現應用場景落地的少之又少。但對于未來十年,宋曉冬認為很多隱私安全計算的技術會繼續發展,可能將變成數據計算的基礎設施。甚至在未來十年里,大多數芯片也將具有secure enclave(安全執行環境)的功能,大多數計算機也將使用secure enclave。 未來十年是構建負責任數據經濟的重要十年 負責任的數據經濟框架除了技術解決方案之外,也需要有效的法律框架和激勵模式的支持。 在法律框架下,什么是數據權?誰來控制數據權?這些最基礎的問題如今并沒有明確的答案。 來自全球的從業者們也都在探索不同的數據權的概念和框架,比如由埃里克·波斯納(Eric Posner)和格倫·韋爾(Glen Weyl)提出的“數據即生產力”,個人可以組建工會并以集體的名義對數據的使用進行討價還價。由記者Rana Foroohar提出的“公共數據銀行(或叫數據信托)”則建議數據權由政府監管。其他的還有“標準最低工資制”,保證為用戶提供一些基本補償,以換取有用的數據;“大型科技公司主導制”則建議,由大型科技公司為用戶提供管理、下載和刪除自己數據的工具。 “總體來講,我們需要以數據驅動、技術指導的監管法規,比如負責任數據技術的發展將如何影響監管框架?怎樣使得監管法規更快、更廣泛地推廣使用負責任數據技術?”宋曉冬說。此外我們還需要新的既定模式和更好的更公平的方式來分配數據產生的價值。 值得注意的是,宋曉冬及其團隊近期提出利用Shapley value(夏普利值)的概念來對機器模型訓練當中數據產生的價值進行分配,以求達到更好的效果。 至于未來數據究竟如何得到妥善保管和利用,其稱未來我們會看到一種新興的數據源的使用方法?!皵祿磐?、數據共地將主導各種數據的應用,從而實現所有權經濟,用戶作為數據所有者和合作伙伴從其數據中受益。” 這也將催生一些被稱為“數據監護人”或者“數據受托人”的群體和行業,他們可能將成為數據生態系統中重要的新型實體,可以管理并保護用戶的數據并提高其價值。 宋曉冬預測,這些新形式的數據信托、數據共地可能會創造巨大的經濟價值,“比當今的數據市場高幾個數量級”。 “總體來講,我們為了數字時代更好的明天,需要建立一個負責任的數據經濟,2020這個時代會是建立負責任數據經濟的重要十年?!彼螘远f。 |