在2016年大數據展上,一人在試用VR設備。圖片來源:新華社 |
過去15年里,我們見證了大數據爆炸(這些數據來自互聯網,社交媒體,科學設備,智能手機,監控攝像頭等等),以及涌現出的各種計算機數據處理技術。眾所周知,大數據無疑將促進重要領域科學、技術和醫學的進步。可它也會因被誤用或濫用造成巨大風險。
首先需要擔心的是,大量的數據并不等同于高質量數據。比如說,據近期《自然》雜志報道,美國的選舉民意調查獲得有代表性的人口樣本越來越難,因為法律規定,他們目前只能通過呼叫固定電話進行信息調查采集,但事實上越來越多的美國人更偏向用手機。即使我們能通過社交媒體搜集無數民眾發表的政治觀點,這些仍無法代表投票選民真實的意愿。事實上,推特和臉書上很多政治觀點都是電腦自動生成的。
按搜索結果來做聘用與晉升決策的大數據體系,很可能會對黑人不利,而原因僅僅是該候選人與大數據搜索結果中“此發型顯得人不專業”的各種圖片相匹配,這不過是把傳統的社會偏見體現在大數據上罷了。況且這種假設并非空穴來風。去年,網絡新聞機構ProPublica對累犯風險模型進行了研究并指出,我們所廣泛運用的為被捕犯人進行判決的數據系統,高估了黑人嫌疑人有罪的可能性而低估了白人的犯罪幾率。
大數據的另一風險便是它易為人所操縱。人們一旦知道某個數據庫會用來做出對他們有影響的決策,肯定會費盡心思把衡量的天平傾向對自己有利的一方。比如說,如果按學生考試成績對老師進行評估,老師便可能會相應地調整策略,傾向應試教育,有的老師甚至會在教師考評中弄虛作假。
與之類似的還有大學公職人員,為了提升自己大學在美國媒體或是世界大學排名的等級,做出了很多違規行為,比如挪用學術研究經費投資高檔豪華健身房。更有甚者還做出了有違師德的行徑,圣瑪麗山大學為了提高學生保留率,在學校開學前幾周便找出了學校學習成績較弱的學生并令其退學。
要知道,如今大量可獲取的數據都含有私人信息,因此,大數據可能帶來的第三個風險便是對個人隱私的侵犯。近年來,大量商業與政府網站的機密數據庫紛紛被盜;研究人員也表示,人們的政治立場甚至性取向都可以通過搜集平日網上發布的動態(比如影評)準確分析出來——哪怕是人們匿名發布的動態也逃不脫。
最后,大數據在使用過程中缺乏明確的權責體系。因為對大數據分析出的具體結果無法作進一步解讀,而且要是編寫該決策程序的相關人員拒絕提供該程序運作的具體細節,那么一旦自己在大數據決策中受到了不公待遇,根本就申訴無門。雖然政府和企業可能出于警示不法分子的目的,聲稱這些大數據的決策程序是基于數學的科學方法,但是,就連政府和企業自己都對這種所謂的科學方法心存敬畏。歐盟近日通過了一項叫“解釋權”的措施,用以保證人們不受算法程序的誤判。
當然,這項措施在實踐中是否有效可行,只有等待時間來告訴我們了。數據科學家凱西·奧尼爾在她近期著作《數學殺傷性武器》中指出,當人受大數據迫害時卻求助無門時,對社會將產生深遠的負面影響。
當然了,大數據帶來的風險是可以大大避免的。為了避免這些風險,我們就要堅定保護個人隱私,監測并糾正數據程序可能造成的不公推測,謹慎對待程序推算出的結論,嚴格跟進算法內部的運作和推算出決策的數據。
關于作者
恩尼斯特·戴維斯,紐約大學數學科學研究所計算機科學教授。
(編譯:羅玲敏 編輯:齊磊)