熱搜: 老榕樹  聯盟  廣告  阿里  cpa  網站  榕樹  cps  淘寶  產品 
 
當前位置: 首頁 » 站長資訊 » 網站優化 » 正文

清華教授彭蘭:假象、算法囚徒與權利讓渡,數據與算法時代的新風險

放大字體  縮小字體 發布日期:2019-01-27  瀏覽次數:84
核心提示:圖片來源圖蟲:已授站長之家使用作者:彭蘭來源:騰訊傳媒全媒派 (ID:quanmeipai)數據與算法的應用,擴張了人的能力,但也帶來很多新問題與新風險。客觀性數據可能成為后真相的另一種推手,因為數據生產環節的偏

圖片來源圖蟲:已授站長之家使用

作者:彭蘭 

來源:騰訊傳媒全媒派 (ID:quanmeipai)

數據與算法的應用,擴張了人的能力,但也帶來很多新問題與新風險。

客觀性數據可能成為后真相的另一種推手,因為數據生產環節的偏差可能導致客觀性數據堆積成的假象,數據分析也可能成為客觀事物的干擾因素。個性化算法雖然帶來了個人信息服務水平的提升,但也可能在幾個方面將人們圍困:

    一是信息繭房的圍困;

    二是算法中的偏見或歧視對人們社會資源與位置的限制;

    三是算法在幸福的名義下對人們的無形操縱。

數據時代個體面臨的另一個風險,是相關權利保護受到更多挑戰,特別是在隱私權和被遺忘權方面。要對抗這些風險,需要完善數據方面的基礎建設,包括數據素養的培養、數據的“基礎設施”建設、數據質量評估體系以及信息倫理規范的建立等。本期全媒派(ID:quanmeipai)帶來清華大學新聞與傳播學院彭蘭教授的新作,深度剖析數據時代的新風險。

近年,我們似乎進入了一個數據的大躍進時代,技術不斷賦予我們新的想象力與探索能力,也打開了一些過去人的感官不能達及的新領域,基于數據的各類算法也開始在我們身邊流行。但是,在這種大躍進中,又埋伏著很多新風險。對數據與算法的風險的理性分析與判斷,可以幫助我們認識新技術可能帶來的新陷阱。

“客觀性”數據:“后真相”的另一種推手?

 “后真相(Post-truth)”這個詞在近年進入中國研究者的視野,很大程度上緣于它被《牛津詞典》選為 2016 年度詞匯。在這個詞里的“post”表示的是“超越”,也就是“真相”不再那么重要。根據《牛津詞典》的解釋,后真相意味著,“客觀事實的陳述,往往不及訴諸情感和煽動信仰更容易影響民意”。

盡管《牛津詞典》在解釋后真相一詞時強調的是情緒等對客觀事實的“超越”,但后真相成為一個顯性的問題,還與 2016 年一些民意調查機構對美國大選等結果預測的失靈有關。因此,正如哲學研究者藍江所指出的,后真相時代是因為原來支撐真相的兩大基礎都崩潰了,即作為普世性的理性原則(以及與之相伴隨的演繹推理邏輯,甚至連哈貝馬斯所提倡的協商和交往理性也一并被質疑),以及作為經驗性數據收集、統計、分析的客觀性結論。

后真相現象提醒我們,數據與算法這些看上去客觀的手段與方法,并不一定能帶來更多真相,反而可能走向它的方面。

為什么客觀性數據也可能帶來假象?

數據往往被當作描述客觀事物、揭示真相的一種手段,但是,數據應用本身有一整套的規范,如果不遵循這些規范,或者在數據應用中出現了漏洞而未能察覺,未來我們或許會被更多由貌似客觀的數據堆積成的假象所包圍。從數據生產的角度看,每一個相關的步驟,都可能存在著導致假象的因素。

1. 數據樣本偏差帶來的“以偏概全”

盡管已經進入到“大數據”時代,而大數據的賣點之一是“全樣本”,但事實上,在現實中,獲得“全樣本”并不是一件容易的事。

今天的數據,特別是互聯網數據,被少數平臺壟斷,出于利益保護等因素考慮,平臺通常并不愿意將數據完全公開。他人從這些平臺“扒”數據時,會受到技術能力和權限等限制,這可能一定程度上影響到數據的完整性。平臺本身,也可能因為各種原因,未必能保留全樣本數據,例如,在社交平臺,刪貼必然會導致相關內容的不完整。

大數據分析也常常要依賴行業性數據,但在中國,由于歷史性的原因,很多行業本身就缺乏完整、系統的數據積累,能提供的,常常也是殘缺的數據。即使是傳統的小樣本分析,樣本的規模和代表性等方面的質量也越來越令人擔憂。

盡管今天人文社會科學都在強調問卷調查等經驗性數據分析方法,今天的本科和研究生也受到了一定的方法訓練,但是,在實際操作中,充斥著不規范、不嚴謹的現象,特別是在抽樣方面。武漢大學學生會在農民工研究中問卷調查的造假事件,也許不是孤立的個案。客觀的障礙是,今天的公眾已經厭倦了各種問卷調查,對問卷調查的抵觸、不配合或游戲心態,都會影響到問卷調查的開展。

因此,無論是全樣本數據,還是行業數據,或是傳統抽樣方法下的小數據等,都可能存在樣本不完整的問題,這也必然對數據分析結果的完整性、代表性產生影響。

2. “臟數據”帶來的污染

除了樣本的問題外,用各種方式獲取的數據,本身質量也可能存在問題。部分缺失的數據、重復的數據、失效的數據、造假的數據等,都被稱為“臟數據”。盡管數據處理前都會要求數據清洗,但這未必能完全消除臟數據帶來的污染。某些數據分析者也可能因為一些原因而無視臟數據的存在,甚至會制造一些臟數據、假數據。

3. 數據分析模型偏差帶來的方向性錯誤

完整、可用的數據只是數據分析的前提,要利用數據來準確描述或解釋客觀現象,還需要有科學、合理的分析模型。但是一些基于數據的實證分析,有可能建立的模型本身是有偏差的,有些數據應用者,甚至是為了得到自己希望的結果而在分析模型的設計中進行人為的“扭曲”,這些都必然導致結果的偏差。

4. 數據挖掘能力有限帶來的“淺嘗輒止”

數據量愈大、數據種類愈豐富、數據應用目標愈多元,也就意味著對數據挖掘能力的要求愈高,然而當各種力量都在快馬加鞭地涌入到數據應用領域,爭做各類數據產品時,卻未必都擁有相應的數據挖掘能力。特別是在媒體行業,以往數據應用傳統的缺乏、技術能力的不足,都會限制其數據挖掘能力,然而外界壓力卻又在迫使媒體力不從心地走向數據化,因此,數據應用多流于表層,其中的漏洞也越來越多。作為“擬態環境”的構建方式,媒體生產的過于簡單的、淺層的數據,也可能會誤導人們對現實社會的認識。

5.數據解讀的偏差

數據解讀能力,是數據利用能力的另一個重要層面。而沒有良好的數據方面的訓練,對數據的解讀可能會出現主觀隨意、簡單化等種種問題,例如,將數據的相關關系過度解讀為因果關系,是實踐中常見的問題之一。數據解讀往往也是橫向或縱向比較中完成的,如果缺乏參照信息,或比較性數據出現了問題,解讀自然也容易產生偏差。

數據描述與分析偏差,不僅會給我們對環境的認識帶來誤導,更大的風險是,它們可能帶來的決策偏差。在大數據或其他數據分析方法越來越多地用于公共決策和個人決策的指導時,這種風險將日益增加。

這些數據的誤用、濫用,一方面是因為數據應用能力的不足,另一方面則是數據應用者的價值導向和利益驅動的問題。一些數據分析的出發點,本來就不是要獲得對真相的完整認知,而是為了制造符合自己需要的“真相”或結果。錯誤導向或利益驅動的數據濫用,成為“后真相”現象更大的背景。

數據會成為客觀性的另一種干擾因素嗎?

2016 年美國總統大選,多家民調機構的預測結果的失敗,讓人們質疑數據的客觀性與準確性。而時隔兩年之后曝出的Facebook數據門事件,在某種意義上是對民調結果失靈的一個回應,從中或許可以探究當時民調結果失靈的部分原因,盡管我們并不能確定“牛津分析”對大選結果的干預究竟是否起了作用,或是起了多大作用。

這一事件還有著更深層的寓意,它提醒我們面臨的一個新挑戰:一方面,數據分析的目標是追求客觀地描述事物;另一方面,數據分析也可能會成為對客觀事物或客觀進程的干預力量。而可以預見的是,未來兩者之間的博弈可能會更成常態。

大數據的應用方向之一,就是對事物的發展趨勢做出判斷,從而盡早對風險進行預警,對危險進程進行干預。但實踐中,對現實進行干預的邊界應該在哪?對大選投票進行干預,是否屬于合理的大數據應用? 2012 年奧巴馬在美國大選中獲勝,一些研究者對其中的大數據應用津津樂道,而 2016 年特朗普在大選中勝出后,一些媒體開始對數據分析機構對選民態度的干預進行調查,Facebook數據門事件披露后,研究者似乎更多地對“牛津分析”的做法持批評態度。這或許與人們對特朗普的態度相關,但從另一個角度看,這也表明,大數據應用進入深層后,人們對它的影響及應用倫理的認識也在深入。

“牛津分析”等機構之所以能用數據分析影響人們的態度與立場,甚至影響人們對客觀世界的認識,是因為他們可以通過數據分析判斷不同人群的心理定位,以此為前提來定向推送信息,對人們感知到的信息環境進行控制,用有偏向的信息來影響人們的態度。

哲學學者劉擎指出:

    “后真相問題有其深刻的理論背景,最為相關的哲學淵源是一個多世紀前,尼采對事實真相客觀性的挑戰。尼采曾在《超善惡》的序言中寫道:‘視角(perspective)是所有生活的基本條件。’而在其遺稿‘札記(Nachlass)’中,他留下了著名斷言:‘沒有事實,只有闡釋。’這個被哲學界稱為‘視角主義(perspectivism)’的觀點是尼采哲學的核心思想之一,也為今天的后真相時代埋下了伏筆。”

他還認為:

    “視角主義與后真相問題還具有一個重要的關聯線索,可稱之為‘視角制造事實’的思路。……如果所謂‘事實’就是滿足了‘恰當證據’的事務,而恰當證據的標準又是視角所創立的,那么‘沒有獨立于視角的真實世界’意味著,‘事實’在一定意義上是視角所制造的。”

今天的某些大數據分析,在某種意義就是在分析甚至“制造”人們的“視角”,然后將符合視角的“事實”推送給他們,雖然推送的“事實”似乎是客觀的,但是,當它們被放置在人們的“視角”下時,就成為了影響主觀判斷和態度的重要手段。

對于后真相問題的破解,劉擎認為,真相的“客觀性”依賴于“共同視角”,澳洲學者約翰·基恩也指出,最終關于真相的認同還是取決于人們的共識(agreement)和信任(trust)。這些看法似乎也是多數學者在“后真相”問題上的共識。

因此,從解決“后真相”危機的角度看,今天我們更需要用數據分析來尋找人們的“共同視角”或“共識”。然而,在各種主體都在努力地尋求用數據分析和算法的力量來制造符合自己需要的信息環境和意見格局時,當數據和算法成為一種權力博弈的武器時,共識的發現與形成,必然困難重重。

 

 
 
[ 站長資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 違規舉報 ]  [ 關閉窗口 ]

 
0條 [查看全部]  相關評論

 
推薦圖文
點擊排行
 
網站首頁 | 網站地圖 | 廣告服務 | 積分換禮 | 網站留言 | RSS訂閱 | 閩ICP備17002783號
評論內容只代表網友觀點,與搜聯盟-廣告聯盟點評網立場無關!請網友注意辨別評論內容。
Powered by SoLMw.com
 
体彩大乐透预测爱彩网