大數據,算不準老天爺
進入夏季后,天氣開始變得“喜怒無?!?,一會狂風暴雨一會晴空萬里。出門前看看手里的天氣軟件,發現同樣的手機型號,同樣的天氣軟件,同樣的時間地點,居然有不同的天氣預測結果。這是為什么呢?本文作者對此進行了分析,一起來看看吧。
一、同樣的屋檐,不同的天氣
夏天到了,陰雨多發。
上班前閑著沒事,一群無聊的人看著窗外天色,用幾點下雨打賭,來決定午飯由誰買單。
一邊下注,一邊已經有人拿起手機,開始查攻略。
其實,這也算不上作弊。誰都知道,天氣預報軟件,報不準天氣,有時候甚至還沒猜的準。
而且,同事們拿著不同的手機,用著不一樣的天氣預報軟件。念出的天氣預測結果,果然也天差地別。
但當同事小艾,念出她手機的預測結果時,有些出乎我的意料——小艾和我用著同一款手機,天氣軟件都是系統自帶的天氣軟件,但天氣預報居然和我手機上顯示的不同。
我拿來她的手機,再次確認:我們身處同一個位置,都開著系統定位,且都賦予了天氣軟件讀取定位的權限,我們也在同一個WIFI環境下。
我們使用著同樣的手機、同一個款天氣軟件,也更新到了同一版本。
我們為了避免時間誤差,都多次刷新了天氣預報頁面。
但天氣預報結果,依然是不同的。
這兩份天氣預報中,至少有一份是錯的。又或者兩份都是錯的。
難道天氣預報的數據推送,也會根據不同人的喜愛,給出不同的結果?
二、同樣的行跡,不同的位置
最近幾年,很多同事選擇了自行車上下班。
因為健康,因為環?!灿锌赡苁且驗楦F。
公司附近有幾處重要的辦事機構,管理較為嚴格,共享單車不能隨地停放,必須放在指定的區域。
而在具體的操作中,必須現在手機上操作,確認已抵達規定還車地點,才能進行關鎖。
然后,那些鐘愛睡懶覺的同事,就體會到了什么叫噩夢。
離上班時間還有2分鐘,騎自行車來到公司樓下,駐足在停車區域內,點擊手機上的“我要還車”,然后看到提示:您不在還車區域。
之后,自然是一番折騰,向前動動,向后挪挪,但無論如何進出,手機頁面上總顯示者:距離指定還車區域3米。
更過分的是,旁邊一樣過來停車的人,紛紛抵達位置,其中有不少直接關鎖走人,沒有在定位環節遇到麻煩。
看著上班時間已過,成年人的崩潰,往往就在那么一瞬間:咱的定位數據,為什么永遠都差3米?
不過,他也很快釋然了:既然停不了車,干脆騎車出去吃個早飯吧。遲到要扣錢,違規停車也要扣錢,反正總要扣一個。
三、同樣的搜索,不同的結果
還是閑來無事的辦公室生活。
到了下午5點,人們都忙完了手頭的任務,開始刷著手機,靜待下班。
小艾新買了個頭飾,楊妹子看著不錯,問她要鏈接。
微信轉發淘寶鏈接比較麻煩,小艾是個懶人,就跟楊妹子說:你就搜索#$%%@@%,第一個就是。
楊妹子聽話照做,在淘寶搜索欄里輸入了#$%%@@%,但別說第一個,連著刷了十頁,也沒有看到小艾買到的那件頭飾。
其實,不同人在淘寶搜索同一個詞,會出現不同的結果,也不算是什么新鮮事情。
系統會根據每個人的搜索、購買習慣,給他們推薦,系統認為他們最有可能感興趣、最有可能購買的商品。
不過這些推薦,顯然還沒有完全猜透用戶心意。
搜索結果,都是楊妹子不感興趣的。
而她現在、立刻、馬上就想要購買的商品,系統卻沒有推送給她。
大數據的判斷,是不是很不準確?
四、數據缺陷,顯而易見
大數據有問題嗎?
它距離完美還差的很遠。
而在生活中這些瑣碎的事情上,我們也能看到,大數據一些顯而易見的缺陷。
1. 因為邊緣數據,忽略了主要問題
現如今的大數據,基于龐大的數據量進行推算。
不過,數據與數據間,也具有權重差異:一些數據對計算結果有重要影響,一些數據卻只作為參考。
但當邊緣數據足夠多的時候,也會對結果帶來質的影響。讓一些本應該起到決定性作用的數據,被邊緣化。
就如剛才天氣預報結果的區別,可能也是數據推算帶來的差異。
不只以氣象局的預測為依據,也結合了每個人的行動軌跡、遇雨頻率等個體差異,進行單獨分析。
但分析結果怎么樣?
同一時間,同一地點,卻給出了截然不同的天氣預報。
難道是否下雨,會根據每個人的行動軌跡而變化嗎?
我們沒有生活在楚門的世界,我們也不叫蕭敬騰。
處在同一屋檐下,應該面對同樣的天氣,這個常識,卻在計算中,被大量的數據擠到了一邊。
而在網絡世界中,事實被大量數據擊垮,其實極為常見:
點贊多的視頻,未必真的有趣。
如果能找來足夠多的人刷點擊、刷關注、刷贊、刷評論,一些低質量的視頻,也可以成為熱門,推送給很多人。
評分低的飯店,未必就很難吃。
只要找足夠多的人去惡意差評,可以輕松把一家飯店的評分搞下去。而很多飯店在開業之初,startupheLpost.com,也會找大量的人刷好評,讓自己屹立在推薦頭部。
當非真實的評價足夠多時,真實就會被掩蓋。至于飯菜味道究竟怎么樣,數據又嘗不出來。
2. 用復雜的方式,做了簡單的問題
因為大數據的存在,讓很多原本非常簡單的問題,變得很復雜。
一些顯而易見的答案,卻被藏了起來。
當你搜索1+1時,首屏上80%的搜索結果,不是1+1=2,而是哥德巴赫猜想、電影、歌曲之類與1+1相關的東西,甚至關于1+1=1的推論。
明明是個很簡單的問題,卻因為大量相關資料的存在,而被演化的非常復雜。