當前位置:首頁 > 運營推廣

如何正確進行數據分析

時間:2019-05-25 20:40:00來源:運營推廣作者:seo實驗室小編閱讀:73次「手機版」
 

歐拉迪官網

先給大家看幾條關于互聯網新聞,第一條是百度網頁搜索份額達到73.2%,百度處理了1096億條網頁搜索請求,與去年相比提升了0.6個百分點。報告發布后,有出現了很多博客就根據這個數字來攻擊Google,說它做的不好。

來看第二條,還是同一份數據,里面提到百度搜索請求提升了0.5個百分點,google搜索請求提升了3.5個百分點,google成為增長最快的搜索引擎

這兩個新聞都用了數據,而且是一樣的數據,但如果只看第一條和第二條后得出的結論是截然不同的。那看第三條,同樣是關于市場份額的數據,百度市場份額下降2.1%,google增加5.6,二者差距縮小至7.7%。同樣的幾條新聞看下來,都是和搜索引擎市場份額相關的數字,但如果是一個對搜索引擎市場不熟悉的人看到,最后就會得出一個非常混亂的結論。

為什么三篇新聞引用了同樣的數據卻得出了不同的結果?下面盧松松來解析下關于如何分析數據的幾個原則。

第一,獨立的看一個數據是沒有意義的。

接著上面的講,百度和google市場份額問題,在第一條新聞中說到百度市場份額上升0.6%,給人感覺是百度上升,自然而然就暗示百度上升、google下降。第二條報道比較全面,它的含義是其他搜索引擎份額都在下降,google和百度都在增長,而且google增長的更快。這說明我們不能孤立的看一個數字。

在比如把搜狐新浪全放在一起對比的話,會很不合理,搜狐有網游、無線、廣告,而新浪主要是無線和廣告,3:2顯然不合理,單獨拉出來比較才有比較合理的。

第二,數據的口徑必須有可比性。

對于本文前面提到的搜索引擎市場份額的例子,有的按搜索請求來定義,有的按收入來定義,把不同的數據放在一起比是沒意義的。如果一個數據不能自然而然的看出來,就應該看下他的定義。即使同樣的定義,不同的公司來做,得出的結果也不盡相同。重要的是我們一定要保證口徑一致的前提下進行比較。

第三,數據收集方式的差異

各個網站上經常出現熱點事件報道后的調查,例如360和QQ你選擇卸載誰的調查,其實結果往往不能反映真實情況,因為一般而言,只有對這個新聞關心的人才來表達如何看新聞,才來投票,用他們的投票結果來代表整體的意見,從而引導另一批不明真相的群眾跟隨主流觀點。網絡調查的結果很容易被廠商利用,用以宣傳自己抨擊對手。

因此,對一個數字,最好多問幾個問題。碰到一個數字時最好不好直接拿出來用,首先應該清楚數據的來源是哪里,它通過什么方式獲得的,這個數據的含義、定義是什么,是否有什么遺漏的地方。就像之前搜索引擎市場份額的例子,看明白是哪部分份額、以什么為標準,之后才能得出正確的結論。

相關閱讀

數據庫學習的一些基礎知識及常用命令

數據庫 “數據庫”是以一定方式儲存在一起、能夠多個用戶共享、具有盡可能小的冗余度、與應用程序彼此獨立的數據集合。 【基本

數據結構之二叉排序樹(C語言實現)

一、基本概念 1.二叉排序樹 二叉排序樹(Binary sort tree,BST),又稱為二叉查找樹,或者是一棵空樹;或者是具有下列性質的二叉樹: (1)若

數據倉庫

操作型數據(如:某超市昨天賣了一箱啤酒,收銀員實際收到100,找零20元)。 特點:細節化,分散化。 決策型數據(如:該超市上個月一共賣了多少瓶

數據結構與算法(一)---重點復習知識

吐槽 國慶假期第二天,去實驗室開門,給貓貓鏟丑丑,然后給她換貓糧,換水,喂這貨吃的emmmmmm,然后今天就把之前在極客時間上買的數據結構與

大獎章 量化 數據 接口

1. 股票歷史數據、行情數據、券商交易接口2.免費的個人版3.支持多種語言:Matlab、R語言、Python、Excel/VBA、C++、C#6.模擬交易柜

分享到:

欄目導航

推薦閱讀

熱門閱讀

17321期胆码王孑计划