分析大數據,R語言和Linux系統(tǒng)比較有幫助,運用到的方法原理可以翻翻大學的統(tǒng)計學,不需要完全理解,重在應用。
分析簡單數據,Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒有見過有人說自己精通Excel的,最多是熟悉Excel。Excel的函數可以幫助你處理大部分數據。
數據分析是指用適當的統(tǒng)計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,并使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發(fā)現了一個令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過后續(xù)調查發(fā)現,這種現象出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關系的關聯算法,并根據商品之間的關系,找出客戶的購買行為。艾格拉沃從數學及計算機算法角度提 出了商品關聯關系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,并獲得了成功,于是產生了“啤酒與尿布”的故事。
數據分析落實到實處,一般就是圍繞用戶漏斗展開的。也就是人們常說的訪問-激活-留存-交易-推薦。
這核心的5步會有不同維度的細分。
獲客:來源、渠道、關鍵字、著陸頁、地域、設備、訪問時間、跳出率、訪問深度、停留時間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數據,可以通過ptengine通過漏斗細分得到可視化圖表。一般來講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數據和當年第一周)即可獲得數據的變化情況。
以上,其實不用很專業(yè)也能做好數據分析,獲取數據并不難,難的是你能洞察數據背后的意義。
使用R語言的時候,如果是少量數據,不妨使用c()或其他函數進行創(chuàng)建;但是對于大量數據,最好還是先通過其他更方便的軟件創(chuàng)建數據文件,然后使用R讀入這個文件。
.csv是非常好的數據文件格式,跨平臺支持非常好。我在Excel或者SPSS中創(chuàng)建的數據,只要存為csv格式,就可以使用幾乎任何數據處理軟件對這些數據進行處理了。使用通用格式在多人合作、不同版本兼容等常見行為中,優(yōu)勢十分明顯。另外,之所以使用不同的數據處理軟件,第一,可以取長補短。比如有些工作SPSS很復雜的,可以用R語言幾行命令搞定。第二,可以進行軟件間處理結果對照,發(fā)現問題。
R語言中讀取外部文件的最基本函數是read.table(),還有用來讀csv的read.csv(), .csv是非常好的數據文件格式,跨平臺支持非常好。
輸入help(read.table)命令,就看到了關于數據輸入函數的說明。
框內的數字是行變量和列變量之間的相關系數R,相關系數R絕對值越大,顏色越深(紅正,藍負)。統(tǒng)計學中,P值越小相關性越顯著,一般來說 一個*代表顯著相關(P值為0.01,選取不同參數可能不一樣)、兩個**代表極顯著相關(P值為0.001)、三個***代表極極顯著相關(P值為0.0001). 圖中還可以看出,相關系數R的絕對值0.67(變量P50與T之間)以上的都顯著相關,至少一個*。符合一般關于相關系數R值的顯著性統(tǒng)計。
處理工程數據一般有三種方法:數據程序化處理、數據文件化處理、數據庫處理。
數據程序化處理的優(yōu)點是:充分將數據與程序結合在了一起。其缺點是數據無法共享,增加了程序的長度。
數據文件化處理的優(yōu)點是:數據與程序作了初步的分離,實現了有條件的共享。其缺點有四點:①文件只能表示事物而不能表示事物之間的聯系;②文件較長;③數據與應用程序之間仍有依賴關系;④安全性和保密性較差。
數據庫處理的優(yōu)點是:①數據共享,②數據集中,安全性和保密性好。③數據結構化,既表示了事物,又表示了事物之間的聯系。
其缺點是:數據與應用程序無關聯。
如果說數據挖掘是一門手藝,那么R語言就是工匠手里一種工具,要做出一件價值連城的藝術品需要先“利其器”,但更關鍵的是工匠能夠“集百家之長,成一家之言“自成一派的創(chuàng)造力。
正所謂”操千曲而后曉聲,觀千劍而后識器"。建議初學者先了解一些機器學習的基礎理論以及典型的應用領域實例,定下自己想要研究的方向后與行業(yè)相結合,然后再學習工具的使用。
R語言經典圖書推薦:
《R in Action-Data Analysis and Graphics with R》鏈接:R語言實戰(zhàn) (豆瓣)
這本書從實用的統(tǒng)計研究角度,每一章節(jié)結合實際的例子講解了R在創(chuàng)建數據集、繪制圖形、數據管理、以及模型構建的使用方法,堪稱經典。前兩部分屬于R基本功能介紹,第三部分以后才是精髓開始(包括了回歸分析、方差分析、功效分析、廣義線性模型、主成分和因子分析等統(tǒng)計方法詳細的實例分析)。
《數據之魅-基于開源工具的數據分析》鏈接:數據之魅 (豆瓣)
作者是華盛頓大學理論物理學博士。這本書是數據分析系列著作的經典之一,包含大量的R語言模擬過程及結果展示,例舉了很多數據分析實例和代碼。吃透以后就能夠對整個數據挖掘的流程有一個全方位的了解。
轉載
數據分析師的工作一定要好好把握。關于數據分析師的思路和方法,小編覺得是這樣的:
首先,你要明白什么是數據分析;
第二你要知道數據分析的目的;
第三、清楚數據分析的分類以及作用:現狀分析、原因分析、預測分析第四,如何進行數據分析:
1.明確目的和思路
2.數據收集
3.數據處理
4.數據分析
數據處理好之后,就要進行數據分析,數據分析是用適當的分析方法及工具,對處理過的數據進行分析,提取有價值的信息,形成有效結論的過程。
常用的數據分析工具,掌握Excel的數據透視表,就能解決大多數的問題。需要的話,可以再有針對性的學習SPSS、SAS等。
數據挖掘是一種高級的數據分析方法,你需要掌握數據挖掘基礎理論,數據庫操作Phython,R語言, Java 等編程語言的使用以及高級的數據可視化技術。要側重解決四類數據分析問題:分類、聚類、關聯和預測,重點在尋找模式與規(guī)律。
5.數據展現
一般情況下,數據是通過表格和圖形的方式來呈現的。常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點圖、雷達圖等。進一步加工整理變成我們需要的圖形,如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。
圖表制作的五個步驟:
確定要表達主題;確定哪種圖表最適合;選擇數據制作圖表;檢查是否真實;反映數據檢查是否表達觀點
6.報告撰寫
數據分析的四大誤區(qū)
1.目的不明確,為了做而作,導致分析效果不明確;
2.對與行業(yè)、公司業(yè)務還有其他考慮因素認知不清楚,分析結果偏離實際。
3.為了方法而方法,為了工具而工具,只要能解決問題的方法和工具就是好的方法和工具;
4.數據本身是客觀的,但被解讀出來的數據是主觀的。同樣的數據由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶著觀點去分析。
每個人都有自己的工作特點和方法傾向,不過對于數據分析這種很有邏輯的工作,邏輯思路一定要處理清楚,該遵從的客觀標準還是要嚴格遵守,而且數據分析只有產生了價值,你做的這份工作才算真在發(fā)揮了作用。
聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.813秒