時間:2023-08-03 09:19:03
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據分析的方法范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
最簡單的拆分方法就是不看平均值,看數據分布。因為凡 是“總和”或者“平均”類的統計數據都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時間我們公司辦公室里的“平均資產”就會因為李嘉誠一個人 被抬高到人均幾億身家。如果有人根據這個“平均資產”數據來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。
可實際上,我們每天都在做著類似的判斷,比如當我們聽到說顧客“平均在線時間”是3分34秒,就可能根據這個時間來進行業務決策,例如設置“停留時間超過3分34秒為高價值流量”,或者設置系統,在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務窗口。我們設置這些時間點的根據是“平均停留時間”,在我們的想象里,我們的每個顧客都有著“平均的”表現,停留時間大致都是3分34秒,可實際上真正的顧客訪問時間有長有短,差別巨大:
在一些數據中我們可以看得出來,訪客平均停留在頁面的時間非常的短暫,具體的也就是說,問需要在淘寶數據分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個就看個人是怎么想的了,這里也就不多說了。
再舉一個例子,比如我們看到上個月平均訂單金額500元/單,這個月也是500元/單,可能會覺得數字沒有變化??墒菍嶋H上有可能上個月5萬單都是400~600元,而這個月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習慣已經發生了巨大變化,一方面可能是客戶訂單在變?。赡苁且驗楫a品單價下降,采購數量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現了一些相對較大的訂單(可能是中小企業采購,或者是網站擴充產品線見效了)?!磾祿植伎梢宰屛覀兏菀装l現這些潛在的變化,及時的做出應對。
二、拆因子
很多時候我們很難直接從數據變化中分析出具體的原因,這時可以考慮拆分因子,將問題一步步細化找尋原因。
例如網站轉化率下降,我們要找原因。因為“轉化率”=“訂單”/“流 量”,所以“轉化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個思路我們可能發現主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么
下面我們就可以來拆解“流量”的構成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發生了變 化,接下來再找原因。這時我們可能看到說是搜索引擎訪問流量上升,那就可以再進一步分析是付費關鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網站名相關)關鍵詞流量上升,還是其他詞帶來的流
量上升——假如最后發現是非品牌類關鍵詞帶來的流量上升,那么繼續尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產品頁面改版過,就可以查一下是不是因為改版讓搜索引擎收錄變多,權重變高。接下來再分析自己到底哪里做對了幫助網站SEO了(比如把頁面導航欄從圖片換成了文字),把經驗記下來為以后改版提供參考;另
一方面還要分析哪里沒做好(因為新增流量但是并沒有相應增加太多銷售),研究怎樣讓“產品頁面”更具吸引力——因為對很多搜索引擎流量來說,他們對網站的第一印象是產品頁面,而不是首頁。
三、拆步驟
還有些時候,我們通過拆分步驟來獲取更多信息。
舉兩個例子:
第一個例子:兩個營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個營銷活動效率差不多?
如果我們把每個營銷活動的流量拆細去看每一步,就會發現不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產品更感興趣,看完著陸頁之后更多的人去看了產品頁面。可惜的是雖然看產品的人很多,最后轉化率不高,訂單數和營銷活動 A一樣。
這里面還可以再深入分析(結合之前提到的分析方法,和下一章要說的細分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個營銷活動的顧客習慣不太一樣,營銷活動 B的著陸頁設計更好,營銷活動 B的顧客更符合我們的目標客戶描述、更懂產品——但是我們的價格沒有優勢等等這些猜想是我們深入進行分析,得出行動方案的起點。至少,它可以幫助我們
更快的累計經驗,下次設計營銷活動的時候會更有的放矢,而不是僅僅寫一個簡單report說這兩個營銷活動效果一樣就結案了。(注:這是個簡化的例子,實際上還可以分更多層)
第二個例子可能更常見一些,比如網站轉化率下降,我們可以拆成這樣的漏斗:
這樣拆好之后,更能清楚地看到到底是哪一步的轉化率發生了變化。有可能是訪客質量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運費放到購物車中計算,很可能就看到這一步流失率飆升),這樣拆細之后更方便我們分析。
曾經有一個例子就是轉化率下降,市場部查流量質量發現沒問題,產品經理查價格競爭力也沒問題——最后發現是技術部為了防止惡意注冊,在登錄頁面加了驗證碼(而且那個驗證碼極度復雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉化率。
四、細分用戶族群
中圖分類號:F276.1
文獻標識碼:A
文章編號:1002―2848―2007(01)-0108―06
一、前 言
在經濟數據的傳統定量分析中,所分析的數據對象具有這樣的特征,即數據要么是時間序列數據,要么是橫截面數據。而實際中獲得的許多經濟數據,往往是在時間序列上取多個截面,再在這些截面上同時選取樣本觀測值所構成的樣本數據。計量經濟學中稱這樣的數據為“平行數據”(Panel Da―ta),也被翻譯成“面板數據”,或“縱向數據”(longitudinal data)。20多年來,許多學者研究分析了面板數據。事實上,關于面板數據的研究是計量經濟學理論方法的重要發展之一,它在解決數據樣本容量不足、估計難以度量的因素對經濟指標的影響,以及區分經濟變量的作用等方面,具有突出優點。但是,研究面板數據的計量模型,以線性結構描述變量之間的因果關系,且模型太過于依賴諸多的假設條件,使得方法的應用具有一定的局限性。為了彌補面板數據的計量模型分析方法及其它統計分析方法的缺陷,本文基于經濟數據的函數性特征,介紹一種從函數視角對經濟數據進行分析的全新方法一函數性數據分析(Functional Data Analysis,FDA)。
函數性數據分析的概念,始見于加拿大統計學家J.O.Ramsay和C.J.Dalzell于1991年發表的論文《函數性數據分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數性數據進行統計分析的已有理論和方法,總結在《函數性數據分析》一書中。但這本書偏重方法的理論介紹和數學推導,不利于統計基礎薄弱者使用。經過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數性數據案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經做了許多研究,也取得了許多有價值的結果,但是有關函數性數據的研究依然處于起步階段,還有很多問題需要研究或進一步完善。另外,從方法應用的具體領域來看,很少涉及對經濟函數性數據的分析。就目前研究文獻來看,我國在此方面的研究尚是一片空白。
為填補我國在這方面研究的空白,本文從思想、方法等方面,對函數性數據分析進行系統介紹,并通過編寫計算機程序,率先利用該方法分析實際的經濟函數性數據。本文共分六部分,以下內容的安排為:數據的函數性特征及經濟函數性數據實例、從數據的函數性視角研究數據的意義、函數性數據分析的目標和步驟、函數性數據分析方法的經濟應用,最后一部分是本文的結論。
二、數據的函數性特征及經濟函數性數據實例
一般地說,多元數據分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個統計指標(變量)在多次觀察中呈現出的數據,樣本數據具有離散且有限的特征。但是,現代的數據收集技術所收集的信息,不但包括傳統統計方法所處理的數據,還包括具有函數形式的過程所產生的數據,例如,數據自動收集系統等,稱具有這種特征的數據為函數性數據。
函數性數據的表現形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數等)。許多研究領域的樣本資料往往表現為函數形式,如考古學家挖掘的骨塊的形狀、按時間記錄的經濟數據、手寫時筆尖的運動軌跡、溫度的變化等。函數性數據分析(Functional Data Analysis,FDA)的基本原理是把觀測到的數據函數看作一個整體,而不僅僅是一串數字。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。
實際中,之所以要從函數的視角對數據進行分析,是因為:(1)實際中,獲得數據的方式和技術日新月異、多種多樣,例如,越來越多的研究者可以通過數據的自動收集系統獲得大量的數據信息。更重要的是,原本用于工程技術分析的修勻(smoothing)和插值(interpolation)技術,可以由有限組的觀測數據產生出相應的函數表示。(2)盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數版本下進行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征。(4)將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。
在經濟分析中,融合時間序列和橫截面兩者的數據很常見,例如,多個國家、地區、行業或企業的多年的年度經濟總量、多家商業銀行歷年的資本結構、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時間上多個省市的失業數據等。這些經濟數據往往呈現函數性特征,即每個個體對應著一個函數或曲線。在對經濟函數性數據進行分析時,將觀測到的數據(函數)看作一個整體,而不是個體觀測值的順序排列,這是函數性數據分析不同于傳統統計分析之根本所在。例如,表1是工商銀行、農業銀行、中國銀行、建設銀行1995年到2004年期間的資產收益率(ROA)數據。
利用基于MATLAB編寫的程序,對數據進行平滑處理(smoothing),并繪出四家國有銀行的資產收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個個體(銀行)對應著一條曲線(其數學表達式為函數),這是將多家銀行的歷年ROA數據記錄看作函數的根本理由,也是函數性數據分析的出發點。
三、從數據的函數性視角研究數據的意義
從函數的視角,對具有函數特征的經濟數據進行研究,會挖掘出更多的信息。例如,對函數性數據的平滑曲線展示,不但能夠診斷出擬合數據的可能數學模型,還能夠通過對光滑曲線求一階、或更高階的導數,來進一步探索數據的個體(橫截面)差異和動態變化規律。
圖2是四家銀行資產收益率的速度(一階導數)曲線,觀察發現:在1995年至2004年期間,農業
銀行、中國銀行及建設銀行的資產收益率的變化率,呈現出較強的周期性,其中尤以建設銀行的表現最為突出。加速度曲線圖顯示,四家銀行資產收益率的變化率的波動狀況不相同,轉折變化的時間差異也較大。這些情況一定程度表明,各家銀行的內部管理與經營機制,對市場信息的反應快慢程度各不相同。
四、函數性數據分析的目標和步驟
函數性數據分析的目標與傳統統計學分析的目標基本一樣,具體情況如下:
(一)以對進一步分析有利的方法來描述數據;
(二)為突出不同特征而對數據進行展示;
(三)研究數據類型的重要來源和數據之間的變化;
(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;
(五)對兩組或更多的某種類型的變量數據進行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數據的收集、整理和組織。假設我們考慮的自變量是一維的,記為t,一個的函數僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數性數據分析中,將這些離散的觀測值看作一個整體。
第二步,將離散數據轉換為函數形式。這是利用各次觀察的原始數據定義出一個函數x(t),它在某一區間上所有t處的值都被估算了出來。解決這個問題的基本方法是選定一組基函數 (t),k=O,…,K,并用基函數的線性組合給出函數x(t)的估計
第三步,多種形式的初步展示與概括統計量。概括統計量包括均值和方差函數、協方差與相關函數、交叉協方差(cross―covafiance)與交叉相關(cross―correlation)函數等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現出來,可能需要對函數進行排齊(regigtration),其目的是能夠區別對待垂直方向的振幅變化與水平方向的相變化。
第五步,對排齊后的函數數據進行探索性分析,如函數性主成份分析(FPCA)、函數性典型相關份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數性線性模型,也可能是微分方程。
第七步,模型估計。
五、函數性數據分析方法的經濟應用
為了說明函數性數據分析方法的具體應用,同時出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數據,對資產收益率進行更深入的分析。雖然此實例中個體數少,但并不妨礙對方法應用的系統描述與理解。
在對實際問題的經濟數據進行分析時,通常需要依照研究的目標編寫計算機程序。就目前的研究現狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計算函數等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產收益率數據進行分析。
關于四家銀行資產收益率數據的函數(曲線)展示與初步分析,本文在前面已進行了描述,具體結果見圖1和圖2。概括資產收益率特征的統計量(均值函數和標準差函數)的曲線見圖3。
為了進一步探討典型函數所呈現的特征,本文利用函數性主成份分析,對四家銀行的資產收益率數據進行分析。一般來說,在函數性數據分析中,與多元統計中的某個主成份的權向量相對應的是主成份權函數(principal component weight function),記為 ,其中t在一個區間 中變化。第i個樣品(個體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達到最大的權函數 ,即它是下面數學模型的最優解: 類似地,可以求得第j個主成份,其權函數毛(t)是下面數學模型的解:
為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動程度的粗糙因子納入到約柬條件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個主成份的數學模型是其中 稱為修勻參數,用它可對粗糙懲罰項進行調整。
利用上述方法和基于MATLAB編寫的程序,對四家銀行進行函數性主成份分析(FPCA)。具體結果見圖4。第一個主成份(PCI)的解釋能力為85.5%,第二個主成份(Pc2)的解釋能力為13.1%,前兩個主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個適當倍數而形成的曲線,具體結果見圖5(本文所選的倍數是0.12)。以上所述的三條曲線分別對應著圖5中的實心曲線、‘+’曲線和‘*’曲線。第一個主成份反映了資產收益率(ROA)的一般變化,尤其反映了資產收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個主成份反映了資產收益率(ROA)的中段變化。
六、結論
在經濟實踐中,越來越多的領域所得到的樣本觀察資料是曲線或圖像,即函數性數據。因此,對這種類型的經濟數據進行統計分析和描述,具有重要的現實意義。因篇幅所限,還有一些函數性數據的分析方法未予以介紹,如函數性方差分析、函數線性模型、函數性典型相關分析以及描述動態性的微分方程等。由于本文的主要目的,是通過對函數性數據分析方法和具體應用的介紹,傳述對數據進行分析的新思想,而不只是方法技術本身。因此,缺少的方法并不影響對思想的闡述。
物理實驗中,驗證型實驗和研究型實驗都是非常重要的兩類實驗。驗證型實驗是對已建立的物理規律的驗證,研究型實驗是通過實驗得到物理規律,這兩類實驗雖然實驗目的不同,但從數學處理方法上來看,具有相似性,都是通過實驗數據分析確證物理規律或得到物理規律,所以對實驗數據的分析處理方法是否得當就顯得十分重要。下面以一個典型的驗證型實驗的數據處理為例進行相應探討,以期望得出相對合理和妥當的實驗數據處理方法。
以大學物理實驗來說,驗證型實驗較多,諸如牛頓第二定律的驗證、彈性碰撞實驗等等都屬于此類實驗,其中牛頓第二定律的驗證實驗為該類實驗的典型實驗。牛頓第二定律的數學表達式是,力與加速度的大小關系可以表達成,要驗證這個規律,就是給物體加一個大小為F的力,對應產生一個大小為的加速度,得到一個測量點,通過改變力,得到n個測量點后,即可通過適當的數學方法驗證這個關系的成立。
類似這種線性物理規律,其數學模型都可以歸結為的形式。要得到這個線性關系,就是要得出和。通過測量n組和的值,即、、……、、……、,在X―Y平面中得到n個測量點。若不考慮實驗測量的系統誤差,則測量誤差應當服從高斯分布,反應在X―Y平面中,既是這n個測量點應當均勻地分布在所求表達式兩側,對第i個測量點,誤差為,n個測量點導致的總體誤差是最小的。若任意給一個直線,則一是測得到的這n個點不再均勻地分布在直線兩側,二是這n個測量點產生的總體誤差水平將增大,甚至可以達到無窮大。由此可知,所求直線即是使得n個測量點的總體誤差最小的那條直線??傮w誤差可以寫成,但由于誤差服從高斯分布,導致理論上而無法通過此求和值衡量總體誤差水平。為使其不因為正負抵消而無法衡量總體誤差水平,只要使得所有誤差均為正再求和即可,故可用殘差來衡量總體誤差水平,雖然殘差不再是總體誤差。使得殘差取最小值的和,即為所求直線的和。此即最小二乘法的數學思想。據最小二乘法處理,所求和即是使得取最小值的和,即有,解此式,得
將測量值供稿,即可得到所求和。通常大學物理實驗中的處理方法,得到和,即是驗證了[1]。但其實這是不太恰當的。
驗證型或者研究型實驗,特別是驗證型實驗,最關鍵的是需要解決兩個問題,一是找出所要驗證的關系,第二是要驗證得出的關系的確成立,而第二點才是最重要的關鍵點。即使得出關系,但如果確證關系不成立,則第一步的工作就變得毫無意義。實際上,任意給出一組、、……、、……、,都可以根據最小二乘法得到和,即得出,但并不意味著此式的確成立,不能確證物理量和的確存在這樣的數量關系,并沒有檢驗此物理規律存在。因此,驗證型實驗做到這一步并不算已經驗證被驗證的物理規律成立,還需要研究和的相關性,通過計算相關系數,據的大小來檢驗和是否的確相關。
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社會調查是了解各方面信息的重要途徑之一,社會調查數據主要是通過調查問卷的方法得到的。由于社會調查數據的維數較高,加上人為主觀因素,數據類型主要為二元變量、離散變量、序數變量等為主,所以對于社會調查數據的分析和處理大都基于統計學,只對單一題目進行統計學分析,其分析方法主要是基于題型進行處理的,對于題目和題目之間的關系很少關心[1]。許多數據挖掘算法因為種種限制無法在社會調查的數據分析中得到應用。因為方法的限制,所以現在很多社會調查只能驗證事先想好的內容和假設,很少可以對高維數據進行相對復雜的回歸分析處理。
根據以上存在的問題,該文建立了基于三維矩陣的數學模型,將單選題、多選題和排序題用向量形式進行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內容當作一個整體,作為后續算法的基礎。
1 社會調查數據的特點
通常情況下,社會調查數據特點如下。
(1)相關性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關性。對于多個樣本而言,個體與個體的特征之間具有相關性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關性。因此,由于上述多個原因使得社會調查數據具有了復雜的相關性,傳統的統計學調查難以解決這樣的問題。
(2)離散性。因為社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到,所以社會調查數據一般以離散變量為主,且這些數據之間只有標示作用,并沒有嚴格的邏輯關系。
(3)模糊性。社會調查數據當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。
因為由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點,所以在實際應用中基于統計學的處理方法只能籠統的顯示數據的部分特性,如頻數、離散程度等[2]。對于數據之間的關系只能分析出維數極少的大致的關系。
而且利用軟件進行數據挖掘時,因為現有的軟件中的數據挖掘算法對于數據類型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分析,其結果也存在大量的冗余。因此,我們需要建立一個合適的社會調查數據的數學模型來完善原先的方法并使跟多的數據挖掘方法可以運用到其中,使得結果更準確。
2 社會調查數據的建模
研究中我們發現,三維矩陣可適用于社會調查數據的建模。
2.1 三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2 三維矩陣模型的建立
調查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的項用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數,。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數據為例,其中第1題為單選題選擇“B”,用向量表示為一個元素,第2題為多選題選擇“ACE”,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
那么,假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數學模型,如圖2所示。
在圖2中我們看到,該三維矩陣數學模型有三個坐標軸,它們分別是題目,人數,選項。題目軸以每一道題為一個單位;人數軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F等題目選項,其個數為該調查問卷中選項最多的題目的選項個數。
在此基礎之上,這樣的三維矩陣具有以下性質。
(1)在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2)在人數軸中選取對應的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應的人選擇所有題目的信息。
在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎上進行后續算法處理。
上述三維矩陣數學模型具有數學三維矩陣的所有性質,可依據調查問卷的需求進行轉置,加權、相乘、篩選等數學處理,另外在數學處理的基礎上,采用超圖理論可以大大豐富了調查問卷的處理方法。
3 基于超圖算法的調查問卷分析技術
超圖是離散數學中重要的內容,是對圖論的推廣[3]。超圖是有限集合的子系統,它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領域有廣泛的應用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關聯規則表示成有向超圖的形式,在得到了關聯規則后,設實際中得到的關聯規則的形式為:,前項和后項都是由多個項組成的集合。該文定義一條關聯規則由一條有向超邊表示,有向超邊的頭節點表示關聯規則的前項,有向超邊的尾節點表示關聯規則的后項。每條有向超邊的頭節點和尾節點均可以為多個,如此便成功表示了復合規則,從而可以使用相關算法進行冗余規則檢測。
通過基于有向超圖的冗余規則檢測就可以將關聯規則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。
傳統的聚類方法都對原始數據計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數據有良好的效果,但是對于高維數據卻不能產生很好的聚類效果,因為高維數據的分布有其特殊性。通過超圖模型的分割實現對高維數據的聚類卻能產生較好的效果。它先將原始數據之間關系轉化成超圖,數據點表示成超圖的節點,數據點間的關系用超邊的權重來表示。然后對超圖進行分割,除去相應的超邊使得權重大的超邊中的點聚于一個類中,同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現了對數據的聚類。具體的算法流程如下。
首先,將數據點之間的關系轉化為超圖,數據點表示為超圖節點。如果某幾個數據點的支持度大于一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。
然后,在基礎此上,通過超圖分割實現數據的聚類。若設將數據分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數據分為k類,且每個分割中數據都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。
其實我想告訴他們的是,數據挖掘分析領域最重要的能力是:能夠將數據轉化為非專業人士也能夠清楚理解的有意義的見解。
使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。
簡單地來說,分析可被劃分為4種關鍵方法。
下面會詳細介紹這四種方法。
1.描述型分析:發生了什么?
這是最常見的分析方法。在業務中,這種方法向數據分析師提供了重要指標和業務的衡量方法。
例如,每月的營收和損失賬單。數據分析師可以通過這些賬單,獲取大量的客戶數據。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強描述型分析所提供的信息。
2.診斷型分析:為什么會發生?
描述性數據分析的下一步就是診斷型數據分析。通過評估描述型數據,診斷分析工具能夠讓數據分析師深入地分析數據,鉆取到數據的核心。
良好設計的BI dashboard能夠整合:按照時間序列進行數據讀入、特征過濾和鉆取數據等功能,以便更好的分析數據。
3.預測型分析:可能發生什么?
預測型分析主要用于進行預測。事件未來發生的可能性、預測一個可量化的值,或者是預估事情發生的時間點,這些都可以通過預測模型來完成。
預測模型通常會使用各種可變數據來實現預測。數據成員的多樣化與預測結果密切相關。
在充滿不確定性的環境下,預測能夠幫助做出更好的決定。預測模型也是很多領域正在使用的重要方法。
4.指令型分析:需要做什么?
數據價值和復雜度分析的下一步就是指令型分析。指令模型基于對“發生了什么”、“為什么會發生”和“可能發生什么”的分析,來幫助用戶決定應該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
我們先來看一下傳統的數據分析流程:解讀業務戰略目標-->確定目標分解的量化KPI-->確定KPI的計算公式和所需字段-->確定所需字段來自于哪些數據庫的哪些表-->數據建模-->預先匯總成二次表和Cube-->結果展示。由于需要建模和打CUBE,這一流程通常需數月才能完成。
現在,取代傳統數據分析流程的,是快速迭代式分析。敏捷數據分析不必在開始時花很長的時間構思大而全的分析指標體系,而是低成本快速迭代,幾分鐘就做好一個當前想要分析的結果,通過敏捷數據分析工具實現動態切換視角,靈活展示數據,日積月累,指標自然越來越豐富,計算公式也越來越符合業務邏輯,這時再體系化。下面的演示視頻將幫助大家了解如何通過敏捷數據分析工具在幾分鐘時間內實現自己的分析需求。
視頻鏈接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html
為什么傳統數據分析無法實現快速迭代分析的高效?因為在過去這么多年以來,我們對于大數據海量數據的計算能力達不到比較理想的要求,所以我們才需要IT人員用通過建模等方式提前把數據計算匯總好,隨著現在大數據的技術相對來講都日趨成熟和完善,分布式計算,內存計算、列存儲等比較成熟的技術架構,采用這種新的辦法去處理數據的性能,已經比以前提升了幾十倍甚至更高。
符合迭代思維
快速迭代式的敏捷數據分析有什么好處?首先,這種分析方法十分符合互聯網思維中的迭代思維。企業的分析指標不可能一開始想得非常全面,本身就是迭代逐步形成的。以電商行業為例,電子商務的數據可分為兩類:前端行為數據和后端商業數據。前端行為數據指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數據;而后端數據更側重商業數據,比如交易量、投資回報率,以及全生命周期管理等。
在最初期,電商行業最關注的是那些核心指標:UV、轉化率、客單價、毛利率、推廣ROI、重復購買率,人們在核心指標的基礎上逐步對媒體、用戶、商品、營銷等對象做詳細分析;同時在客服、商品、倉儲物流等內部運營績效方面進行監控。這些數據現在又可以被歸納發展為4個方面,基礎訪問數據、商品銷售數據、營銷推廣數據、用戶數據,其中基礎數據中包括網站的訪問數據、網頁鏈接點擊、來源跳出等等。商品銷售數據關系到品類、銷售多少、影響因素等。營銷數據包括投入產出的投資回報率,更多地是跟其他幾方面的數據進行混合分析。用戶數據包括分析用戶區域、購買頻率、客戶構成、忠誠度、偏好等等。
[中圖分類號]G819[文獻標識碼]A[文章編號]1005-6432(2013)46-0099-02
1引言
探索性數據分析方法是一種新型的統計分析手段,近年來在許多行業得到了廣泛的應用,并取得了明顯成效。其強調了數據本身的價值,可以更加客觀地發現數據的規律,找到數據的穩健耐抗模式,從而發掘出數據的隱藏信息。本文從職工平均工資的實際數據出發,利用探索性數據分析中的工具,直觀地探索華東六省職工平均工資的規律,挖掘數據特征和有價值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業、事業、機關單位的職工在一定時期內平均每人所得的貨幣工資額。它表明一定時期職工工資收入的高低程度,是反映職工工資水平的主要指標。由于中國城市眾多,各地經濟發展水平有較大的差異,生活水平和生活質量也各有不同,為了縮小地理差異對研究數據的影響,得到較為準確和有意義的結果,這里只選用了2010年華東地區六個省的職工平均工資運用探索性數據分析方法做初步的描述性分析和研究,每個省選取了9個大城市。
為了更加簡單直觀地對比各個省市的數據,我們繪制了箱線圖,如圖1所示。對華東六省進行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個別城市職工平均工資與同省其他城市相比特別大,其他幾省的數據就不存在離群值。對于四分展布,可以得到大小關系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對比各個省的中位數,可以發現江蘇省平均職工工資水平最大,江西省最小,從經濟上反映了地區經濟發展差異,江蘇緊靠上海,處在華東的中心,交通系統發達,同時,長三角江蘇占了大部分,其靠海的地理優勢給它帶來了更多的經濟發展機會,導致了職工工資水平中位數相差如此大。
同時可以直觀地看出安徽省數據對稱性最好,除了福建省數據呈現左偏趨勢外,其他省都呈現右偏的趨勢,其中江西省的數據最為嚴重,主要是受到了兩個離群值的影響,為了使其更對稱,我們運用探索性數據分析方法中的對稱變換方法,在經過R軟件的計算后,得到職工平均工資的對稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對稱性變換圖
進行對稱性變換后,運用R軟件擬合曲線,得到:
由圖3可以看出,在進行對稱匹配變換之后,江西省的兩個離群值消失了,數據變得更加集中,趨勢也更加易于分析和研究。這樣的數據會給分析帶來便利,更加清晰和直觀地表現出數據的本質特征。
圖3江西省2010年職工平均工資水平匹配
3結論
使用探索性數據分析技術具有耐抗性和穩健性的特點,通過箱線圖可以簡單直觀地看出數據間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數據較為分散,同時數據比較對稱,而江西省的數據有著極大的右偏性,在經過了對稱、匹配變換后,仍然與華東地區其他省的數據有較大的差異,可能是由離群值太大造成的。
參考文獻:
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。
1 大數據分析的方法分類
到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。
1.1 相關研究
不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。
(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。
Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。
針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。
Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。
Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。
美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。
(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。
孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。
2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向層次的BDA方法框架
上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)?;诹鞒痰腂DA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。
本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。
2 BDA方法在情報研究中的適用性探討
如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。
(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。
(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。
(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。
(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。
(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。
(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽?。ㄈ鏟CA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。
(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。
2.2 調整后移植的方法
調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。
(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。
(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]?,F有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。
2.3 不適用的方法
考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。
(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。
(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。
2.4 需要繼續關注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。
因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。
3 結語
大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。
參考文獻:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.
[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.
[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.
[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.
[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.
[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.
[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.
[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.
[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
因子分析是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統計分析方法。因子分析的目的即在找出量表潛在的結構,減少題目的數目,使之成為一組數量較少而彼此相關較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據Kaiesr(1960)的觀點選取特征值大于1.0以上的共同因素,再以最大變異法進行共同因素正交旋轉處理,保留共同度大于0.6以及因素負荷量大于0.5以上的題目。因素負荷量為碩士論文因素結構中原始變量與抽取出共同因素相關,負荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個重要指標。共同度是每個變量在每個共同因子的負荷量的平方和,也就是個別變量可以被共同因子解釋的變異量百分比,是個別變量與共同因子間多元相關的平方。特征值是每個變量在某一共同因子的因子負荷量的平方總和。
因子分析的數學模型及其統計檢驗描述如下:
彼此之間是獨立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關性,則稱為斜交因子模型。由于斜交因子模型比較復雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。
模型中的矩陣A稱為因子載荷矩陣,a稱為因子“載荷”,是第i個變量在第j個因子上的負荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個因子的因子載荷陣。主要問題就在于如何通過SPSS統計軟件對數據的分析來估計因子載荷矩陣A,負荷量大的指標給予保留,否則剔除。保留下來的指標所構成的體系就是本文最終研究得到的指標體系。關于因子載荷的檢驗有:模型的標準化,這主要是為了得到抽象的因子含義,即對因子各維度進行命名;變量共同度檢驗,變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻檢驗,用因子的累計方差貢獻率來確定公共因子提取的個數,也就是尋找一個使得累計方差貢獻率達到較大百分比的自然數,即最終提取方差貢獻大于1的因子作為公共因子。
由于本文的論題是電子商務環境下服務業企業績效評價指標體系構建,本文主要運用平衡計分卡把評價指標體系分為四個方面,18個二級指標作為18個因子,按照因子分析法來選取有效指標,各項指標在選取時,需要遵循兩個原則,一是該指標在以前的研究中出現的概率,二是指標與所要研究的問題的潛在相關性。本文在四個方面的指標的選取上,另外考慮了①全面性,要求所選的指標能反映企業的經營、客戶、企業學習與成長、財務方面的狀況;②有效性,要求選擇那些能夠對預測企業的整體狀況有指示作用的重要指標;如,若各項指標的雙尾T檢驗的顯著性概率小于0.05,則能有效的反映企業的四個方面的狀況,反之,則是無效指標,應剔除。③同趨勢性,即當各項指標增大時,表示企業的整體狀況改善,反之當各項指標減少時,表示企業的整體狀況惡化;④可操作性,采用易得到的數據。
2信度、效度、描述性統計、方差和相關分析方法
信度分析是采用一定的方法來衡量回收問卷中各變量的內部一致性,它主要考查的是問卷測量的可靠性,檢驗每一個因素中各個題目測量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系數檢驗量表的信度和各分量表的信度。效度分析是采用一定的方法對問卷的理論構思效度進行驗證。首先,必須對題目的結構、測量的總體安排以及題目見的關系做出說明,然后運用一定的方法從數據中得出基本構思,以此來對測量構思的效度進行分析。用于評價結構效度的主要指標有累積貢獻率、共同度和因子負荷。累積貢獻率反映公因素對量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負荷反映原變量與某個公因素的相關度。描述性統計分析是對各維度中的測量題目的均值、標準差、方差等描述性統計量碩士論文進行統計,了解各維度中題目設置的水平。方差分析又稱變異數分析或F檢驗,其目的是推斷兩組或多組資料的總體均數是否相同,檢驗兩個或多個樣本均數的差異是否具有統計學意義。
方差分析對客觀事物數量進行依存關系的分析,主要刻畫兩類變量間線性相關的密切程度,其兩個變量全是隨機變量,且處于平等地位。兩變量之間的相關關系可以通過繪制散點圖或計算相關系數來反映。 3回歸模型及其統計檢驗
現實世界中,一個事物的運動變化,總是與其他事物相關聯。其中,有的還存在因果關系,這種因果關系有的是線性的,有的是非線性的。當預測對象與其影響因素的關系是線性的,且只有一個影響因素時,就可以用一元線性回歸方法建立其一元線性回歸預測模型,來表述和分析其因果關系;當有兩個或多個影響因素同時作用于一個預測對象時,則用多元線性回歸法建立多元線性回歸預測模型。
本文就是以多對一的關系,因此,用多元線性回歸模型進行統計檢驗。對于多元線性回歸模型及其統計檢驗描述如下:
當預測對象y同時受到多個解釋變量x1,x2,...,xm影響,且各個xj(j=1,2,...,m)與y都近似地表現為線性相關時,則可建立多元線性回歸模型來進行預測和分析,模型為:
3)回歸方程整體顯著性檢驗
回歸模型的顯著性檢驗包括兩個方面,即回歸方程的顯著性檢驗和回歸系數的顯著
性檢驗。
(1)回歸方程的顯著性檢驗
回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著。回歸模型總體函數的線性關系是否顯著,其實質就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構造F統計量來進行檢驗,F檢驗是用來檢驗多元線性回歸模型的總體效果。
(2)回歸系數顯著性檢驗
回歸方程總體顯著并不意味著每個解釋變量對被解釋變量的影響都是重要的,還需要對每個回歸系數的顯著性進行檢驗?;貧w系數顯著性檢驗通過構造t統計量來進行,
4)殘差正態性檢驗
殘差e是隨機擾動項ε的體現。對殘差進行分析的目的是檢驗隨機擾動項是否服從經典假設。殘差分析的內容包括殘差正態性檢驗、序列相關檢驗、異方差檢驗等。本文應用殘差的累計概率散點圖進行殘差正態性檢驗。
5)異方差檢驗
異方差常常表現為殘差隨某個解釋變量取值的變化而變化,因此,檢驗隨機擾動項是否存在異方差可以通過繪制被解釋變量與解釋變量的散點圖來簡單的判斷。如果散點圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動逐漸增大或減少,則很可能存在異方差的現象。實踐中,常常使用加權最小二乘法消除異方差。
7)多重共線性檢驗
所謂多重共線性是指各個解釋變量之間存在線性關系或接近線性關系的現象。多重共線性常常會導致回歸系數方差增大,從而使得t檢驗難以通過。用SPSS檢驗多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數和方差比例。本文選用條件指數和比例方差這兩種方法來檢驗共線性。
統計應用作為數學的重要領域,在大多數情況下,數據被收集并且通過一定方法在系統中存儲,重要策略被記錄,并應用于其他領域。隨著數據恢復方法和統計分析方法的逐步集成,大數據的統計數據分析方法在財務管理中變得越來越重要。面對當今全球化的壓力和經濟市場的激烈競爭,使用財務管理的統計整合是提高有效管理效率,優化資源分配和科學行為的有效步驟。通過市場經濟的發展和經濟水平的不斷提高,數據集成和財務管理水平運用了大數據的統計分析。在建立大規模數據的經濟增長政策時,技術在宏觀經濟研究中起著重要作用。大數據統計分析的作用正在增加,其在管理中的用途正在進一步擴大。顯然,加強對經濟發展大數據統計分析技術的使用對促進經濟增長和提高管理效率非常重要。
一、大數據統計分析方法在經濟管理領域運用的意義
為響應市場環境和公司治理內容的變化而促進使用公司治理統計數據的需求主要體現在兩個方面:
(一)宏觀經濟方面發展有若干規律。為了尋找有關經濟發展的規律,強大的數據分析技術在宏觀經濟學中的應用非常重要。一方面,大數據分析統計數據用于從宏觀經濟發展行業收集數據,對相關行業信息進行實證分析,并調查行業發展和行業問題。使用SPS,Stata和其他數據分析軟件,中國擁有最重要的發展法;同時,發現工業發展規律,規范工業發展,開辟新的經濟發展方式也很重要[1]。
(二)企業經營管理方面1.提升企業競爭力的必然要求當前,業務發展的競爭越來越激烈。競爭壓力主要歸因于國內市場經濟帶來的經濟化以及國內市場競爭激烈加入的外國公司的影響。公司必須面對激烈的市場競爭。大眾市場信息的統計分析將調整生產和管理策略,并為業務發展的戰略調整作出有效的決策。2.提升企業管理水平的必然要求一方面,諸如運營管理、財務管理、風險管理和企業資源管理等相關任務變得越來越復雜。需要統計分析方法來對豐富的業務操作信息進行分類和匯總,為業務管理決策提供有效的信息。同時,企業需要不斷滿足產品和服務生產方向的政治要求。由于需要與相關部門合作,例如運營財務管理、規避財務風險,因此需要建立相關部門的統計數據,以提高決策效率[2]。
二、大數據統計分析方法在經濟管理領域的運用
利用大數據的統計數據分析技術研究宏觀經濟發展政策,對促進行業發展至關重要。另一方面,如何獲取有關復雜數據管理的重要信息,在業務流程和管理方面為公司制定有效的決策是重中之重。關鍵在于掌握財務管理的大數據分析方法,并使用大數據統計分析技術來分類和提供業務流程管理,隱藏的規則以及來自異常數據點的大量信息。為了應對突況,管理人員需要制訂正確的決策計劃。本文主要討論宏觀經濟應用管理領域的統計數據分析方法,以及業務管理、財務管理、風險管理和管理的六個方面。如:
(一)宏觀經濟方面關于宏觀經濟產業的運作和發展有若干規律。為了找到宏觀經濟發展方法,統計分析技術對于穩定經濟增長和調查潛在的經濟危機很重要。當前,不僅學者,業務經理也開始了解計算機技術的使用,并開始通過統計分析來發現工業發展中的若干問題,學習工業發展的原理。為了找出答案,我們選擇了相關的影響因素并采取了相應的行動,采取措施提高工業發展效率。
(二)企業運營管理方面通常,在日常工作程序和工作相關領域中存在某些特定的業務管理和操作規則。另一方面,通過將統計信息應用于業務的運營和管理,公司可以通過分析大數據的統計信息來獲得規律。這將幫助公司節省一些資源,避免重復的任務并節省公司的業務資源。如果該政策是從科學的統計評估階段得出的,則情況與正常情況不同的企業高管應仔細考慮潛在的風險。
(三)企業營銷管理方面企業需要建立大型數據管理系統來收集有關企業提供的產品或服務的市場交易信息。因此,消費者的熱點必須與受管理的信息系統對齊,以使其隱藏在協同交易信息中。確定消費者對需求的偏好并確定消費者需求。公司的主要產品和服務根據消費者的喜好運作,可以滿足消費者的需求,替代市場上的非反應性產品和服務。同時,開發新產品和服務企業領導者可以提供有效的決策信息,并為消費者創建新的熱點[3]。
(四)企業財務管理方面應用管理統計信息。它通過審查有關生產過程和運營的統計數據(尤其是財務數據),進行定性和定量分析,幫助評估相關活動,例如商業投資。財務管理是開展業務必不可少的部分,這對于減輕公司的財務風險和提高公司資源分配的效率至關重要。通過統計分析對商業經濟數據進行分類和分析,可以為高管、投資者和其他相關利益相關者提供有效的決策信息。
(五)企業人力資源管理方面將統計應用于公司的人力資源管理,并使用統計分析技術結合公司業務管理部門的特征,選擇適當的方法來提高效率。人力資源管理很重要,人才基本上是企業的無形資產,在部門保留相關的人力資源是業務發展的關鍵。回歸站評估法用于預測企業發展的人力資源需求,動態分析法用于根據狀態預測人力資源的變化。將這兩個方面結合起來可以大大提高業務資源的效率。
(六)企業風險管理方面使用統計分析技術對業務流程中的大量業務信息進行分類和分析,發現隱藏的規則和數據差異。重要的是,業務主管需要進行預測,做出正確的決定,解決事件并發現潛在危險。意思是如果統計數據分析有些奇怪,則需要找出業務流程中具有的某些規則,因此業務主管需要尋找更多異常條件,尤其是財務管理,要注意關注狀態的變化。另一方面,對公司財務信息進行統計分析是公司規避財務風險的有效手段之一。
三、完善大數據統計分析方法在經濟
管理領域運用的措施在本文中,我們將了解如何從六個方面分析大數據的統計數據:宏觀經濟活動、業務管理、風險管理、財務管理、資源管理和財務管理人員。這被認為是財務管理數據大規模統計方法的一種改進。必須在三個方面進行現場應用:
(一)社會宏觀經濟層面盡管存在宏觀經濟法則,但根據過去的經驗,由于缺乏安全可靠的數據和分析方法,宏觀經濟法則的分析則一直被認為是偽科學。大數據分析技術提供了探索宏觀經濟法則的機會,大數據技術使用數據創建系統,而使用許多信息技術的科學分析是宏觀經濟法研究中的重要一步。特別是,某些行業使用行業信息和對經濟趨勢預測的全面分析來幫助識別和克服復雜的工業發展挑戰,可以提高宏觀經濟發展效率。
(二)企業經營管理層面在公司上載和數據受限的情況下,企業很難優化管理功能以提高性能[2]。由于業務經理的管理理念和管理水平受到限制,因此很難斷定業務開發操作和管理流程是否存在問題。統計分析技術可用于計算和評估每個關鍵決策或業務戰略適合性的有效性。如果由于大數據分析技術而導致預期的數據銷量存在矛盾,該公司可以調整其總體戰略并進行業務變更以優化管理理念。
(三)行業與行業之間存在著一定的鴻溝無論是快速消費品行業、食品行業還是大型公司,其經營理念和經濟結構在公司治理方面都存在根本差異。統計數據分析技術使公司能夠了解整個行業的消費者需求的性質,分析社會經濟狀況,能夠了解共同的業務條件和業務發展情況,并優化或區分劣質產品。在某些情況下,此更改是提高產品價格的高級更改,如果消耗量和消耗品減少,則可以降低產品價格。產品必須能夠升級以滿足顧客需求。產品行業、食品行業或大型行業具有不同的經營理念和財務結構,還在進行公司管理。但是,各個行業的業務方向取決于消費者的需求。換句話說,公司開發了產品的功能并使產品的功能適應消費者的需求。對于公司而言,通過優化生產結構并提供更多定價和功能來說服更多消費者也很重要。
(四)企業財務管理層面財務管理貫穿公司治理的整個過程。公司財務管理非常有效,但是存在諸如財務管理的巨大風險之類的問題。對公司財務信息進行統計分析是防范財務風險的有效手段之一。公司需要管理其日常收入和支出,并進行大規模會計處理。企業可以使用大數據分析技術來監測財務管理功能并確保標準化業務的財務安全。利用統計分析技術和大數據,公司可以預測潛在的市場和行業風險,以提供最佳解決方案,還可以提供分析大數據的方法,可以跟蹤異常并快速發現異常。
四、結語
本文首先從宏觀經濟方面、企業經營管理方面等兩個方面對大數據統計分析方法在經濟管理領域運用的意義進行了分析,然后從宏觀經濟方面、企業運營管理方面、企業營銷管理方面、企業財務管理方面、企業人力資源管理方面以及企業風險管理方面等方面對大數據統計分析方法在經濟管理領域的運用進行了分析,最后從社會宏觀經濟層面、企業經營管理層面、行業與行業之間存在著一定的鴻溝以及企業財務管理層面等方面提出了完善大數據統計分析方法在經濟管理領域運用的措施。大數據分析技術被廣泛用于宏觀經濟預測、業務管理和公司風險管理,它在優化公司治理和運營結構,有效改善公司治理以及提高公司統一性和核心競爭力等方面發揮著重要作用,可以使公司在激烈的市場競爭中有一席之地。
【參考文獻】
[1]張琳.大數據統計分析方法在經濟管理領域中的運用淺析[J].營銷界,2019(38):291-292.
[2]杜珉.大數據統計分析方法在經濟管理領域中的運用探析[J].山西農經,2019(12):27.
[3]陳雪琴.大數據統計分析方法在經濟管理領域中的應用[J].山西農經,2019(5):37.
doi:10.3969/j.issn.1673 - 0194.2017.02.056
[中圖分類號]F270 [文獻標識碼]A [文章編號]1673-0194(2017)02-00-01
0 引 言
隨著移動互聯網技術的發展,人們越來越習慣于網絡購物。在網上購物或刷微博時,常常會看到“猜你喜歡”“可能感興趣的商品”等廣告欄目。而這些內容都是大數據產業的成果,是面向大數據視野得到市場分析的結果。掌握這種市場分析方法,能幫助企業更好地了解消費者的需求,進而更好地開展營銷活動。
1 大數據視野下市場分析的問題
在互聯網得到普及應用的情況下,大數據時代已經正式到來。目前,互聯網上的數據每年都會增長50%。而隨著運動、濕度和溫度等各類傳感器的出現,企業接觸到的數據信息也越來越多,而這些數據在給企業帶來挑戰的同時,也為企業提供了新的市場增長空間。加強數據挖掘和分析,能幫助企業精準地找到用戶,從而通過降低營銷成本、提高銷售率實現利益最大化。因此,企業應面向大數據進行市場分析研究,以便通過統計和分析超大量的樣本數據,獲得更接近市場真實狀態的市場研究成果。
2 大數據視野下的市場分析方法
2.1 基于大數據的市場調研方法
在過去較長的時間里,市場分析是以實地調查為前提,或是通過問卷調查和提供抽樣技術,其目的均是為了獲得消費者的答案。進入大數據時代后,企業開始通過網絡調研進行市場調查。這種方法,能夠方便、快捷且經濟地完成市場調查。具體來講,就是企業通過門戶網站完成市場調研模塊的建立,然后將新產品郵寄給消費者,并要求消費者在試用后進行網上調查問卷的填寫,這樣就能夠投入較少的人力和物力來完成市場調研。由于這種市場分析方法具有一定的互動性,能夠在概念階段利用虛擬仿真技術完成產品測試,從而使消費者參與到產品的開發,進而使市場需求得到更好的滿足。
2.2 基于大數據的市場信息挖掘
面向大數據視野研究市場分析的問題,企業可以發現有效的市場分析需要大量的數據信息提供支撐。所以,企業還要使用基于大數據的市場信息挖掘技術,以便對市場需求進行更好的分析。首先,在智能手機逐步得到普及應用的情況下,企業還應在移動終端開展市場研究,借助移動APP完成消費信息的采集。企業對這些數據進行深入分析,能夠完成產品回購率、產品促銷獎勵評估和購買時點等內容的分析。其次,在零售終端,POS機得到較好的建設和應用下,企業可以通過掃描商品條形碼完成購買地點、名稱和零售價等信息的采集,進而使其更好地掌握商業渠道的動態信息。此外,消費者往往具有從眾性,企業加強對社交平臺的信息挖掘能更好的掌握消費潮流。比如,利用微博評論可以完成消費者對某種產品偏好的了解,從而完成消費者真實消費心理及態度的分析,進而更好地掌握市場信息。
2.3 多學科分析方法的引入
以往的市場分析通常需要采取社會學調查方法完成資料搜集,再利用數據分析軟件完成數據分析,并獲得描述性或預測性的分析報告。在大數據時代,由于要完成海量數據的分析,因此,可以引入相對論、整體論和跨文化比較研究等多個學科的分析方法,以滿足大數據時代數據分析的需要。就目前來看,大數據來自各種移動終端和網絡,其是能反映消費者行動過程和軌跡的數據記錄,采用傳統的市場分析方法難以對這種過程性數據進行分析,而引入以分析過程見長的人類學的分析方法,則能對市場消費者的行動過程進行描述,從而使消費者的行動趨向得到揭示。
2.4 定量與定性分析方法的結合
采取定性或定量這兩種分析方法中的一種,可以完成片段式或截面式數據內容的分析。但在大數據時代,數據變得更加復雜,因此可以使用定量和定性相結合的分析方法進行市場分析。一方面,企業通過網絡調研完成大量數據信息的搜集,從而采取定量分析法進行市場分析研究。這種方法,能夠使市場研究人員成為“隱形人”,從而更加客觀地觀察消費者,并通過對超大樣本量進行統計分析,完成市場狀態的分析。另一方面,針對文本、視頻和圖形等非量化數據,可以通過智能化檢索和分析來完成定性分析,以便在保護消費者隱私的基礎上,更好地分析市場需求。
2.5 數據復雜屬性的還原
在傳統的市場分析工作中,可以將數據看成是一些片段而進行分析。而這樣的分析,實際上是脫離具體情境和社會關系的分析過程,雖然可以根據自身經驗和想象來進行情境原,但得到的研究結果卻不夠客觀和科學。在大數據背景下,企業可以使用能夠還原數據復雜屬性的市場分析方法,以便更好地完成、嵌入某些社會關系的消費者的購買行動和軌跡的分析,進而獲得更加有效及真實的分析結果。因此,使用的市場分析方法應更關注數據的社會背景,從而更好地完成大數據的整合與分析。
3 結 語
在大數據時代,企業要選擇適當的市場分析方法,以便使自身的數據處理能力得到提高,從而通過獲取的高質量的數據信息來提高自身競爭力,進而更好地適應社會發展的要求。因此,希望本文對大數據視野下的市場分析方法展開的研究,可以為相關工作的開展帶來啟示。
主要參考文獻