時間:2023-03-14 15:21:21
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據挖掘總結范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
一 、數據挖掘
隨著數據庫技術的廣泛使用,以及計算技術和計算機性能與網絡的迅速發展,人們面臨著一個困難的問題,即如何從海量的數據中提取出有價值的信息。查詢功能遠不能滿足人們的需要,數據挖掘應運而生。有人將數據挖掘定義為一個從數據及數據庫中抽取隱含的,先前未知的并有潛在價值的信息的過程。但有人認為數據挖掘,即數據庫中的知識發現,是從大數據集中快速高效地發現令人感興趣的規則,數據挖掘是數據庫研究的新領域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。
數據挖掘(DataMining)是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。隨著計算機網絡的發展和普遍使用,數據挖掘成為迫切需要研究的重要
課題。
數據挖掘涉及多個學科方向,主要包括:數據庫、統計學和人工智能等。數據挖掘可按數據庫類型、挖掘對象、挖掘任務、挖掘方法與技術以及應用等幾方面進行分類。按數據庫類型分類:關系數據挖掘、模糊數據挖掘、歷史數據挖掘、空間數據挖掘等多種不同數據庫的數據挖掘類型。按數據挖掘對象分類:文本數據挖掘、多媒體數據挖掘、Web數據挖掘。按數據挖掘的任務有:關聯分析、時序模式、聚類、分類、偏差檢測、預測等。按數據挖掘方法和技術分類:歸納學習類、仿生物技術類、公式發現類、統計分析類、模糊數學類、可視化技術類。
二、數據挖掘的主要任務
(一)數據總結
數據總結目的是對數據進行濃縮,給出它的總體綜合描述。通過對數據的總結,數據挖掘能夠將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。
(二)分類
分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中。即:分析數據的各種屬性,并找出數據的屬性模型,確定哪些數據屬于哪些組。這樣我們就可以利用該模型來分析已有數據,并預測新數據將屬于哪一個組。
(三)關聯分析
數據庫中的數據一般都存在著關聯關系,也就是說,兩個或多個變量的取值之間存在某種規律性。這種關聯關系有簡單關聯和時序關聯兩種。關聯分析的目的是找出數據庫中隱藏的關聯網,描述一組數據項目的密切度或關系。有時并不知道數據庫中數據的關聯是否存在精確的關聯函數,,即使知道也是不確定的,因此關聯分析生成的規則帶有置信度,置信度級別度量了關聯規則的強度。
(四)聚類
當要分析的數據缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。
統計方法中的聚類分析是實現聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。
三、數據挖據的應用
數據挖掘技術源于商業的直接需求,因此它在各種商業領域都存在廣泛的使用價值。現在已經應用數據挖掘技術的領域都是信息量大、環境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向:
(一)在金融數據分析中的應用
多數銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產生的金融數據通常比較完整、可靠,這對系統化的數據分析和數據挖掘相當有利。在具體的應用中,采用多維數據分析來分析這些數據的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付預測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數據可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。
(二)在電力業的應用
在電力行業中,數據挖掘技術主要用于指導設備更新、業績評估、指導電力企業的建設規劃、指導電力的生產和購買、指導電力的調度等。數據挖掘在電力企業的其它方面也有巨大的用處,比如說指導項目管理、安全管理、資源管理、投資組合管理、活動分析、銷售預測、收入預測、需求預測、理賠分析等。
(三)在零售業中的應用
零售業是數據挖掘的主要應用領域,這是因為零售業積累了大量的銷售數據,如顧客購買史記錄、貨物進出、消費與服務記錄以及流行的電子商務等等都為數據挖掘提供了豐富的數據資源。零售數據挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和預測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發現顧客購買模式和趨勢,進行關聯分析,以便更好地進行貨架擺設;改進服務質量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本;尋找描述性的模式,以便更好地進行市場分析等等。
(四)在醫學上的應用
近年來,生物醫學研究有了迅猛地發展,從新藥的開發到癌癥治療的突破,到通過大規模序列模式和基因功能的發現,進行人類基因的識別與研究。在人類基因研究領域具有挑戰性的問題是從中找出導致各種疾病的特定基因序列模式。由于數據挖掘中已經有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘成為DNA分析中的強有力工具?;蛐蛄械南嚓P分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經促成了對許多疾病和殘疾基因成因的發現,以及對疾病診斷、預防和治療的新藥物、新方法的發現。
(五)在高校和科研單位以及其他領域的應用
主要是用于海量信息數據的抽取,提供給教研和科研人員有價值的數據。比如在數字圖書館方面可以引入數據挖掘技術。同時還可以應用的電子商務等等眾多領域。
參考文獻
一、旅游業數據挖掘國內外研究現狀
隨著我國的旅游業的迅猛發展,旅游產業正邁向國際化的軌道,傳統旅游業積累的海量數據,沒有被有效利用,資源被極大浪費。將數據挖掘引入到旅游產業是大勢所趨。
當前數據挖掘在旅游信息化建設中的應用與研究情況主要集中在高校理論界的研究, 大多數研究僅僅是學術研究,真正運用到旅游行業的文章多是從某個具體的方面出發,針對個別應用進行數據挖掘的融合。筆者主要研究決策樹方法在旅游信息化建設中的應用。目前,決策樹算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z統計算法、并行決策樹算法和SPRINT算法等。不同算法在執行效率、輸出結果、可擴容性、可理解性、預測的準確性等方面各不相同。總的來說,這么多決策樹算法各有優缺點,真正將數據挖掘運用到整個旅游信息化建設中還有很多問題需要解決。
二、旅游業數據挖掘算法選擇
數據挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規則的算法等等。
其中,決策樹是目前主流的分類技術,己經成功的應用于更多行業的數據分析。在關聯規則挖掘研究中,最重要的是Apriori算法,這個算法后來成為絕大多數關聯規則分類的基礎。聚類算法也是數據挖掘技術中極為重要的組成部分。與分類技術不同的是,聚類不要求對數據進行事先標定,就數據挖掘功能而言,聚類能夠可以針對數據的相異度來分析評估數據,可以作為其他對發現的簇運行的數據挖掘算法的預處理步驟。
各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結構簡單,便于理解,且很擅長處理非數值型數據,建模效率高,分類速度快,特別適合大規模的數據處理的優點,結合旅游產業數據特點,故作重點分析。
三、旅游業數據挖掘系統需求分析
旅游業數據挖掘系統的基本特點如下:統計旅游興趣;購物消費趨向;推薦其感興趣的旅游景點;在后臺管理中,通過決策樹算法對游客數量、平均年齡、景點收費、游客來自地區等進行分析總結,為旅游消費者和旅游管理者提供服務:為消費者提供吃住行購娛樂天氣各方面信息查詢、機票、車船票、酒店、景區門票、餐飲等方面的預定與現金支付、第三方支付、消費者評價、在線咨詢等方面的便利、快捷服務。為管理者提供推薦、游客管理、線路管理、景點管理、特色服務管理、機票管理、在線咨詢管理、旅游客戶關系管理等服務,提高整體服務效率和水平。
四、旅游業數據挖掘系統的實現
旅游業信息管理系統包括游客信息管理與游客信息分析兩個子模塊。根據系統日常運行出現的問題及時對系統進行維護,如添加或者刪除某個模塊功能,系統整體運行速度的更近等。系統運用數據庫層、持久化層、業務邏輯層、表示層四層體系結構, 主要利用ID3算法達到旅游數據信息的快速、準確分類。考慮了游客與酒店之間的關系、游客與旅游路線之間的關系、游客與旅游景點之間的關系、游客與機票、車票之間的關系、管理員與游客之間的關系、邏輯結構設計。程序之間的獨立性增加,易于擴展, 規范化得到保證的同時提高了系統的安全性。
詳細功能設計包括:用戶登錄、用戶查詢、預定及支付、后臺管理、旅游客戶管理和數據分析等方面。本系統中主要運用Java語言就行邏輯上的處理。系統主要使用 Struts2和Hibernate這兩個框架來進行整個系統的搭建。其中Struts2主要處理業務邏輯,而Hibernate主要是處理數據存儲、查詢等操作。系統采用Tomcat服務器。系統模塊需要實現酒店推薦實現、景點推薦實現、天氣預報實現、旅游線路實現、特產推薦、數據分析展現功能、報表數據獲取、景區客流量變化分析實現等。需要進行后臺信息管理等功能測試以及時間測試、數據測試等性能測試。
中圖分類號:TP399 文獻標識碼:A 文章編號:1007-9599?。?012) 19-0000-02
數據挖掘技術是計算機領域和人工智能領域的關鍵技術。數據挖掘技術可以將大量的數據轉換為有用的知識和信息,因此引起了信息產業界的廣泛關注。近年來,在作為信息和知識的集散地和發源地的高校圖書館,數據挖掘技術的應用更為廣泛。
1 數據挖掘概述
數據挖掘(Data Mining),就是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。在人工智能領域,習慣上又稱為數據庫中的知識發現(Knowledge Discovery in Database,KDD),也有人把數據挖掘視為數據庫中知識發現過程的一個基本步驟[1]。作為數據庫中的知識發現的一種先進技術,數據挖掘通過總結要查詢的內容的模式,對其間存在的規律進行搜索,輔助決策者對當前數據及歷史數據進行分析,發現其中隱藏的模式和關系,進而對未來可能發生的事情進行預測。因此,數據挖掘技術在高校圖書館中有著廣泛的應用。
2 數據挖掘技術在高校圖書館的應用
2.1 提高圖書館的決策能力
由于數據挖掘技術能夠從眾多的數據中發現有用的知識和信息,因此被廣泛應用在圖書館的管理中,領導通過對挖掘出的有用信息進行分析,可以提高決策的準確性和可行性。比如,通過數據挖掘技術可以對圖書館的圖書借閱情況進行挖掘和分析,分析每類讀者的借閱行為特征,發現借閱規律,為圖書館的管理提供可行的合理的建議[2]。數據挖掘技術可以將圖書館管理系統中的內部數據和外部數據結合起來進行分析,為領導提供靈活的、隨時可用的決策信息。數據挖掘技術可以從歷史數據中找出某種規律,發現某種潛在的模式,以此預測未來,提供決策信息[3]。
2.2 輔助圖書館的圖書采購
此外,通過對數據挖掘技術的結果進行分析和總結,可以提供各種預測性信息和分析報告,可以科學合理的指導圖書館采購圖書,從而降低圖書采購人員的主觀因素帶來的影響,可以科學的、準確的和全面的提高決策的能力,提升決策的水平。數據挖掘技術應用于圖書采購的過程包括原始數據的收集、預處理、數據變換、數據挖掘、結果分析和采購計劃的制訂五個步驟[4]。
1.原始數據的收集。這一過程是基礎,可以為下面幾個環節提供一定的數據源,提供的數據源可以用在后期的數據挖掘中。在實踐應用中,這一環節主要收集圖書館辦公自動化系統數據庫里的相關業務數據,主要包括以下內容:①讀者基本信息數據。比如讀者的姓名、性別、所在院系、借閱證號等。②流通借閱數據。利用數據挖掘技術獲得的這部分信息,可以反映圖書館的文獻利用情況,通過分析、統計和總結這些數據,有助于掌握讀者的需求和書刊的使用情況,進行提供一定的預測信息。③文獻信息檢索數據,這些數據的主要功能在于如實地向數據挖掘人員反饋用戶的實際需求和借閱傾向,并挖掘讀者需求數據。④圖書館所藏的圖書數據:主要包括書的題名、作者、出版社、出版日期、索書號、館藏位置、購入日期等數據。
2.原始數據的預處理。這一環節就是在數據挖掘前對一些有問題的數據進行處理,這些數據大多數是不完整的、不一致的或有噪聲的,這些數據是圖書館自動化系統數據庫數據中的一部分。在數據挖掘前處理這些問題數據是非常有必要的,可以從根本上提高數據挖掘的效率和所獲知識的質量。
3.數據變換。這一過程就是對前面兩個環節所獲得的有效數據進行總結、分析、聚集和歸納,使數據更適合于挖掘,滿足不同的數據挖掘的需求。
4.數據挖掘。數據挖掘過程的主要工作就是設計選擇一種合理的算法,使當前的數據情況和挖掘的目標相匹配,使其一致,比如遺傳算法等。通過分析讀者基本信息數據和流通借閱數據之間的關聯關系,某類讀者和某類圖書之間的關聯度會更加清晰的被數據挖掘人員所理解。
5.結果分析和采購計劃制訂。一般情況下,數據挖掘所獲得的結果并不是可視化的,需要通過一些工具比如可視化工具和知識表示技術對其評估和解釋。通過數據挖掘,可以獲得檢索頻率和借閱頻次較高的圖書信息。借助這些信息,可以對各類文獻的利用率和需求狀況進行科學合理的分析,從而輔助采購人員科學地篩選文獻種類。
2.3 提升圖書館的信息服務水平
圖書館的信息服務一般是被動服務,也就是圖書館員定期向用戶提供一些資料,比如課題資料、項目資料等;除此之外,圖書館員還要逐一解答用戶的信息請求。由于當前的科技發展日新月異,知識更新速度快,而這種被動服務模式反應較慢, 不能滿足現實發展的需要。數據挖掘技術的廣泛應用,使圖書館由被動服務轉為主動服務,使傳統圖書館轉變為主動性、智能型的信息服務機構。
3 數據挖掘技術對高校圖書館帶來的挑戰
(1)從異構數據源中挖掘信息。筆者認為,從異構數據源中挖掘信息也就是從多個不同的相關的數據源系統的集合中挖掘相關的信息并對其分析綜合,從而產生有用的信息和知識。在當今的網絡時代,信息技術日新月異,新技術層出不窮,這就要求圖書館的專業技術人員能夠駕馭新興技術,能夠從被各種網絡連接起來的具有不同語義的多種數據源構成的分布式異構數據庫中挖掘相關信息。
(2)數據挖掘結果的不同形式表示。由于當前圖書館通過數據挖掘技術獲得的數據具有不確定性,所以數據挖掘的結果會有多種類型,其表示形式也不同。圖書館的用戶也許會要求挖掘出不同知識,這就需要圖書館工作人員從一個大規模的數據集中挖掘出不同的知識,并從不同的角度來審視,并以不同的形式表示挖掘的結果[5]。
(3)在不同的抽象層次上進行交互式挖掘。在數據挖掘之前,很難從一個大規模的數據庫中預測出能挖掘出什么信息,因此,應該以一個搜索過程來處理復雜的數據挖掘查詢,對于必要的中間結果務必保留,以供進一步挖掘使用。在挖掘過程中,用戶通過不斷地修改其查詢請求,對挖掘目標進行動態調整,能使挖掘過程得到有效地推進。因此,系統需要對挖掘的中間結果以不同的角度進行觀察,并提供用戶觀察數據的靈活性。
4 結語
數據挖掘技術在高校圖書館的應用范圍很廣,除了上述應用外,在學科管理、館藏資源建設、信息咨詢、圖書館的現代化建設與管理等方面都有廣泛的應用。通過對高校圖書館各種數據、信息的挖掘,可以揭示隱藏在期間的各種重要關系,圖書館員應該學習這方面的新技術、新發展,為圖書館的發展做出更大的貢獻。
參考文獻:
[1]邱曉輝.知識發現與數據挖掘分析[J].情報探索,2011,(1).
[2]張煒,洪霞.基于讀者利用挖掘的圖書館決策與應用分析[J].現代情報,2009,29(7).
0引言
近幾年,隨著互聯網技術的發展和對人們工作生活的不斷滲透,隨著移動互聯、物聯網、云計算、智慧工程等新興信息技術的出現和普及,數據在人們的生活中呈爆炸式增長,人們開始進入大數據時代。由于海量數據中記錄了企業的發展、運營以及人們生活和行為的點點滴滴,所以,挖掘海量數據背后存在的模式、規律和趨勢,并結合各行各業進行創新應用,已經成為這個時代的重要課題。我國電子商務經過近20年的發展和數據累積,已經從用戶為王、銷售為王進入到數據為王的階段,如何針對用戶消費行為的分析,提升電子商務的運營效率,促進精準營銷的開展,增加客戶黏性,從而實現電子商務的智能化發展,是當前電子商務發展的重中之重。因此,在大數據背景下,為適應行業發展需求,國內外很多高校,尤其是應用型本科院校,在電子商務專業本科生中陸續開設大數據分析與挖掘系列的課程,其中作為大數據研究與應用的重要支撐技術的數據挖掘,是其中一門重要課程。
1電子商務專業開設數據挖掘課程的必要性
1.1行業發展的必然要求
進入大數據時代,“互聯網+”技術與傳統行業深度融合,電子商務數據已覆蓋了從用戶、商家、第三方、物流等一系列商務環節。因此,充分利用大數據,有效分析和挖掘大數據的價值和規律,已成為推動電子商務深化發展的重要引擎。首先,數據挖掘技術是電子商務智能化的基礎。由于電子商務的活動從開始就具備了信息電子化的先天優勢,所以,用戶在電子商務網站上發生的所有行為信息都被日志記錄,包括用戶對產品的搜索、瀏覽、在購物車加入或取出商品、收藏產品、對商品的討論、評價、分享等。對這些用戶行為信息進行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實現對用戶的個性化推薦。其次,數據挖掘技術支撐電子商務的精細化營銷的實現。通過網絡爬蟲收集用戶在消費過程種對商品的興趣、偏好、評價等數據,并進行分析挖掘,可以更好地對用戶進行細分,針對性地制定營銷策略,更準確地把握用戶態度和對產品的情感傾向,及時控制營銷中的不良影響,從而提升用戶體驗和用戶黏性。第三,數據挖掘技術推動電商物流的優化。通過對電商物流數據的分析和挖掘,可以預測市場需求變化的規律,幫助企業合理地進行庫存管理和控制,優化配送路線,進行物流中心選址策略分析等??梢?,對于電子商務專業大學生開設數據挖掘課程是行業發展的必然需求。
1.2專業人才培養的迫切需求
電子商務是利用信息和通信技術,通過Internet在個人、組織和企業之間進行商務活動和處理商務關系的一種活動。隨著云計算、物聯網及移動互聯等新興信息技術的迅速發展,大量傳感器和監控設備不間斷的數據采集和行業數據的持續積累,使大數據成為時代的鮮明特點。教育部電子商務專業教學指導委員會王偉軍教授等人對138個電子商務專業本科人才的市場招聘需求進行研究發現,網絡營銷與數據分析是當前電子商務專業的主要能力需求,而目前我國開設電子商務專業的高校中開設數據挖掘及其相關課程的只有14所。因此,該類別人才缺口目前較為嚴重,市場需求量較大。為了適應時展需求,高校在人才培養時既要注重電子商務運營管理能力的培養,同時更要注意商務數據分析與挖掘能力培養。培養同時具備這兩種能力,并且可以將兩種能力有效結合起來的應用型人才,是當前高校電子商務專業發展的趨勢和方向??傊诋斍暗碾娮由虅栈顒又?,商務管理是核心,數據分析與挖掘是手段。在大數據背景下,要提升電子商務的管理效率,實現電子商務的智能化發展,必須應用好數據挖掘這把利器。因此,在電子商務專業開設數據挖掘課程,是行業發展的必然要求,也是專業發展的迫切要求。
2電子商務專業數據挖掘課程教學思路設計
數據挖掘是一門交叉學科,涉及統計學、數據庫、機器學習、高性能計算等多門學科相關內容,要求學生具有較為扎實的基礎知識。由于課程難度較大,早期高校都把該課程作為研究生的專業課程。為適應市場需求和行業發展,近年來,也有些高校將此課作為本科生高年級選修課開設。從該課程的傳統教學上來看,由于學生理論基礎不夠扎實,課程教學又多側重算法的分析與實現,導致該課程存在教學難度大、理論教學過多、學習興趣難以提高等問題??紤]到傳統教學的問題以及電子商務專業培養應用型本科人才的實際情況,筆者認為該課程在教學過程中應“輕算法,重應用”,以啟發學生數據思維為主,以理解算法思路為主(忽略細節實現),以合理構建數據挖掘模型、正確解讀數據挖掘結果為主。在組織教學時,采用基于場景的啟發式教學方式。該課程在講授每個數據挖掘方法時,都通過一個電子商務問題進行導入;通過本節所授方法,形成解決問題的思路;最后通過專門數據挖掘軟件進行方法的應用,通過對挖掘結果的解讀分析,為導入問題的決策分析提供依據。通過這種由淺入深,由易到難的方式,引起學生學習興趣,激發學生主動思考,真正成為課堂的主體。實踐環節是學生理論聯系實際的關鍵步驟,選用合適的數據挖掘軟件工具非常重要,對于電子商務專業的學生,數據挖掘重在問題的建模和方法的應用,所以,該課程選擇的數據挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數據挖掘算法,本課程涉及到的分類、聚類、關聯分析、時序分析、社會網絡分析挖掘等主要數據挖掘功能均可實現,而且其操作簡單易用,分析結果直觀易懂,可以使用戶方便快捷地實現數據挖掘。學生通過對算法基本思路的了解,針對實驗問題設計數據挖掘方案,并通過數據挖掘軟件進行算法的應用和結果的分析,理論和時間的順利銜接,進一步加深學生對數據挖掘方法的認識和理解。
3電子商務專業數據挖掘課程教學內容設計
數據挖掘課程主要講解數據挖掘的基本概念、主要方法和技術、應用情況及發展趨勢,目的在于啟發學生的數據思維,提升學生數據分析與挖掘的能力,深入理解電子商務數據在電子商務中的重要地位和作用,實現商務管理和數據挖掘的有機結合。由于數據挖掘課程理論性和應用性均較強,反映在教學要求上,既要重視理論學習,又要重視實踐環節。具體來說,就是一方面通過理論教學使學生對理論內容有較深入的理解和領悟;另一方面結合實踐教學,鼓勵學生多動手,多思考,綜合運用所學知識分析和解決實際問題。
3.1理論教學設計
針對大數據時代的數據特點和應用特點,在數據挖掘課程的理論教學設計時,其內容不僅包括傳統的基礎性的分類、聚類、關聯分析、時序分析等數據挖掘方法,還注重根據電子商務行業特點進行知識的拓展介紹,比如在將關聯分析的時候,除了傳統的購物籃分析,還增加了序列模式分析內容;比如在結合社會化電子商務的發展,對社會網絡分析、文本挖掘等前沿數據挖掘知識也進行了一定的拓展介紹。這些拓展內容,不但豐富了學生的知識體系,也為部分學生的課下深度擴展指明了方向。我校電子商務專業的數據挖掘課程總學時為48學時,其中理論教學32學時,主要內容及其學時分配如表1所示。表1數據挖掘課程理論教學安排序號章節標題內容提要學時1數據挖掘概述數據挖掘基本概念與功能;基本流程與步驟;基本方法與應用;拓展:數據庫,數據倉庫與數據挖掘的關系22數據預處理數據清洗;數據的集成與轉換23分類分析決策樹分類;貝葉斯分類;分類特點及結果分析64聚類分析K-means聚類;兩步聚類;聚類特點與結果分析65關聯分析頻繁項集;關聯規則挖掘;關聯分析效果評價;拓展:序列模式分析86時序分析移動平均模型;指數平滑模型;拓展:ARIMA模型67數據挖掘發展趨勢社會網絡分析;文本挖掘;Web挖掘2理論教學在組織時,基本上以“課堂引例-問題分析-算法思路講解-課后練習”的方式展開。通過實例分析,給學生介紹各種算法的基本思想和相關概念,引起學生學習興趣。在講授算法時,通過具體的簡單數據演算實例來分析數據挖掘的過程和結果,使學生在實際案例中明白數據挖掘算法在處理數據過程中的作用和意義。雖然該課程開設在電子商務專業的第六學期,但是,由于數據挖掘課程本身需要多個學科的基礎知識,在目前的大學課程體系內,難以在有限的時間內開設全部先修課程。因此,在理論講解時,對涉及到學生比較生疏的知識點,應根據學生的知識水平,予以補充說明。例如,在講決策樹分類時,對于信息論中信息熵基本概念和計算方法,可以結合實際數據集合,進行講解和計算。
3.2實驗教學設計
數據挖掘是一門緊密結合實際應用的課程,具有較強的實踐性。實踐教學環節中,首先教師講解實驗步驟,然后安排學生進行實驗,并對實驗結果做詳細分析與評價。每個實驗要求學生完成以下幾方面的內容:(1)根據實驗問題設計數據挖掘方案和實施流程;(2)進行數據預處理,并構建數據挖掘模型;(3)解讀數據挖掘結果,并聯系實驗問題進行具體分析;(4)實驗拓展與總結。在實驗拓展和總結部分,可以設計一些開放性的題目,比如在進行關聯分析時,可以設計這樣的問題“如果支持度閾值設置時降低十個百分點,頻繁項集會有哪些變化?關聯規則的準確性和適用性會有哪些方面的變化?”。在實驗環境下,學生可以通過對比實驗,比較容易得到結果,而在總結這些變化規律時,又可以強化和鞏固對關聯規則、頻繁項集、支持度、置信度等這些概念和指標意義的理解,從而更好的應用在以后的工作實踐中。結合電子商務活動特點以及數據挖掘在電子商務中的應用,該課程的實驗是16學時。在實驗設計時,共設計了五個單人實驗和一個綜合性多人實驗.由于使用數據挖掘技術處理實際問題時,很多時候需要綜合運用一些數據挖掘方法,其設計方案不止一種,分析結果也不一定完全一致。為激發學生的主觀能動性,本課程在最后需要每個小組共同完成一個綜合性的數據挖掘作業。研究表明,對于本科生來說,指導教師給出一些具體的題目,如大學生消費狀況預測、校園共享單車滿意度分析等,這些熱點問題更容易激發學生的學習興趣。綜合作業從數據挖掘方案的設計、數據采集、數據預處理、數據建模、結果分析以及報告撰寫全部由小組成員協作完成,通過這樣一個完整的分析問題、解決問題的過程,不但可以鍛煉學生綜合應用知識的能力,也可以鍛煉學生的溝通寫作能力。在綜合性作業完成的過程中,教師需要給予一定的指導,例如教師可以介紹問卷星等網絡調查平臺或網絡爬蟲等工具幫助學生進行原始數據的采集;通過對數據挖掘方案的點評,幫助學生更合理的選取數據分析指標,設計數據挖掘方案;通過報告撰寫指導,幫助學生規范化的總結實驗分析結果。
4結論
大數據時代的電子商務活動中,對電子商務人才的數據挖掘和分析能力非常迫切,在電子商務專業中開設數據挖掘課程是行業發展和專業發展的必然要求。在電子商務專業開設數據挖掘課程既有別于研究生也有別于計算機等理工科專業,“輕算法,重應用”,以提升學生主動學習興趣為導向,采用基于場景的啟發式教學方法更合適。本文從教學思路、教學方法、教學內容等方面進行了思考和探索,經課程開設兩年來的教學實踐證明,學生在學習上的主觀能動性得到了一定的體現,理論和實踐相結合的能力得到了鍛煉。激發學生學習興趣,培養學生的主動性思維,是當前教學中的重要課題,在電商行業不斷發展的過程中,如何更好的將最新行業問題融入教學過程,實現理論和實踐的有機結合,需要我們進一步深入思考和探索。
參考文獻
[1]馮然,陳欣.論數據分析類課程在電子商務專業設置中的重要性[J].河南教育,2015,(2).
[2]黃嵐.數據挖掘課程實踐教學資源庫建設[J].計算機教育,2014,(12).
[3]薛薇.基于SPSSModeler的數據挖掘(2版)[M].中國人民大學出版社,2014.
[4]李海林.大數據環境下的數據挖掘課程教學探索[J].計算機時代,2014,(2).
中圖分類號:G4
文獻標識碼:A
doi:10.19311/ki.1672-3198.2016.29.119
隨著高校教學信息化的不斷進步,教學管理過程中積累了大量的數據。但這些數據只是簡單的業務統計,并未進行整理和分析。教學評價是教學質量監控體系的重要內容之一,如何把握其內涵以及最終的目的,是教學實踐過程中的難點之一。充分應用數據挖掘技術能夠對教學評價過程中的大量數據進行加工處理,從而為教學管理人員提供正確的決策,促進教學質量的提升。教學評價的科學性對于教學質量的提高具有重要意義,因此利用數據挖掘技術對教學評價的數據進行分析,能夠有效提高高職院校的教學質量。
1 高職院校教學評價現狀
高職院校教學評價主要是教務處對每個學期教師的教學質量進行評估,一方面教務處將評價表發放給學生或是網絡評價,學生根據教學質量評價表中的內容給教師評分;另一方面教學督導和同行聽課后給出相應的評價,最終形成教師的教學評價最后得分。教務處將教師的得分進行排名,并確定考核的等級。這種傳統的教學評價對于教學質量的提高具有一定的作用,但是仍然存在諸多弊端,影響評價的準確性。近年來高職院校越來越重視對教學的評價,但教學評價缺乏一定的科學性。
1.1 對教學評價的認識模糊
近年來,高職院校雖然越來越重視對教學的評價,但是對教學評價的意義、教學評價在教學管理中的作用認識仍比較模糊。當前部分高職院校的教學評價還停留在初級階段,沒有意識到科學的教學評價在教學管理中的重要性,因此教學評價指標的科學性有待進一步完善。
1.2 教學評價理論薄弱
很多教學管理者對教學評價的理論知識比較薄弱,同時高職院校與專業的研究機構缺乏足夠的合作,致使教學評價理論缺乏系統性,教學評價理論難以發揮應有的作用。很多高職院校教學評價工作人員并未接受過專業的評價理論培訓,導致教學評價只是停留在表面,難以向深層次推進。
1.3 教學評價手段比較落后
高職院校目前采用的教學評價手段比較單一,評價技術相對落后。雖然很多院校開始采用模糊數學的方法進行評價,也取得了長足的進步,但是教學評價還是沿用現成的技術,并沒有根據自身的特點進行創新和改進。
2 數據挖掘的分類與算法
2.1 數據挖掘技術的分類
2.1.1 根據任務分類
根據數據挖掘技術的任務進行分類,主要包括分類模型數據挖掘、總結、聚類、關聯規則、序列發現以及依賴模型和異常發現等。
2.1.2 根據方法分類
根據數據挖掘技術的方法進行分類,主要分為分類算法、關聯規則算法、最近距離算法和支撐向量機算法。
決策樹分類法是應用最為廣泛的算法,采用自上而下的歸納方法來總結數據規律,決策樹的數據總結清晰明了,并且每個節點都使用信息增益度量來選擇測試屬性。簡單講,這種方法就是以樹形結構來體現大數據的特點和挖掘結果。決策樹具有多種算法,較早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。決策樹算法將數據有原則的進行分類,剔除無用或者用處不大的信息,從而實現大數據整理的高效性,在預測模型中應用廣泛。所謂關聯規則算法是通過數據之間的關聯性建立一張關系網,從而找到解決某一問題的重要數據和條件,也就是通過對某種現象的檢測來獲得結果。關聯規則算法使大數據清晰化,能夠顯示有用結果,減少統計時間。同時,該方法支持間接的數據挖掘和對變長數據進行處理,它計算的消耗量是可以預見的。最近距離法(KNN)的原理是以空間中的某個向量為樣本,與其相鄰的空間內與其相似的向量的統計就可以用相同的方法來統一。該方法的優勢在于避免了其它方法的樣本不平衡狀態。由于該方法主要是依靠周邊鄰近的樣本,樣本數量有限,不能通過由判別類域的方法來確定類別,所以常用于樣本之間重疊或交叉較多的空間。支撐向量法是建立在統計學理論的基礎上的,靠機器來完成,是現代智能化統計的雛形。其原理在于將給定的有限的數理訓練樣本進行準確無誤的折衷,從而提高的推廣能力。
2.2 數據挖掘的過程
數據挖掘其實就是不斷的反饋,其重要包括數據準備階段、數據挖掘階段以及評估和表示階段。
2.2.1 數據準備階段
數據挖掘技術應用的前提是準備數據,教師教學質量評價的所有數據均來自于系統數據庫,所需數據主要有學生評價數據、同行評價數據、教師自評數據和專家評價數據等,這些數據的獲取可以直接提取數據庫表的內容。另外,還要綜合調查問卷的數據。數據準備完成后,需要對全部數據進行預處理,使其滿足數據挖掘格式。
2.2.2 數據挖掘階段
依據數據的具體性質,選擇合適的處理技術,常用的技術有聚類分析、歸納技術、關聯技術以及神經元網絡等技術,常用的算法有BP算法、ID3算法等。然后使用選擇的技術和算法對數據進行挖掘。
2.2.3 評估和表示階段
將教學評價的原始數據,利用數據挖掘技術轉換為更加容易理解、關系明確的形式,采用統計學方法評價數據分析的結果,進而獲得最佳的模式,同時還要預測可能發生的多種情況,為決策者提供多個方案。
3 數據挖掘技術在高職院校教學評價中的應用
教學評價的任務就是通過科學的手段,構建數據挖掘的模型,并將模型應用到高職院校的教學管理中。教學評價模型要盡量降低人為因素的干擾,重新調整教學評價中的屬性權重。決策樹算法在商業領域應用范圍較廣,并且成效明顯,但是目前在教學評價中的應用還比較少,我們主要對決策樹算法的應用進行分析,構建決策樹模型,將其具體應用到高職院校的教學評價中。決策樹模型能夠在海量的數據中分析出可能影響學生、同行、專家評價結果的重要因素,能夠建立教師的教學行為和教學質量之間的關系,進而發現相應的規律,為以后的教學評價服務。
3.1 數據挖掘技術在教學業績評價中的應用
高職院校對于教學質量的評價一直缺乏科學的評價方法,因此教學評價的結果缺乏合理性,教學評價的效果較差。數據挖掘技術的應用,能夠構建科學的、合理的教學質量評價體系,并由專門的部門負責測評,這樣教師教學質量的評定就有了準確性,進而可以將教學等級作為評價的硬性指標,教師的晉級就有了理論依據。我們將其具體的應用分析如下:
(1)在成績方面,多數高職院校是以期末成績和平時成績來評價學生,獎勵結果多以獎學金的形式出現。采用傳統的方式進行評價,只能單方面的靠成績的數字來評價學生,而應用數據挖掘技術可以挖掘成績背后的影響因素,實現對比分析和全面分析。從而對學生的學習成績做出正確的評價,并且在教學環節中采用必要對策。(2)在考試試題的出題中,數據挖掘技術能夠剖析學生的特點,從而針對性的出題,幫助學生發現學習中存在的問題。(3)教學評價。這是我們研究的重點,在這一過程中,教學評價源于教師,但是評價對象卻是學生。在傳統的評價中,我們往往忽視了對學生這一主體的作用,使用數據挖掘技術之后,評價的主體為學生,結合多種因素進行評價,從而根據學生的需求進行教學方法與課程設置的改革。使學生的學習過程循序漸進,更容易進入角色,提高學生學習的自信心。對影響學生的學習因素每個學期都要進行分析,利用管理系統并結合數據挖掘技術,就能更自如地完成教學改革,促進教學質量的提高。
3.2 數據挖掘技術在教學診斷中的應用
教學評價能夠使教師明確自身教學目標的合理性,教學方法和教學手段選擇是否科學合理,教學內容的重點和難點是否清晰,進而根據實際情況合理調整自身的教學策略,不斷改進與完善教學方法。數據挖掘的結果可以使教師有針對性的解決教學中的問題,教學評價不僅僅要為教師的教學狀況進行判斷,同時對于教學改革的方向也提出了明確的要求,其能夠引導教師樹立科學的教學觀和正確的質量觀,使教師可以清楚自身的不足和今后的努力方向,督促教師不斷轉變教學思想,對教學的過程進行改革,發揮教師自身的主觀能動性和創新精神,最終實現有效的教學改革。
3.3 數據挖掘技術在教學管理中的應用
教師教學質量的評價主要由教學主管部門完成,因此教學主管部門要利用數據挖掘技術科學的收集數據,并選擇合適的算法進行分析和處理,通過數據庫資料分析出提升教學質量的關鍵因素,然后將這些因素反饋給高職院校管理層。教學管理人員根據數據挖掘分析的結果可以及時制定正確的改進措施,進而發揮教學管理的功能。教學評價結果對其他教師具有良好的借鑒作用,有利于不斷提高教學質量。
4 總結
教學評價是高職院校教學管理的重要組成部分,對我國高職院校教學質量的提高具有十分重要的作用。數據挖掘技術是信息化發展的產物,它能夠處理海量的數據信息,提取出信息之間的關聯,發現相應的規律,以此來服務于教學評價。數據挖掘技術通過不同的算法,可以找出影響教學質量的因素,進而使決策者可以指定正確的決策,提升高職院校的教學質量。因此高職院校在教學評價工作中,要加大數據挖掘技術的應用,使教學評價能夠更好的為提升教學質量服務。
參考文獻
[1]董琳.數據挖掘技術在高職院教學評價中的應用研究[J].電腦知識與技術,2013,(4).
[2]江敏,徐艷.數據挖掘技術在高校教學管理中的應用[J].電腦知識與技術,2012,(8).
[3]呂慎敏.基于數據挖掘的高校教學管理決策支持系統研究[D].濟南:山東師范大學,2012,(6).
關鍵字:數據挖掘;XML;電子商務
數據挖掘技術是數據庫應用研究較為活躍的領域之一,因為其現實意義,使得數據挖掘的技術研究和應用有了很大的發展,在國內外科研領域都備受關注。特別是在電子商務領域數據挖掘技術有著巨大的使用價值。隨著電子商務市場的日臻成熟,第三方電子商務平臺上眾多的網店之間的競爭正日益激烈,網店開展網絡營銷的成本日益增加。每個網店企業通過一定時間的經營都會收集到眾多的客戶數據,如何通過龐大的客戶訪問數據挖掘出潛在的客戶需求的金礦,使網店經營企業快速有效的通過現有客戶數據掌握市場的變化的規律和趨勢,已經成為網店經營管理者急需解決的問題。本文將探討一種網店客戶數據挖掘系統的設計與實現的方法。
1、網店客戶購買數據挖掘系統的設計
1.1 客戶購買數據挖掘系統的實現原理
對客戶數據進行挖掘的關鍵要點就是把現有的網店訪問日志經過數據預處理轉換成滿足XML文件格式要求的結構化數據,然后使用DBMS工具將結構化的XML文件轉換成關系型數據庫,最后運用數據挖掘的方法從數據庫抽取能夠反映客戶消費和購買行為的數據。具體工作過程如下:
1)確定數據來源(主要是顧客購買記錄)
數據挖掘離不開海量的數據,每一個網店在經營一段時間以后都會記錄大量的客戶購買記錄,這些客戶購買記錄當中就蘊藏著大量的信息,這些信息我們進行數據挖掘的數據來源。
2)進行數據篩選
客戶購買記錄中蘊藏大量的信息不可能全部為數據挖掘的對象,從數據源中提取需要的數據,將無用的數據和干擾信息從數據源中剝離,為進一步的工作做準備。
3)數據格式轉換
將進一步篩選過的有挖掘價值的非格式化數據數據轉換為XML格式的文件并存儲。
4)導入數據庫
將表示客戶訪問數據的XML格式文件使用數據庫管理工具進一步轉換成可以存儲于數據庫的關系型數據庫文件。[1]
5)進行數據挖掘
應用數據挖掘的相關算法,對存儲在關系型數據庫中的數據進行挖掘,發現海量數據中隱藏的客戶行為模式和消費趨勢。
6)對數據挖掘的結果進行甄別
通過數據挖掘總結出的一些模式有時可能脫離客戶真實行為模式的實際,因此在最后一步需要為對數據挖掘總結出的規則進行甄別,這個工作目前還需要有經驗的專家人工完成,今后考慮結合人工智能的技術加以解決。
1.2 網店客戶購買數據挖掘系統模型
在上述系統設計的基礎之上,我們提出了網店客戶購買數據挖掘系統的模型,該模型由三個層次組成,其邏輯架構如圖一所示。
2、系統設計與實現
2.1 系統開發與運行環境
硬件環境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:
操作系統:Windows7SP1
開發工具:Microsoft.NET2005/VisualC#
數據庫管理系統:MSSQLServer2008
輔助軟件:spssClementine11.1;SQLServer2008AnalysisServices(SSAS)
2.2 主要技術與系統實現
通過對上述對客戶購買數據挖掘系統模型的分析可知,該系統主要由用戶接口模塊、數據清洗模塊、數據格式轉換模塊、數據庫生成模塊和數據挖掘引擎模塊等組成。
1)用戶接口模塊
本系統最終目的還是為為客戶的決策提供支持,因此友好的界面設計是用戶與系統交互的基礎。簡潔而易于理解的界面有利于提高用戶對系統的使用效率。
2)數據預處理模塊
客戶訪問數據進入數據預處理模塊進行清洗,去除無關的信息,剝離出對數據挖掘有價值的數據。數據預處理模塊對原始訪問數據進行分析,將用戶購買數據記錄逐條的分割成十個字段,分別為:u_id(訪問者編號),u_date(到訪日期),u_time(到訪時間),u_orderid(訂單編號),u_product(客戶購買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁面),place(客戶所在地區),payment(支付方式),logistic(物流方式),同時刪除訪問數據中與以上字段不相干的數據。然后將經過預處理的數據存入中間文件。
3)XML轉換模塊
該模塊程序使用.NET的相關的方法編寫,主要功能將預處理過的客戶購買數據轉換成標準化XML格式的數據文件進行存儲。該程序的主要實現原理是對經過預處理的中間文件中的數據記錄逐個分割并存入數組,然后將數組的內容按照XML的格式寫入文件,完成轉換。
4)數據庫導入模塊
利用.NET的相關方法并結合數據庫管理工具建立支持數據挖掘的客戶購買數據庫,編寫相關程序將已經轉換成XML格式的客戶訪問數據逐條的導入到數據庫并形成日志數據表方便進行后續的數據挖掘。
5)數據挖掘引擎模塊
數據挖掘引擎是實現客戶購買數據挖掘系統的實現關鍵。優秀的數據挖掘算法不僅可以使數據挖掘的結果更加準確,也可以提高數據挖掘的效率。本系統主要用到的算法是該模塊利用數據挖掘算法對數據進行挖掘,主要包括算法的優化、日志數據表的刪除操作以及挖掘結果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發現最相似的客戶聚類,通過對聚類的分析來得出網店眾多的顧客一般的購買行為模式,從而可以適當地調整網站營銷的策略中的來提高網絡營銷的效果,進而增加銷售量。[2]
3、小結
本文主要討論了一種基于XML技術的網店客戶訪問數據挖掘系統的設計與實現方法。通該系統可以幫助網店經營企業對大量的客戶訪問數據進行分析,從中發現市場的變化規律和客戶的行為模式,使企業的網絡營銷工作更有針對性,同時也更富有成效。
參考文獻:
中圖分類號TP311.13 文獻標識碼A 文章編號 1674-6708(2010)33-0257-02
1 數據挖掘的概念
隨著計算機技術的高速發展,互聯網技術的風靡,獲得相關資料已經是很方便了。但是人們也積累了大量的數據信息,面對這些龐大的數據,如何從中提取有用的信息成為當務之急,為此,數據挖掘技術應運而生。數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程。數據挖掘是發現知識的關鍵步驟。
2 數據挖掘的作用
2.1 關聯分析
關聯是反映兩個或者兩個以上事件之間存在某種依賴或聯系規律性。關聯規則挖掘是由Rakesh Apwal提出來的。在數據庫中,如果存在一項或多項之間的關聯,則其中一項屬性值能夠依據其他屬性值進行推測。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中所有頻繁項目集,這是數據挖掘中最成熟的技術之一。例如:每天購買洗發水的人也有可能購買肥皂,比重有多大。
2.2 聚類分析
聚類分析是把數據按照所選樣本的關聯相似性劃分成若干小組,同一小組中的數據具有較高的相似度,不同組中的數據則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數和各組的相似特性。聚類分析可以發現數據的分布模式,以及可能的數據屬性之間的相互關系。例如:將學生分為成績優秀的學生,成績中等的學生,成績差的學生。
2.3 分類
分類就是按照以前數據庫中的數據,分析它們的屬性、特征,找出一個類別的概念描述,并利用這種描述構造模型,每個類別都代表了本類數據的整體信息,一般用規則或決策樹模式表示。分類事先知道類別數和各類的典型特征。例如:學校根據以前的數據將教師分成了不同的類別,現在就可以根據這些來區分新教師,以采取不同的待遇分配方案。
2.4 預測
預測是利用歷史和當前的數據找出變化規律,推測未來數據的種類及特征。預測是以時間為關鍵屬性的關聯規則。例如:對未來經濟形勢的判斷。
2.5 偏差分析
數據庫中的數據存在很多異常情況,偏差是對差異和極端情況的描述,發現數據庫中數據偏離常規的異?,F象,揭示內在原因。例如:在本次數學測試中有30%的同學不及格,教師為了提高教學質量,就要找出這30%不及格同學的內在因素,提高及格率。
3 數據挖掘的流程
3.1 定義目標
為了避免數據挖掘的盲目性,首先就必須清晰地定義出業務問題,確定數據挖掘的目標。挖掘的目標明確了,但結果是不可預測的。
3.2 數據準備
1)數據選擇。在大型數據庫和數據倉庫目標中搜索有關的內、外部數據信息,提取適用于數據挖掘的數據;
2)數據預處理。研究數據信息,進行數據的加工、集成等,去除重復的數據信息,選擇要進行數據挖掘的數據,并定義數據類型;
3)數據轉換。數據轉換決定數據挖掘能否成功,數據轉換就是將數據轉換成一個針對挖掘算法的模型。
3.3 數據挖掘
根據數據功能的類型和數據的特點完善和選擇合適的挖掘算法,對所得到的經過轉換的數據進行數據挖掘。
3.4 結果分析
解釋和評估數據挖掘的結果,最終轉換成用戶能夠理解的知識。
3.5 知識的同化
將分析所得到的知識集成到業務信息系統的組織結構中去。
4 數據挖掘的應用
4.1 數據挖掘技術在市場營銷中的應用
數據挖掘技術普遍應用于市場營銷中,假定“以往消費者的行為是未來消費者的消費理念的直接解釋”,以市場營銷學的市場細化原理為基礎。通過收集、整理消費者以往的消費信息為數據信息,總結消費者的特點及興趣愛好,根據不同的屬性分類,推測出類似消費群體的消費行為,對不同類的消費群體進行定向營銷,這樣降低了營銷的盲目性,節省了營銷成本,提高了營銷效率,為企業創造出更多的利潤。
在經濟發達國家和地區,許多企業都利用數據挖掘技術對數據信息進行加工處理,針對不同的消費群體,發出不同的營銷材料,以突出自己的競爭優勢,擴大產品的營業額。
4.2 數據挖掘技術在商業銀行中的應用
數據挖掘技術廣泛應用于金融界,金融事務搜索大量的數據信息,對這些數據進行加工處理,發現其特征,從而發現不同類別客戶的特點,評估其信譽,推測其需求。商業銀行所作業務的利潤與風險是并存的,為了保證最大利潤和最小風險,必須對客戶的賬戶進行科學精確的分析歸納。
美國銀行使用數據挖掘技術工具,根據不同消費者的特點制定不同的產品,增強其競爭優勢。
4.3 數據挖掘技術在醫學上的應用
數據挖掘技術在醫學上的應用相當廣泛,可以利用數據挖掘技術手段來提高從藥物的生產制造到醫療診斷等的效率和效益。在藥物生產方面,通過對藥物分子結構的分析,可以確定是什么成分對病患的治療發揮了作用,從而推測出該藥對什么病有治療作用;在醫療診斷方面,通過對基因的分析處理,可以確診是什么發生了病變,屬于哪種病毒等。
4.4 數據挖掘技術在欺詐甄別中的應用
銀行或者商業上經常發生欺詐行為,給銀行和商業單位帶來了不可估量的損失。通過數據挖掘可以對這種欺詐行為進行預測,總結各種詐騙的行為特征,提醒廣大人們注意。
5 結論
數據挖掘技術是一個全新的研究領域,每年都有新的數據挖掘方法和模型產生,隨著數據庫等技術的發展,數據挖掘技術的應用領域將會更加廣泛和深入。盡管如此,數據挖掘技仍然存在許多問題需要解決,尤其是超大規模數據挖掘的效率有待提高。
參考文獻
關鍵詞:數據挖掘技術;反洗錢程序;應用
Key words: data mining technology;anti-money laundering procedures;application
中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2010)21-0031-01
1反洗錢基本程序
1.1 定義目前關于洗錢的定義有很多種,國際上并沒有一個統一的定義。但洗錢的本質就是利用資產、資金轉換(轉移)過程中所造成的信息缺失、信息隱蔽、信息不完整、信息不真實、信息復雜而使犯罪所得收益的原始來源和性質無法識別或追溯,從而掩蓋和隱瞞其真實信息。
1.2 基本程序我國的反洗錢基本程序分為采集、監測分析和移交三個步驟:第一步,大額和可疑交易報告的收集。第二步,大額和可疑交易報告的分析和甄別。第三步,可疑交易線索移送。
1.3 反洗錢工作的主要問題①巨量數據報表和高誤報率。②預設標準易于被洗錢分子規避。③無法自動適應洗錢形勢變化。
2數據挖掘技術
2.1 數據挖掘定義數據挖掘(Date Mining),是指從大量的、不完全的、模糊的、隨機數據中揭示出隱含的、先前未知的、并有潛在價值的信息和知識的過程。數據挖掘融合了數據庫、人工智能、機器學習、統計學等多個領域的理論和技術,是幫助發現隱藏在數據中知識和信息的有力工具。
2.2 數據挖掘任務①數據總結。②分類。③關聯分析。④聚類。
2.3 數據挖掘流程引入數據挖掘技術應用于反洗錢系統中,完成從大量數據中自動提取出模型的過程。在建立攻擊檢測系統過程中消除人為因素和特定因素,為其開發一個更加系統化的方法,即開發一套能從各種審計數據中產生攻擊檢測模型的自動工具。我們應用關聯分析和序列模式分析等算法,發現特征之間的關聯和與時序有關的聯系,從而完成對用戶數據的收集與特征選擇過程。
2.4 常用的數據挖掘算法①決策樹。首先,通過一批已知的訓練數據建立一棵決策樹;然后,利用建好的決策樹對數據進行預測。決策樹的建立過程可以看成是數據規則的生成過程,因而可以認為,決策樹實現了數據規則的可視化,其輸出結果也容易理解。在反洗錢領域,決策樹算法可以按照事前已經制定的決策模式對各種報告數據進行分類,最終以一種類似樹狀的決策結構顯示出來,為分析者提供一個推力框架,幫助其摸清整個洗錢活動的過程并了解某一具體的洗錢操作在整個洗錢鏈條中的作用。決策樹方法精確度較高,容易理解,效率也比較高,因而比較常用。②神經網絡。神經網絡系統由一系列類似于人腦神經元的處理單元組成,這些單元被稱為節點。節點通過網絡彼此互連,如果有數據輸入,他們可以進行確定數據模式的工作。神經元網絡可以通過本身所包含的無數個神經元持續不斷地對報告數據進行反復計算,對某項資金流動是否牽涉洗錢活動進行認定,自動發現洗錢線索,并能通過自動學習制定出最為有利的反洗錢整體分析方案,提高數據分析效率。③相關規則。這是一種簡單卻實用的關聯分析規則,它描述了一個事務中某些屬性同時出現的規律和模式,依據一定的可信度、支持度、期望可信度、作用度建立相關規則。④K-nearest鄰居。鄰居就是彼此距離很緊的數據。該方法認為相鄰數據必然有相同的屬性或行為。因此,可以通過K個鄰居的平均數據來預測該特定數據的某個屬性后行為。⑤遺傳算法。在反洗錢領域,遺傳算法可以在發現可疑洗錢活動后沿最優路徑追蹤洗錢的各步操作,幫助分析人員總結大額可疑交易數據中所隱藏的洗錢疑點或疑點組合的發現規律,保證分析時能夠發現某項洗錢活動的最重要線索,方便后期調查工作的順利開展。⑥聯機分析處理。其典型的應用有對銀行信用卡風險的分析與預測、市場營銷策略制定等,主要是進行大量查詢操作。
3數據挖掘技術在反洗錢系統中的應用
3.1 系統的整體設計反洗錢系統本身應用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環境適應性。到目前為止,研究人員已經提出實現了許多方法,但沒有一種模型能夠滿足完全檢測的要求。由于系統的設計和實現都取決于設計人員自身的知識儲備和其對已知反洗錢形式的了解程度,因而系統的效率和環境性都受到了限制。
基于數據挖掘技術的智能反洗錢系統的核心就是從事件序列數據(訓練數據)中挖掘正常和異常行為規則,構建規則庫,在此基礎上,再根據發現的證據進行反洗錢識別。
我們采用數據挖掘方法實現整個過程,并將它劃分為三個過程。
①特征提取。②規則發現,對不同類型的數據,采用不同的數據挖掘算法發現其中的規則。③建立好規則庫后,對每一次發現的證據,就可以根據規則來判斷是否屬于反洗錢行為。
3.2 基于數據挖掘的智能反洗錢模型的設計根據上面介紹的體系結構、數據挖掘方法和智能檢測體系,我們設計了一種基于數據挖掘的智能反洗錢系統。其系統結構包括如下組件:數據處理、審計數據庫、數據挖掘引擎、特征提取器、數據挖掘引擎、規則庫、數據檢測引擎和決策響應中心。
自適應數據挖掘反洗錢系統的工作原理如下:①活動監測Agent采集來自外部網絡環境的各種數據,并把這些數據傳送給協同Agent,協同Agent對從活動監測Agent來的數據進行過濾、格式轉換等預處理,然后將數據存入審計數據庫中;②審計數據庫組件存儲數據,并利用數據庫查詢技術產生訓練數據集,同時特征提取器采用數據挖掘技術對當前用戶行為進行分析,從中提取出當前用戶行為特征;③數據挖掘引擎利用數據挖掘技術對審計數據庫中的數據和提取出的特征進行學習,從中提取出有關行為特征和規則,建立異常模式和正常行為輪廓,從而建立檢測模型,并存入規則庫中;④數據檢測引擎接受來自特征提取器的數據特征和數據挖掘引擎建造的模型與來自規則庫中的正常規則進行分析,將分析結果送給決策中心;⑤決策中心分析判斷結果以決定是否報警或更新規則庫。
來自多個地方的數據,主要通過如下方式進行處理和轉換。
(一)數據挖掘技術的概念
數據挖掘技術是從許多的、不完全的、相對模糊的、存在噪聲的、任意的實際數據當中,找出其中隱藏的、人們原先不了解的、但又是實際存在的、有用的信息和知識的過程[1]。數據挖掘所得信息具有先前未知、有效和實用三個特征。決策者對挖掘所得信息進行分析,從中提取出隱藏的關系和模式,來對未來發生的行為進行預測。
(二)數據挖掘技術的運用
在使用數據挖掘技術的過程中,數學方法經常被用到,但在一些特殊的時候,也會用到非數學的方法。另外,使用數據挖掘技術過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數據。在使用數據挖掘技術過程中,利用對相關數據進行挖掘、收集和分析得出相應的結果,并且這個結果在某些情況下,恰好能被用在管理信息、優化查詢、過程控制、決策支持及數據維護等方面[2]。然而,由于數據挖掘技術特性,其在使用的過程中,涉及學科比較廣,并且還涉及數據庫、數理統計、人工智能、并行計算、機器學習、可視化等許多領域。數據挖掘技術中,常用到的有規則歸納、決策數、人工神經網絡、遺傳算法,以及可視化等技術。
二、數據挖掘技術的形式
數據挖掘分為描述型與預測型兩種形式。描述型是對數據中存在的規則進行描述,并且依據數據具有微觀性的特點找出其表征的、普遍性強的、概念層次較高的、比較宏觀的知識,并對數據進行概括總結和抽象來描述出同一類事物的相同屬性。預測型是分析和處理現有的數據,來獲得某類事物中某些屬性的內容,或者是預測出某類事物將來形成的規律等。在使用這兩種挖掘技術時,經常用到的方法有分類方法、關聯方法和粗糙集方法。
(一)分類
在運用計算機數據挖掘技術的過程中,分類是挖掘技術里的重點部分。數據收集的好壞,以及收集的數據的屬性分析都是由分類決定的。因此,分類在運用挖掘技術的過程中具有非常重要的作用。分類是對數據庫屬性進行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據數據形成的訓練集,來集中對部分數據進行處理劃分。然后,再對余下的部分數據做測試,在測試滿足要求以后,遵守對應的規則對其分類。在實際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標屬性、組成訓練集、研究屬性、算法選取、分類計算、結果顯示、選出測試集、分類規則驗證、輸出分類規則等[2]。
(二)相關規則
相關規則是數據挖掘技術中,比較簡單實用的關聯分析規則。它可以準確地將相關數據進行描述,并且能夠對數據進行嚴格分析。在相關規則使用過程中,主要是對具體事物進行描寫,并按照相同屬性進行結合,然后對其進行總結概括,找出其共同屬性和模式。一般會將關聯規則直接應用到數據庫中,統一地記錄下每個事物得出的數據,不但可以正確地記錄數據,同時消減了數據的搜索空間,使得整個運行系統得到改善和提高。
(三)粗糙集
數據挖掘技術中的粗糙集是被用作對不精確和不確定性知識進行研究的一種數學工具,在系統整個使用中占的優勢比較大[3]。首先,在使用粗糙集方法時,相應的信息不需要了解,并且在運算的時候,算法比較簡單且容易控制,得到大量的計算機用戶的喜愛。其次,在運行粗糙集的過程中,能從數據中發現異常,排除知識發現過程中的噪聲干擾,同時還能將這類數據的規律在最短時間內找出,并利用表格對其進行歸納總結,將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應用有些規則的過程中也會出現不確定性。應用數據庫的時候會產生許多不確定性的信息,而這些不確定性都得依賴粗糙集對其進行處理,這樣就使得數據挖掘的效率得到大大提高。
三、挖掘技術在檔案管理中應用的意義
記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計算機網絡的迅速發展,在管理檔案信息的實際應用中,引入挖掘技術可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數據挖掘技術應用在檔案信息管理中是具有非常重要意義的。
(一)提高檔案信息管理的安全性
檔案信息是記載一些比較寶貴的資料,由此可知其價值的表現就是檔案信息的實體。對檔案管理者來講,保存有歷史意義的檔案信息的時間應越長越好。保存得越長遠,越體現了檔案信息的價值。其使用價值相對應地增大了,被使用的頻率也相應地增加,使保管工作非常困難,使用次數越頻繁,就越容易縮短檔案信息的壽命。同時,保密性是檔案信息管理的另一項重要工作,萬一檔案信息外漏,不僅相關人員的隱私權受到侵犯,還有可能對其以后生活造成消極負面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數據挖掘技術運用到檔案管理中,可以很好地避免這種情況的發生,從而保護檔案信息實體和內容的安全。
(二)加快檔案管理的效率,降低檔案管理的成本
檔案管理工作中引用數據挖掘技術,能夠有效改變以往傳統的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數據挖掘技術,工作人員的管理時間被大量節省,處理檔案信息的速度得到提高。同時,還可以加快檔案鑒定工作的發展。檔案管理工作中的一個重要環節就是檔案的鑒定,傳統的檔案鑒定工作是由檔案管理人員憑借多年經驗來實現的,具有主觀性。數據挖掘技術的運用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據可依。
四、數據挖掘技術在檔案信息管理系統中的運用
隨著計算機信息化的迅猛發展,檔案管理工作也需要進一步的完善。過去的檔案管理方式已經不能適應當代社會的需要,很多數據信息無法有效地使用。要想有效地利用現有的檔案數據,使其價值得到充分發揮,使用數據挖掘技術把那些隱含的信息挖掘出來,對其總結和使用是非常有必要的。檔案信息管理中使用數據挖掘技術,能讓挖掘出的知識信息得到發揮,并且能使檔案數據信息價值被充分地利用。檔案管理中應用數據挖掘技術的方法有以下幾種:
(一)檔案分類法
檔案分類法是按照不同的種類把許多檔案進行整理的方法。把檔案中屬性相似的放在同一個類別中,把那些檔案屬性不同的放在不同的類別當中。在檔案進行分類的過程中,數據挖掘技術能夠詳細地劃分這些檔案的類別,幫助管理員進行檔案歸類,檔案的檢索效率和速度得到有效提高。
(二)檔案收集法
檔案收集法是先分析數據庫中的數據,并通過對這些數據做詳細的描述建立模型。然后用這些模型和所有的測試樣本進行對比,一旦經測試后有一個模型與樣本相符合,就可以依據這個模型對管理對象進行分類。
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2013) 24-0000-01
隨著通信市場競爭日趨激烈,電信客戶的通信需求和消費理念都發生了顯著的變化。為滿足客戶的應用需求、提升市場競爭力,就必須將當代通信服務由以產品為導向以客戶需求為導向轉變,通過建立客戶數據庫,對客戶的類別屬性、消費類型以及消費傾向等進行分析。數據挖掘技術是一種大數據環境下的數據分析方法,其可以在海量數據中建立一種內在的聯系,基于該聯系對客戶進行細分,協助企業制定更具價值的認知體系和決策規則。
一、電信客戶細分特點
客戶細分包括客戶描述與劃分兩部分內容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應用該描述內容對客戶行為模式進行預測和評估。后者主要是對經過特征化后的客戶進行類別劃分,使具有共同類別與特點的用戶歸入同一類別,以便于增強服務和營銷的針對性與有效性。對客戶進行細分可以調整資源分配結構,滿足商業目的,對不同類型的客戶指定不同的營銷策略。
電信市場是典型的以客戶為中心的消費市場,對該市場客戶進行細分可以提升企業爭取新客戶、保留老客戶、維護現有客戶價值、拓展企業市場份額與經濟效益的目的。
總結來看,電信客戶細分中需要從以下幾方面特征出發:一是電信客戶消費具有持續性,為維系客戶關系,就需要以該特征為著力點;二是電信客戶消費層次和類別更為明顯,如電信企業的客戶分為具有較強穩定消費能力的集團用戶和消費能力差別較大的個人用戶;三是客戶自身特點占據的權重較大,如客戶的消費習慣、個人價值、品牌忠誠度、人際關系等。
二、數據挖掘技術及其在電信客戶細分中的應用特點
數據挖掘技術本質是借助大量的知識體系和數據分析技術對海量、無序的數據信息進行整合與關聯建立,從中提取可有效反映數據內部規律和模式,并依照所總結出來的規律與模式對未來的發展情況進行預測與評估,幫助決策者制定更有效的執行策略。
傳統的電信客戶細分方法主要使用資料調查或客戶價值分析等兩種,前者具有較少的細分維度,調查結果更易理解和應用,但是受調查樣本數量的限制,其結果的可靠性和有效性有待進一步確認;后者操作簡單,對于高價值電信客戶細分具有良好的應用效果,但是在體現不同客戶、不同業務、不同消費結構差異性等方面存在一定的缺陷。
在電信客戶細分中應用數據挖掘技術可以有效利用企業發展過程中產生的大量數據進行多維度、多層面、多角度的客戶細分,并為細分結果提供高可靠性的理論支持。特別是數據挖掘技術中的聚類分析方法可以將客戶群按照電信企業最為關注的消費行為和消費價值進行細分,體現出不同客戶屬性之間的差異性,協助制定更加完備的營銷策略?;跀祿诰虻碾娦趴蛻艏毞挚梢苑譃閼鹇约毞趾筒呗约毞謨深悺G罢咧饕菍蛻籼卣鬟M行分析與研究,從中查找適當的營銷機會;后者主要是對營銷活動進行分析與研究,為其選取最佳的目標人群。
三、基于數據挖掘的客戶細分模型分析
(一)細分模型設計
細分模型應該包括三部分內容,即客戶部分、市場部分、營銷部分。
客戶部分可進一步細化為客戶分類和客戶分析兩類。客戶細分中應該從客戶消費習慣、消費種類、消費頻度、消費結構、消費模式等建立模型,以便于電信企業依照這些特征對已有客戶的收益率、新客戶的定位、現存客戶與流失客戶特征等進行定義??蛻舴治瞿P蛣t需要包括客戶的行為、關系、價值屬性、利潤率、忠誠度以及業務量等內容,通過這些內容,電信企業可以對現有的營銷進行效果分析。
市場部分主要體現為市場預測與市場總結等內容。建立可靠、客觀的市場模型可以幫助企業制定更精準、分類更清晰、目標性更強的市場策略,并依照所架構的市場模型對用戶行為進行解釋,對未來用戶的行為趨向進行預測。
營銷部分可進一步細化為輔助營銷、定向服務以及價格定位三部分。輔助營銷模型可以針對特定的客戶群使用特定的手段進行分析與研究,進而開拓更具針對性的銷售渠道和宣傳策略,充分滿足客戶的消費需求,在維持現有客戶關系的基礎上提升客戶價值,拓展客戶量。定向服務則是充分聽取客戶的消費需求,制定差異化服務策略,提供全方位、高質量定制服務。價格定位則是對客戶的價格敏感度建立模型并深入分析。
(二)電信客戶細分中的數據挖掘技術
目前,電信客戶細分中所使用的數據挖掘技術主要分為分類、聚類以及統計分析三類。
分類可以依照預先制定的規則制定清晰的分類標準,并依照該標準對客戶進行歸類,生成預測模型。分類可以有效反映同類客戶中的同屬性知識特征和不同客戶中的差異性知識特征,其具有非常強的預測性、指導性和方向性。常用的分類數據挖掘算法有神經網絡法、決策樹法、貝葉斯法以及示例學習法等。
聚類則是在海量的數據中對客戶屬性進行歸納與總結,將分析對象依照共同的特征分為多個簇,然后再在簇中進行特征提取,生成聚類標準,依照該標準對不同用戶進行分類、對不同簇進行更新。該技術無需指導和事先規則的制定。常用的聚類數據挖掘算法有神經網絡法、模糊聚類法、統計聚類法等。
統計分析則是直接對客戶進行分群或輔助其他數據挖掘技術共同實現電信客戶細分。其以一定的方法從數據庫中提取樣本,并對這些樣本進行行為、地域、年齡、需求等進行差異性分析,輔助其他數據分析與處理技術即可實現客戶的細分。常用的統計分析方法有交叉分析、相關分析、顯著性分析、因子分析等。
參考文獻:
[1]蔡寧.基于數據挖掘的電信客戶細分研究[D].江西理工大學,2008.
二、旅游業數據挖掘算法選擇
數據挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規則的算法等等。其中,決策樹是目前主流的分類技術,己經成功的應用于更多行業的數據分析。在關聯規則挖掘研究中,最重要的是Apriori算法,這個算法后來成為絕大多數關聯規則分類的基礎。聚類算法也是數據挖掘技術中極為重要的組成部分。與分類技術不同的是,聚類不要求對數據進行事先標定,就數據挖掘功能而言,聚類能夠可以針對數據的相異度來分析評估數據,可以作為其他對發現的簇運行的數據挖掘算法的預處理步驟。各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結構簡單,便于理解,且很擅長處理非數值型數據,建模效率高,分類速度快,特別適合大規模的數據處理的優點,結合旅游產業數據特點,故作重點分析。
三、旅游業數據挖掘系統需求分析
旅游業數據挖掘系統的基本特點如下:統計旅游興趣;購物消費趨向;推薦其感興趣的旅游景點;在后臺管理中,通過決策樹算法對游客數量、平均年齡、景點收費、游客來自地區等進行分析總結,為旅游消費者和旅游管理者提供服務:為消費者提供吃住行購娛樂天氣各方面信息查詢、機票、車船票、酒店、景區門票、餐飲等方面的預定與現金支付、第三方支付、消費者評價、在線咨詢等方面的便利、快捷服務。為管理者提供推薦、游客管理、線路管理、景點管理、特色服務管理、機票管理、在線咨詢管理、旅游客戶關系管理等服務,提高整體服務效率和水平。
四、旅游業數據挖掘系統的實現
旅游業信息管理系統包括游客信息管理與游客信息分析兩個子模塊。根據系統日常運行出現的問題及時對系統進行維護,如添加或者刪除某個模塊功能,系統整體運行速度的更近等。系統運用數據庫層、持久化層、業務邏輯層、表示層四層體系結構,主要利用ID3算法達到旅游數據信息的快速、準確分類??紤]了游客與酒店之間的關系、游客與旅游路線之間的關系、游客與旅游景點之間的關系、游客與機票、車票之間的關系、管理員與游客之間的關系、邏輯結構設計。程序之間的獨立性增加,易于擴展,規范化得到保證的同時提高了系統的安全性。詳細功能設計包括:用戶登錄、用戶查詢、預定及支付、后臺管理、旅游客戶管理和數據分析等方面。本系統中主要運用Java語言就行邏輯上的處理。系統主要使用Struts2和Hibernate這兩個框架來進行整個系統的搭建。其中Struts2主要處理業務邏輯,而Hibernate主要是處理數據存儲、查詢等操作。系統采用Tomcat服務器。系統模塊需要實現酒店推薦實現、景點推薦實現、天氣預報實現、旅游線路實現、特產推薦、數據分析展現功能、報表數據獲取、景區客流量變化分析實現等。需要進行后臺信息管理等功能測試以及時間測試、數據測試等性能測試。