時間:2023-01-26 06:59:49
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據挖掘技術應用范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
中圖分類號:TP393 文獻標識碼:A
一、數據挖掘在市場營銷的應用
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功預測銀行客戶需求。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶了解。如果數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數據庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產品感興趣。如考慮屬性之間的類別層次關系,時態關系,多表挖掘等。近年來圍繞關聯規則的研究主要集中于兩個方面,即擴展經典關聯規則能夠解決問題的范圍,改善經典關聯規則挖掘算法效率和規則興趣性。
二、入侵檢測中數據挖掘技術的引入
入侵檢測技術是對(網絡)系統的運行狀態進行監視,發現各種攻擊企圖、攻擊行為或者攻擊結果,以保證系統資源的機密性、完整性與可用性。
根據數據分析方法(也就是檢測方法)的不同,我們可以將入侵檢測系統分為兩類:(1)誤用檢測(Misuse? Detection)。又稱為基于特征的檢測,它是根據已知的攻擊行為建立一個特征庫,然后去匹配已發生的動作,如果一致則表明它是一個入侵行為。(2)異常檢測(Anomaly Detection)。又稱為基于行為的檢測,它是建立一個正常的特征庫,根據使用者的行為或資源使用狀況來判斷是否入侵。
將這兩種分析方法結合起來,可以獲得更好的性能。異常檢測可以使系統檢測新的、未知的攻擊或其他情況;誤用檢測通過防止耐心的攻擊者逐步改變行為模式使得異常檢測器將攻擊行為認為是合法的,從而保護異常檢測的完整性。
三、算法在入侵檢測中的具體使用
(一)基于誤用的檢測型。
首先從網絡或是主機上獲取原始二進制的數據文件,再把這些數據進行處理,轉換成ASCII碼表示的數據分組形式。再經過預處理模塊將這些網絡數據表示成連接記錄的形式,每個連接記錄都是由選定的特征屬性表示的。再進行完上面的工作后,對上述的由特征屬性組成的模式記錄進行處理,總結出其中的統計特征,包括在一時間段內與目標主機相同的連接記錄的次數、發生SYN錯誤的連接百分比、目標端口相同的連接所占的百分比等等一系列的統計特征。最后,就可以進行下面的檢測分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個實用性較強、效果更好的分類模型。
(二)基于異常的入侵模型。
異常檢測的主要工作就是通過構造正常活動集合,然后利用得到的一組觀察數值的偏離程度來判斷用戶行為的變化,以此來覺得是否屬于入侵的一種檢測技術。異常檢測的優點在于它具有檢測未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測模型依然可以通過檢測它與已知模式集合之間的差異來判斷用戶的行為是否異常。
在異常檢測中主要用到的兩個算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過關聯規則和序列規則建立正常的行為模式,然后通過模式比較算法來區別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數目應遠大于入侵行為數目的條件,因此能夠將數據集劃分為不同的類別,由此分辨出正常和異常行為來檢測入侵。數據挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測是一種無監督的異常檢測算法,通過對未標識數據進行訓練來檢測入侵。該方法不需要手工或其他的分類,也不需要進行訓練。因此呢功能發現新型的和未知的入侵類型。
四、結論
入侵檢測中數據挖掘技術方面的研究已經有很多,發表的論文也已經有好多,但是應用難點在于如何根據具體應用的要求,從用于安全的先驗知識出發,提取出可以有效反映系統特性的屬性,并應用合適的算法進行數據挖掘。另一技術難點在于如何將數據挖掘結果自動應用到實際IDS中。
入侵檢測采用的技術有多種類型,其中基于數據挖掘技術的入侵檢測技術成為當前入侵檢測技術發展的一個熱點,但數據挖掘還處于發展時期,因此有必要對它進行更深入的研究。
(作者單位:湖北工業大學 計算機學院)
參考文獻:
1 數據挖掘技術的方法
數據挖掘技術的方法主要分為統計、聚類和遺傳分析[1]。統計方法可以滿足數據庫處理分析,包括:有線、非線、回歸等多項統計方法;聚類方法應用于數據挖掘的內部處理,梳理內部數據的關系,基于聚類方法的存在,數據挖掘技術可以滿足經濟、模擬等多項數據領域的需求;遺傳分析是數據挖掘方法的重點,以生物進化為導向,將重組、變異導入到數據庫內,推進數據的后續發展,將后續模擬的數據,應用在現代數據庫的某個部分,發揮同樣作用,遺傳算法高度模擬生物進化的方式,結合繁殖、基因、突變、重組的概念,引入新數據,促使數據庫中新個體的形成,所以數據挖掘中的遺傳算法,既可以作為數據分析的方法,也可以體現預算和評估的特點。
2 數據挖掘的技術支持
2.1 神經網絡技術
神經網絡主要以數學模型為主,重點針對復雜數據,快速完成數據抽取。神經網絡技術處理的能力,可以超出計算機的分析水平,保障輸入神經網絡中的數據屬于數值型,即可快速導出趨勢性變化的數據。神經網絡技術通過模擬大腦的神經元結構,利用MP,實現非線性規劃,根據數據信息的特性,決定信息的存儲位置,實現自主處理。神經網絡技術在數據挖掘中,不僅可以實現數據的快速分類,還可以對數據進行模擬預測,促使數據挖掘處于優化的狀態,完成難度聚類。神經網絡技術的代表為RBF和BP。
2.2 決策樹技術
此技術以模擬離散函數為主,借助樹木模型,對實際案例進行綜合分類處理。決策樹的葉子,代表不同結點,而結點則是組成實例不同屬性的測試,未來枝葉的分支,表示可能覆蓋的屬性預測[2]。決策樹在根部向枝葉推進的過程中,蘊含豐富的數據挖掘,目的是得出有價值的屬性信息,所以決策樹理論支持數據挖掘的分析和分類,對相同屬性的數據進行歸類存儲,進而挖掘數據分類中遵循的規則。
3 數據挖掘技術的應用領域
3.1 通信服務行業
在數據挖掘技術的帶動和參與下,通信服務行業逐漸趨向于“三網融合”,即:電信、互聯和電視,勢必涉及諸多數據運營,數據挖掘技術可以針對三網狀態,實行模式分析,挖掘商業潛能。例如:數據挖掘技術可以對通信數據進行分析,得出通信系統實時運行的參數和狀態,以聚類的方式,歸類系統數據,還可直接分析用戶的實際行為,拓寬業務途徑,同時發現發展機遇,提升通信服務行業的社會效益。
3.2 高校管理系統
數據挖掘技術在高校中的應用較為明顯,例如:學生信息管理系統、教務評價系統、成績查詢系統、選課系統等,都可體現數據挖掘技術的優點。高校學生數量較多,通過數據挖掘技術,可以為學生提供一體化服務,學生在入學之際,即可將信息錄入在管理系統內,整個在校期間,都可通過管理系統,查詢個人信息,管理者也可以根據管理系統,快速調取學生信息,如:圖書借閱、飯卡充值等,隨時關注學生的信息動態[3]。高校在數據管理方面,已經實現多系統的融合發展,在數據挖掘技術的支持下,將不同功能的數據系統,兼容于統一系統,不論是學生,還是教務人員,利用獨立賬號、密碼,都可實現個人信息管理或查詢,對數據挖掘技術提供更高的發展要求。
3.3 醫學領域
醫學領域不僅涉及大量的信息數據,而且數據的編排、匯總非常復雜,大量數據同時出現的過程中,幾乎不會出現相同數據,因此,醫學領域的數據管理,具備一定難度。數據挖掘技術成功應用于醫院數據管理中,特別是在病歷管理、醫藥信息管理方面,例如:數據挖掘技術可以整合醫藥信息,將醫藥信息存儲于數據庫系統內,醫務人員可以通過檢索的方式,在管理系統內,迅速獲得所需信息,避免信息篩選錯誤,提高信息識別的能力。由此,醫務人員在信息管理和校對方面,提高操作效率,確保數據挖掘的質量。
3.4 金融行業
金融行業中的數據分類比較明確,如:信貸數據、儲蓄數據等,需對數據采取合理的分配和管理。數據挖掘技術在金融行業中,為數據管理提供可靠的空間,成為管理金融數據的最佳方式[4]。數據挖掘技術具備獨立分析的能力,可以在數據庫中,設置多維參考點,對不同類型的數據實行嚴格區分,根據數據的異同性質,實行準確處理,發揮數據挖掘的優勢,維持金融數據的運行。數據挖掘技術還可以根據金融數據的動態變化,有效發現影響金融活動的不良因素,防止金融行業出現數據漏洞,造成管理弊端。
綜上所述,隨著數據挖掘技術的發展,其在行業領域中的應用越來越廣泛,為數據運行提供強大的技術支持。數據挖掘技術可以迅速獲取有效信息,體現準確識別的能力,改善數據運行,因此,數據挖掘技術成為行業發展與進步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價值,同時提高行業信息技術水平。
[參考文獻]
[1]羅斌.數據挖掘研究進展[J].中國水運,2012(07):90-92.
中圖分類號:TP311.13
1 數據挖掘技術
1.1 數據挖掘概念
所謂數據挖掘,簡單理解就是從海量數據中挖掘出對用戶有利用價值的信息,并根據分析結果判斷數據與數據之間的關系。人們利用數據技術的主要目的就在于從混亂的數據信息中分析出能夠對未來經營策略有用的信息,進而能夠更好更高效的經營企業,獲得更多經營利潤。
1.2 數據挖掘技術分類
關于數據挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時態數據庫、異質數據庫、文本數據源、關系數據庫面向對象數據庫(Object-Oriented Database)、空間數據庫、遺產數據庫、多媒體數據庫以及web等比較具有針對性的挖掘對象。針對數據挖掘的方法大致的可以歸納為:計算機學習法、數理統計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經網絡 Neural Network探索性分析法、不確定性推理和近似推理法、數據分析法、證據理論和元模式法、數據集成方法、當代數學分析法等。
1.3 數據挖掘應用分析
隨著當前計算機技術和信息技術的飛速發展,數據分析已經成為當前各行各業的重要研究內容,數據挖掘技術可以說是時展的產物。傳統意義上的數據收集已經很難以應付當前數據信息瞬息萬變的局面,企業需要發展就需要高價值率的數據庫作保證。企業在市場競爭中,只有掌握了最為準確的市場分析數據,才能夠更好的去確定未來的發展方向,才能夠更好的提高資金利用率。高層次數據分析是很多企業所面臨的重點問題,不管是行政決策還是市場預判,均需要這類數據來提供可靠參考。所以,研究數據挖掘技術與關聯規則挖掘算法具有非常重要的現實意義。
2 時態約束關聯規則挖掘問題及算法
2.1 聚焦挖掘任務,提高挖掘效率
早期的數據挖掘理論主要研究方向是模型建立及挖掘算法設計,不同企業所收集數據類型不同,所以在實際使用過程中模型及算法的確定也不同。傳統數據挖掘過程,首先需要做的是對提供的數據庫進行全面分析,然后再結合用戶需求進行更為深入細致的研究,制定出最佳數據挖掘模型,如果最終所得到的分析結果并未達到用戶滿意,則重新分析研究制定模型進行二次數據挖掘。算法也是影響數據挖掘結果的關鍵,不同算法在不同模型下所得到的結果也不同,因此制定數據挖掘模型及算法是用戶是否能夠得到預期結果的重要參數。
2.2 保證挖掘的精確性
雖然數據挖掘的目的是為了能夠幫助用戶獲得更多有價值的參考結論,但其結果具有不可預測性的特點。數據挖掘過程中算法的運用還會設計很多問題,這些問題的出現肯定會對最終的結果可靠性造成一定影響,因此必須要在算法中加入反饋機制,以便于在計算過程中對結果進行測試和修正。
3 數據分割下的挖掘問題及算法
對于理論基礎比較成熟的算法――Apriori算法,研究的側重點已經變為效率問題,人們也提出了各種的改進算法,本文選區幾種比較有代表性的加以介紹。
3.1 減少事務的個數
如果在事務處理過程中去除長度小于k的項目集,那么在后期計算過程中肯定不會再出現長度為k+1的項目集。因此,在數據挖掘過程中我們可以通過算法直接將無用事務濾除,以便于在下輪掃描過程中簡化操作過程,提高數據挖掘效率。
3.2 基于劃分的方法
這類算法的比較典型的是頻繁項目生成算法,該算法原理在于:把數據庫分解成邏輯上互不交叉的部分,而每次只需要單獨考慮一個分塊,在這樣的分塊中,研究怎樣能夠發掘頻繁項目集;而對于怎樣將數據進入存儲中,可以把需要處理的分塊放入計算機內存中,這樣有利于算法的并行處理,數據量相對于不分塊前減少,提高了數據挖掘的速度。
3.3 基于采樣的方法
數據庫抽樣計算的目的是獲得更直接的規則,進而能夠方便于后期的數據挖掘過程,通過抽樣檢驗我們可以更為直觀的判斷關聯規則是否有效,是否能夠更加簡便的獲得用戶所需目標?;诓蓸拥臄祿诰蛩惴ㄔ趯崿F方法上要容易一些,而且還可以最大限度的降低數據挖掘過程所需要提供的I/O成本。但同時這種算法也會使得抽樣數據隨機性大大增加,進而使得數據挖掘過程中出現的問題增多,給數據挖掘帶來額外負擔?;诮y計學理論的抽樣算法,雖然在計算精度上無法與其他算法相媲美,但如果我們結合相關數據挖掘理論進行更為深入的分析研究,還是能夠在精度上進行一定的彌補。
4 交互式的可視化方法
關聯規則可視化研究是當前關聯規則挖掘在數據挖掘技術走向實用化的重要內容之一,通過直觀的、易懂的方式展現給用戶是關聯規則挖掘是否能夠高效應用的關鍵。當前社會上可視化方法中使用最為廣泛的是有向圖、2D矩陣、3D顯示等幾種,這些方法中已經在實際生活中得到了廣泛認可。但它們均有一個共同的特點就是將數據挖掘所得到的所有結果一次性通過不同顏色或者不同形狀展現在表或者圖中,這種頁面顯示必然會存在一定的混亂性,以致于其顯示效果大打折扣。正是在這種前提下,交互式可視化方法受到了研究人員的關注。交互式可視化方法顯示方式為:
第一,從宏觀上來把握項與項之間存在的關系,通過不同圖形或者顏色來達到視覺突出的效果,進而能夠讓用戶更加直觀的看到數據挖掘結果。關聯規則挖掘所得到的結果中不同項與項之間是使用線條連接起來的,在這種情況下,用戶可以通過了解某一個項其內部的關聯信息,進而解決由于線條過多而造成的頁面混亂情況。
第二,從微觀上更加精確的把握每一個關聯規則的支持度和信任度,通過數字化的形式來給出挖掘結果的表示比,進而幫助用戶更直觀更準確的獲得數據挖掘結果。
第三,從分類顯示的角度出發,將數據挖掘所得出的沒有使用價值的規則剔除,通過不同圖形或者顏色來增加視覺效果,這樣從根本上提高了數據挖掘可視化目的。
5 結束語
數據挖掘技術與關聯規則挖掘算法所包含的內容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續致力于該領域的研究工作,以期能夠獲得更多有價值的研究成果。
參考文獻:
[1]孟海東,李丹丹,吳鵬飛.基于數據場的量化關聯規則挖掘方法設計[J].計算機與現代化,2013(01):8-11.
[2]陸新慧,吳陳,楊習貝.空間關聯規則挖掘技術的研究及應用[J].計算機技術與發展,2013(05):26-29+33.
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00
1數據挖掘與數據挖掘技術的方法分析
“數據海量、信息缺乏”是相當多企業在數據大集中之后面臨的尷尬問題,由此而誕生的數據挖掘技術其實就是用以處理這一尷尬問題的技術。數據挖掘實際上是相對比較新型的一門學科,在幾十年的發展過程中,已經不可同日而語。其實數據挖掘技術的本質就是人工智能技術,而數據挖掘技術的利用相對應的就是指人工智能技術的開發與應用,也就是說數據挖掘其實是依賴技術的提升來實現數據的整體創新的技術,所以,整個數據挖掘技術實際上是非常具有信息價值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準確率,是非常重要的知識憑證,能夠在一定程度上提高當下企業的整體競爭力。
數據挖掘技術的核心就是分析,通過分析方法的不同來解決不同類別的問題,以實現數據挖掘的潛在內容。簡單來說就是對癥下藥以保證藥到病除。
1.1聚類分析法
簡單來說聚類分析就是通過將數據對象進行聚類分組,然后形成板塊,將毫無邏輯的數據變成了有聯系性的分組數據,然后從其中獲取具有一定價值的數據內容進行進一步的利用。由于這種分析方法不能夠較好的就數據類別、屬性進行分類,所以聚類分析法一般都運用在心理學、統計學、數據識別等方面。
1.2人工神經網絡
人工神經網絡是通過大批量的數據進行分析,而這種數據分析方式本身是建立在一定的數據模型基礎上的,因此通常都可以隨時根據數據需求進行分類,所以人工神經網絡也是當下數據挖掘技術中最常用的一種數據分析方式之一。
1.3關聯性分析法
有時數據本身存在一定的隱蔽性使得很難通過普通的數據分析法進行數據挖掘和利用,這就需要通過關聯性分析法完成對于數據信息的關聯性識別,來幫助人力完成對于數據分辨的任務,這種數據分析方法通常是帶著某種目的性進行的,因此比較適用于對數據精準度相對較高的信息管理工作。
1.4特征性數據分析法
網絡數據隨著信息時代的到來變成了數據爆炸式,其數據資源十分廣泛并且得到了一定的普及,如何就網絡爆炸式數據進行關于特性的分類就成為了當下數據整理分類的主要內容。在上文中提到的人工神經網絡數據分析也屬于這其中的一種,此外還有很多方法都是通過計算機來進行虛擬數據的分類,尋找數據之間存在的普遍規律性完成數據的特性分析從而進行進一步分類。
2大數據時代下數據挖掘技術的具體應用
數據挖掘技術的具體流程就是先通過對于海量數據的保存,然后就已有數據中進行分析、整理、選擇、轉換等,數據的準備工作是數據挖掘技術的前提,也是決定數據挖掘技術效率及質量的主要因素。在完成數據準備工作后進一步對數據進行挖掘,然后對數據進行評估,最后實現運用。因此,數據挖掘能夠運用到很多方面。
2.1市場營銷領域
市場營銷其實就是數據挖掘技術最早運用的領域,通常根據客戶的具體需求,進行客戶分析,將不同的消費習慣和消費特點的客戶進行簡單的分類管理,以此來保證商品能夠順利銷售,并提高個人銷售的成功率和業績。而銷售的范圍也從最初的超市購物擴展到了包括保險、銀行、電信等各個方面。
2.2科學研究領域
科學研究與實驗測試等都需要對數據進行關系分析為進一步的實驗和總結失敗做準備,而實驗測試和科學研究產生的數據往往是巨大的,因此數據挖掘技術在科學研究領域也得以廣泛運用。通常都是通過科學研究內容選擇數據挖掘技術分析法進行計算來找到數據中存在的規律,實現數據挖掘的部分價值――科學知識的分析與運用。
2.3電信業領域
隨著信息化時代的到來,電信產業也飛速發展起來,到目前為止,電信產業已經形成了一個巨大的網絡信息載體,如何將其中信息數據進行整合就成為電信產業發展過程中的重要問題。而數據挖掘技術的運用則在一定程度上解決了這一問題,大量的數據通過數據挖掘技術得到了有效分類,并在這個過程中通過運算得出數據之間的關聯性,運用規律進一步進行數據分類。
2.4教育教學領域
教學評價、教學資源、學生個人基本信息等組成了教育教學領域的數據庫,利用數據挖掘技術來實現教學資源的優化配置,對學生的個人信息整理歸檔,從而保證教育教學領域中數據整理的良好運作。
3結語
綜上所述,數據挖掘技術對于當今社會的發展有著不可替代的作用,而如何改善當下數據挖掘技術中存在的問題,進一步提高數據挖掘技術的質量和效率就成為了數據挖掘技術進步的方向。本文通過對于數據挖掘與數據挖掘技術的方法分析和大數據時代下數據挖掘技術的具體應用兩個方面對于數據挖掘技術進行了簡要的闡述和分析,相信在未來伴隨著科學技術的進一步發展,數據挖掘技術也將更加強大。
參考文獻
在生物信息學的成果的理論基礎之上,通過統計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析,再推斷包含這些基因的染色體區域片段,然后檢查該區域來尋找基因[1]。
數據挖掘在DNA數據分析的發展狀況
現今所采用的是分子生物學與微電子技術相結合的核酸分析檢測技術[2]。DNA芯片技術的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數據挖掘常用的方法:①核酸與蛋白質比較的預測分析:蛋白質序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區域和保守性位點,尋找二者可能的分子進化關系。進一步的比對是將多個蛋白質或核酸同時進行比較,尋找這些有進化關系的序列之間共同的保守區域、位點和profile,從而探索導致它們產生共同功能的序列模式。此外,還可以把蛋白質序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質序列與具有三維結構信息的蛋白質相比,從而獲得蛋白質折疊類型的信息。②針對核酸序列的預測方法:針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據的支持。一般而言,在重復片段頻繁出現的區域里,基因編碼區和調控區不太可能出現;如果某段DN段的假想產物與某個已知的蛋白質或其他基因的產物具有較高序列相似性的話,那么這個DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現統計上的規律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質編碼區的有力證據;其他的證據包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內的某個位置存在或發生改變而引起的,也就是發生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正?;??這都需要數據挖掘技術的支持。對基因的數據挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關系。
方法的選擇:筆者在設計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創建一級數據庫,使用文件修整的方法進行數據的清洗,以滿足數據在二級數據庫中的一致性。同時在文件比較過程中,生成某兩個數據文件的差異狀況,保存在二級數據庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認為這個位置的某個類型引起疾病的發生。從醫學院得到一些基因片段文件信息和患者(所有者)患病情況。
系統的實現:基因片段在計算機中以文件形式存儲,用文件名標識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數據庫中。在程序測試過程中,將片段復制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創造測試環境。顯示在與基因數據挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統計程序界面,單擊清空數據庫中的臨時用表數據,將數據庫中有可能的雜音信息去掉。并對其中的所有文件進行統計前片段剪切,使所有片段的起始地址和長度都相同,避免發生序列移位。
沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統計文件的所有信息都被統計。
單擊結果顯示按鈕,可以見到程序以表格和條形圖標方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關聯的可能性就越大。
如果用戶想要在初步統計結果的基礎上,按照數據庫中所有者的疾病狀況進行詳細統計的話,單擊菜單欄的詳細統計按鈕,選擇按疾病詳細統計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關聯的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據本系統所給出的預測對弱視遺傳疾病與序列中的特定位置,選擇適當算法進行進一步的計算及檢驗,證明預測結果是否符合關聯理論。數據挖掘方法體系中的智能聚類的相關技術則可較好的解決類別數判定、結果驗證等問題。
結 論
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,需要一些新的和好的算法;但技術和軟件還遠沒有達到成熟的地步,因此需要不斷探索及研究。
參考文獻
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識飛速更新的今天,圖書館只有正確合理地進行圖書采購,才能夠更好地實現其“在最恰當的時機,將最合適的圖書,提供給最需要的讀者”的目標。采用目前流行的數據挖掘技術,可以很好地對圖書館讀者實際借閱情況進行分析,從而得出能夠正確指導圖書采購策略制定的信息,以保證圖書館能夠更好地為讀者服務。
1 數據挖掘簡介
數據挖掘是一門涉及人工智能、數理統計、數據庫、可視化、并行計算等多領域的交叉性新興學科。數據挖掘就是將隱藏在大量數據信息中的那些對用戶有用的信息提取出來的過程,這些信息通常會以:規則、概念、規律以及模式等形式展現出來,而提取的過程往往要采用一些特殊手段的非平凡過程,即數據挖掘技術。提取出來的信息可以幫助決策者分析歷史的和當前的數據,發現隱藏在其中的聯系和規律,從而對未來可能發生的情況進行合理地判斷和預測[1]。
2 基于數據挖掘的圖書采購策略
描述式數據挖掘和預測式數據挖掘是數據挖掘技術的兩種形式。描述式數據挖掘又稱概念描述,是數據挖掘的最基本形式,以簡明扼要的形式來描述給定的數據集,體現了數據的特征。我們使用特征化描述方式的數據挖掘方法,根據讀者借書的歷史記錄,發現并描述讀者的真正需求。實現特征化描述主要有準備數據、相關分析、歸納特征屬性、表示和使用挖掘結果幾個基本階段[2]。
圖1 流程圖
2.1 準備數據
獲得有關數據、對數據進行初步處理和準備。具體步驟如下:
(1)獲取主要字段:讀者類型、專業、書名、主題、編著者、出版社、出版時間、價格、索書號、條碼等。
(2)整合數據歸納成庫,保證相同字段的數據在類型格式上一致。
(3)拆分“主題”字段,限制1本書最多包含3個主題詞,即3個主題字段,其他忽略。
(4)拆分合并后的數據庫,按學科不同分成各學科的子庫(這在數據挖掘過程中稱為數據分組),對各個子庫分別進行處理。
2.2 相關分析
對待挖掘數據庫中的字段進行分析,剔除掉那些相關性不足的字段。具體步驟如下:
(1)選用恰當的方法對屬性字段進行分析;
(2)將待挖掘數據庫中的相關性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據實際情況,只進行單因素分析,即只計算比較單一屬性值域讀者需求的關聯程度。
2.4 表示和使用結果
使用條形圖、曲線圖以及餅分圖等圖表形式將分析結果表現出來。用圖書借閱次數來表示圖書的人氣系數,人氣系數越高表明該類型的圖書越受讀者歡迎,計算公式為:
式中P為任一主題總的人氣系數,m為主題在挖掘數據庫中出現的次數,rj為主題的權系數,rj∈{3,2,1},Ki為借閱頻率系數[3]。
3 數據挖掘在圖書采購中的應用
這里筆者以所在學院的圖書館為研究對象進行研究。
3.1 統計數據
為了能夠較真實地反應學院師生對圖書借閱的情況,筆者設計了一份調查問卷,對學院電氣系和汽車系的圖書借閱者進行訪問。該調查問卷包括單選題和多選題,內容涵蓋了職業、系別、圖書種類等(見表1)。
表1 借閱者借閱圖書類別調查問卷
3.2 定義變量
對數據的定義筆者采用多項選擇的二分法(Multiple dichotomy method),即將所有因素都設成一個變量,每個變量只有“1”和“0”兩個水平值,代表“是”和“否”。例如用1來代表教師,0代表學生;專業方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經常借閱”,0表示“不經常借閱”。
3.3 分析數據
在這里選用SPSS統計分析軟件對數據進行分析。
3.3.1 多重反應頻數分析(見表2和表3)
3.3.2 多重反應列聯表分析(見表4~7)
根據這些分析結果,圖書采購人員就能夠很好地制定出恰當適用的圖書采購計劃[4]。
4 結束語
以數據挖掘技術為基礎,對實際圖書館中讀者的借閱情況進行問卷調查,再利用SPSS軟件對所調查問卷進行系統分析,雖然問卷數目較少,但對圖書館分析讀者借閱需求指導圖書采購提高服務能力有一定的幫助。
參考文獻
[1] JiaweiHan, MichelineKamber.數據挖掘:概念與技術[M].北京:機械工業出版社,2007.
數據挖掘(Data Mining),從名字來看就是從大量復雜的數據信息中挖掘出有利用價值的信息。通常,這些大量的復雜的數據信息都被認為是隨機的、模糊的、不完全的、有噪音的,完全沒有進行處理的信息。然而經過挖掘之后,這些原本看似沒有任何利用價值的信息,就會呈現出一種新穎、有效、潛在有用的狀態,最終為人們的生活與生產提供便利。這種信息數據的處理變化過程,就常常被稱作是數據挖掘。它也可以理解成是在一些觀察數據或事實的集合中找正確模式的決策支持過程。數據挖掘是一門涉及面極其廣大的交叉學科,它可以簡單的認為是經濟信息轉換的一個過程,同時它還包含了機器學習、模式識別、數據庫、數理統計、神經網絡、模糊數學等相關技術。
數據挖掘的大體步驟是:數據的準備、數據的挖掘、結果的分析。在這樣一個完整的過程中,處于核心地位的就是數據的挖掘。而它的功能主要包括數據的聚類、模型的預測、分析等。除此之外,在挖掘信息數據的過程中,通常還會牽涉到其它方面的技術,比如鏈接分析、聚集檢測、關聯規則等。
數據挖掘主要功能有:預測模型、分類、數據聚類、數據總結、關聯規則發現、依賴關系或依賴模型發現、序列模式發現等。根據數據挖掘技術的作用和特點來看,它具備的優點是:它具有自動找出有價值的數據信息的功能;它能夠處理大量的數據信息;它反映數據信息快速有效;它能夠有效的對數據信息進行分析與評判,描繪過去和未來。
2、數據挖掘在經濟統計中的體現
對于經濟統計問題,對于我們所要探究的問題一定要定義,并且確定此次數據挖掘的目的。1.數據準備。就是對我們即將要面對的經濟問題中所涉及到的數據進行相應的采集,做好預處理這些工作,最終使數據得到簡化,使后續工作能順利進行。2.數據挖掘。根據數據的特點以及數據的類型選擇相適應的算法,利用統計、人工智能等方法,去挖掘有利用價值的信息3.結果分析。對第二步得到的結果進行充分的分析和評估,同時也是通過這一步驟反過來去調整上面,來得到更好的方法,從而讓結果更加真實。4.知識的運用。將得到的最符合實際的結果應用到現實的經濟問題中去,使得經濟能更好的運行和發展。
3、數據挖掘技術在經濟統計中的可行性研究
3.1 能為經濟統計提供有效的服務
數據挖掘技術雖然經歷的時間不是很長,然而,它的研究與應用水平已達到了一種相對穩定的狀態。隨著科學技術的不斷發展,數據挖掘技術在各國也普遍受到關注,特別是在經濟統計領域。數據挖掘技術能夠這樣的的迅速發展,在很大程度上也是依賴于它對經濟統計的有效服務。
3.2 能夠為經濟統計的不同需要提供不同的需求
目前,最常見的數據挖掘工具主要有綜合工具、通用型工具、和面向特定應用的工具。綜合工具,不僅能夠為處于商業中的經濟體拿出有效的管理報告,并且還能夠對普通經濟結構中的數據信息經行深入挖掘。通用型工,在市場上占最大比例,在應用方面最為成熟的挖掘工具。面向特定應用工具,從字面來理解,這種工具就是針對特定領域來提供服務的,具有很強的特別性。
3.3 建立宏觀經濟數據庫,為數據挖掘的應用提供了良好的電子平臺
在目前的情況下,全國范圍內的大部分經濟統計部門主要使用的還是應用統計系統。大部分經濟統計的數據信息都處于一種不相聚分散的狀態,并沒有形成一套有效的管理系統。經濟統計過程中一旦出現問題,嚴重的就會導致經濟數據的有效性與準確性受到影響。然而,當建立了宏觀經濟數據庫以后,以上問題就可以尋找到有效的解決辦法。當宏觀經濟數據庫與數據挖掘技術一起合理運用,就能保證挖掘到的信息準確、真實。這樣的情況下,在經濟統計中數據挖掘技術就能為其提供更好的服務,不僅滿足了現實中經濟發展的需要,同時也為經濟決策的制定提供了準確、重要的依據。
4、數據挖掘在經濟統計中的應用
正是由于對數據的大量收集、數據算法的產生、經濟數據庫的出現、先進的計算機技術、對數據進行精深統計方法計算的能力、數據訪問速度的提升等一系列東西的出現,使得數據挖掘技術的作用越來越廣泛。由于經濟統計中數據的實用性和準確性的需要,數據挖掘技術也開始慢慢在經濟統計中大展身手。數據挖掘技術的主要方法有:
4.1 統計分析法
經濟數據庫字段項之間存在兩種關系,相關關系和函數關系。就是對于數據庫中的信息利用統計學原理來進行分析。
4.2 決策樹
決策樹一般用于預測模型,通過對大量復雜無順序的數據有目的分類,找到有價值的信息。同時,正是因為描述簡單,分類速度快,特別適合運用于經濟運行過程中出現的大規模數據的處理。
4.3 遺傳算法
它是一種根據生物遺傳機理和自然選擇的隨機搜索算法,其主要思路是依據特定的社會問題,然后在指定對象中去采集相關信息,最后通過對信息中隱含部分的歸整、分析,進而得到結果。經濟問題不是固定不變的,相反它是一個不斷發展變化的問題,內部的聯系千絲萬縷,改變其中一項其他的也會相應改變。按照遺傳算法的步驟,從源頭開始,我們就一步步向下探索,去提取信息數據,對整體進行分析,這樣就能把經濟問題目標化、具體化、直接化,使得在研究問題時可以更加直觀,把隱性的表現出來,使得經濟統計工作更加直白、簡單。
4.4 粗集理論法
這是一種探究不確定知識、不精確的數學工具,它通過上下集比較而出來結果。它易于操作,算法簡單;簡化輸入信息的表達空間;不需要給出額外信息。特別適合那些不確定的經濟因素,同時正是通過這種原則,才能使得制定的經濟決策與需求更加接近,為獲得最大利益化給予了強有力支持。
4.5 神經網絡法
中圖分類號:TP311.13
計算機數據挖掘技術對于龐大的數據有著整理分析的作用,這不僅僅對于企業的工作產生了巨大的作用,還對學校生活也提供重要的幫助。我們在接下來就要探究西夏計算機數據挖掘技術在學校、企業、軍事方面等不同領域的應用情況。
1 在學校的實際應用情況
1.1 根據已有的數據進行預測。在學校里,我們學校通常都會對學生進行月考,這樣使得學校會存有學生每月考試的成績,在最后的期末考試前,學??梢岳糜嬎銠C數據挖掘技術根據學生每月的月考成績,預測出學生期末大概的考核成績。這樣,教師可以在期末考試前根據預測出來的成績提醒學生著重復習哪一科目。這樣不僅僅可以使得學生在期末更具有針對性的復習,還能使學校更好的掌握學生的學習情況,更好的對學生“因材施教”。
1.2 對學校食堂餐飲有著重要作用。學校由于人口眾多,尤其是各個高校。學校的食堂也擁有著許多的流動人口,學校要想管好食堂的餐飲,就必須利用新興的計算機數據挖掘技術。計算機挖掘技術由于對數據有著整理分析能力,所以,學校的食堂可以利用計算機技術整理食堂倉庫的數據,這樣使得工作人員很便捷的可以了解食堂的所需物品的數量,可以直接應用數據挖掘技術便可隨時隨地了解食堂所需物品的剩余量,從而及時的補給短缺的食材。學校食堂還可以利用計算機數據挖掘技術充分的配置不同的菜式菜樣,保障營養均衡,同時,還可以對學生家鄉進行統計,這樣可以提供不同地區特色的飲食,在最大的限度下滿足不同地區學生的飲食習慣。讓學生在學校里也能品嘗到家鄉的味道,從而提高學生的親切感。從而,讓不同區域的學生可以在學校里安心讀書,努力認真的學習。
1.3 對學生學習生活有很大的幫助。計算機數據挖掘技術也可以對大量的數據進行整合,學校教師可以充分利用這一特點,將學生的學習資料通過篩選整合后到校園網上,這樣不僅僅使得學生查找資料時方便快捷,不必做過多的“無用功”,還使得學校的教育方式得到更新,與新信息技術接軌,提高了教學質量。在大學校園內,學校還可以利用數據挖掘技術的調節功能來調節學生選課情況,任何專業和自選課程都具有熱門和冷門之分,這時候,學??梢岳糜嬎銠C數據挖掘技術對學生報考的專業和課程進行調劑,這樣,可以將學生平均分配。也可以調節冷門、熱門專業課程的人數,從而做大限度讓所有學生滿意。學校還可以將計算機數據挖掘技術應用到我們的圖書館建設中。這樣,使得圖書館在借閱管理方面就更加的便捷了。
1.4 在高校管理方面的應用。高校由于專業的繁多,以至于在院系下還細分出不同的專業,現在隨著藝術類的出現、新型技術的出現,也使得高校又多了專業的劃分。這對于高校的管理者來說,是一個巨大的挑戰。所以,為了便于學校的管理,很多學校都利用計算機數據挖掘技術進行管理,從而使得高校管理者在管理學校的時候提高了工作效率,也節省了很多的人力物力。所以,將數據挖掘技術應用到高校的管理中,是一項正確多的決定。
2 計算機數據挖掘技術在企業的應用
2.1 在金融企業的應用及重要作用。金融企業是具有一定風險的企業,其重要的就是要對投資的風險做出評估,這樣,才能在我們金融企業進行投資時把風險降到最低。這時,金融企業就利用計算機數據挖掘技術對我們的投資項目進行評估預測。如:在企業收購股票時,就要根據這只股票歷史走向的數據做,從而做出評估,在做出較為精準的判斷和選擇。在金融業涉及到借貸款的問題時,企業要根據貸款對象日常的誠信做出調查,然后再進行數據的挖掘統計,從而判斷出貸款對象是屬于低風險還是高風險。由此可見,計算機數據挖掘技術對金融企業的投資、貸款有著重要的作用。
2.2 電子商務企業的應用。電子商務企業最注重的便是網站的瀏覽量和點擊率及與客戶的成交單子的數量。企業如何提高網站的瀏覽量和點擊率和用戶的交易數量就成了問題的核心。電子商務企業可以根據用戶在瀏覽網頁時的收藏物品的情況、購物車的情況、成交記錄的情況進行物品的推薦。這就需要應用技術數據挖掘技術對用戶的一系列情況做出數據的整合。通過數據的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務的瀏覽量得到提升,從而增加企業在該行業的競爭力。
2.3 企業競爭的應用。社會經濟在不斷的發展進步,隨著而來的相同企業的數量也在不斷的增加,如何在眾多相同的企業里脫穎而出是所有企業思考的問題。一個企業除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業利用計算機數據挖掘技術對競爭企業進行系統的分析調差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業的短處時,也要使自己的企業避免相似的問題出現。所以,計算機數據挖掘技術在企業相互競爭時起著不可忽視的重大作用。
2.4 在煤礦性質企業的應用。煤礦企業一般來說是要科學合理的對地下資源進行挖掘,但由于種種原因,使得人們不能僅僅憑靠自己的力量就做出相應的判斷。這時,就需要利用我們的計算機數據挖掘技術對地下煤礦進行數據的勘測,然后整合,我們可以依靠這個數據進行正確的判斷。從而做到科學、合理的利用自然資源。計算機數據挖掘技術還能對煤礦企業的后期發展情況做出合理的預測。這除了需要運用到新型的媒體技術,還需要在煤礦企業經營的過程中正確的記錄數據,保存數據。才能對企業的后期經營情況做出更好的判斷。
3 在軍事上的應用
隨著社會逐漸的信息化,科技的不斷進步,軍事涉及的不單單只是以往的關注點,更是要注重利用新興媒體技術對于數據進行收集、分析、整理。這樣,不僅僅可以充分的掌握自己國家的軍事實力,還能有效的監管外國敵對勢力的部分情況。在科學技術的不斷發展,使得人們對于傳統的軍事理解又上升到一個新的層面。這有利用數據精確的分析出敵對的勢力在做些什么,才能更好的做出準備。只有利用高科技對于敵對勢力的經濟、政治、軍事有了一個總體的把握,才能在戰爭真正開始的時候掌握主動權,更有可能取得戰爭的勝利。所以,任何一個國家,在軍事當面,把計算機數據挖掘技術看的十分重要。這不僅僅需要高能力的計算機人才,更是需要具備國家榮譽感的人士。只有這樣,才能清楚的把握住敵人的情況,在戰爭中做出正確的作戰方式。由此可見,在軍事方面,計算機數據挖掘技術的作用是最不容忽視的。
4 結束語
社會的科技在不斷的發展進步,而計算機數據挖掘技術在我們的社會生活中的不同領域都發揮著其最大的作用。由此可見,我們的國家應當重視計算機數據挖掘技術,讓其能在各行各業中發揮最大的作用,從而更好的為人民服務。企業要多利用計算機數據挖掘技術進行利益的最大化。學校要使得計算機數據挖掘技術發揮最大作用,給學生的生活、學校的管理帶來便利。在軍事方面,國家應當引起強烈的重視,培養出更好的人才來為國家效力,保衛國家的安全。
參考文獻:
[1]盧明波,付亞平,德力.關于煤炭企業CRM與ERP系統整合應用的思考[J].煤炭技術,2009(12).
0引言
互聯網的出現和發展很大程度改變了人類的生活習慣,與之有關的網絡和互聯網信息也日益豐富和復雜。一般而言,WEB發揮著在大數據庫中提煉有用信息的功能,而WEB挖掘技術則發揮著從挖掘出的信息之間發現其相關性和怎樣將其應用于具體問題解決之中的功能。目前,大量數據很難在一臺計算機上進行處理分析,為了滿足技術進步和社會發展的需求,云計算隨之出現并快速發展,其憑借較強的信息存儲能力、安全性能以及數據處理分析能力等,受到各行各業的廣泛關注。
1云計算的應用現狀和技術分析
1.1應用現狀
WEB的發展經過了一個漫長的過程,隨著信息技術的發展和電子商務的興起,人們對互聯網的應用日益頻繁和依賴性日益加強,掀起了一股WEB2.0的發展熱潮。對于互聯網企業而言,信息需求分析能力已成為衡量企業競爭水平的重要指標,特別是根據用戶需求建設的這類網站,比如視頻網站就需通過數據分析來進行網站功能設計??傊朴嬎愕漠a生和應用有效解決了網絡技術的一些發展難題。在國內網民數量巨大且持續增長的背景下,越來越多的大型企業通過云計算來進行數據加工處理和分析應用。
1.2技術特征
通常來講,云計算主要針對數據管理,主要對象是數據信息,其和信息技術有顯著差異,具體有以下幾點:(1)廣泛性。存儲技術是云計算的關鍵技術之一,采取分布式存儲模式來提升存儲容量和存儲安全性,且性價比較高,實用性較強;(2)數據管理能力較強。云計算可實時監控大數據,可隨時隨地進行數據處理分析,同時可有目的地篩選出有用數據信息,技術先進,效率較高;(3)編程技術的先進性。技術元素是衡量云計算能否滿足客戶需求的重要指標,是維持云計算系統正常運轉的核心元素,由此可見,編程技術所發揮的作用無可取代。當前,Map-Reduce編程技術應用最為廣泛,初期以樹狀結構呈現,分支之后還需其他編程技術來維護;(4)虛擬技術的應用。虛擬技術在云計算中的應用較多,這是由于虛擬技術能有效配置網絡資源,脫離各分支系統獨立存在,在將各分支系統獨立化的同時,還將數據信息也分割成大量的獨立部分。這種模式使得云計算系統的彈性較大,能靈活運用動態的虛擬資源,有效降低成本費用,提高網絡資源管理的安全性。
2WEB數據挖掘技術的發展
2.1WEB數據挖掘技術的定義
WEB數據挖掘技術是結合WEB、信息技術、網絡技術等對挖掘信息進行全面分析處理,WEB和數據挖掘的有效融合反映了較強的綜合性,主要可分為基于內容、架構、應用等幾種WEB數據挖掘技術。就內容方面而言,是在WEB環境下,通過人工模式從相關文件夾中提煉有用信息;就架構方面而言,是采取人工方式挖掘不同的數據結構,再采取有關手段來提煉有用信息;就應用方面而言,是將挖掘主體存儲在日志文件之中,再據此來挖掘出站點的用戶信息。因此,所謂的數據挖掘,即采取有關技術來提煉WEB文檔中的有用信息,并據此來分析預測其未來發展趨勢??偠灾?,WEB挖掘技術并非是一項簡單的技術,而是多種技術的有效融合和廣泛應用。
2.2WEB數據挖掘技術的種類
通常來講,關于WEB數據挖掘技術的種類有多種分類依據,一般是根據其對象類別劃分為基于內容、架構、應用的三種WEB數據挖掘技術。就內容角度而言,其主要對象是WEB文檔中數據信息,比如提煉出的圖像、音頻、視頻等具體信息,且還可細分為純文本數據挖掘和多媒體數據挖掘兩種;就結構角度而言,其主要對象是數據架構,發揮著區分數據架構是組織架構還是頁面架構的功能,并且還要對數據鏈進行詳細分類,對WEB數據挖掘技術的效率和準確性的提升有顯著作用;就應用角度而言,通過對WEB文檔中的數據信息進行具體分析處理,來對用戶類型進行詳細分類,進而挖掘出更多的潛藏用戶。
2.3WEB數據挖掘技術的流程
通常情況下,WEB挖掘技術的流程會受到較多元素的作用,和傳統數據挖掘方式相比,其對象和手段有顯著變化,所以其流程也有所差異。如何將數據挖掘技術和WEB相結合是目前該技術發展的主要難題,這是因為WEB數據挖掘技術并非是有關技術的簡單應用,而是一個有機整體,需要經過檢索信息、選擇信息、分析信息等一系列流程。檢索信息是對WEB文檔中的數據信息或網站上的日志、新聞等內容進行查詢分析;選擇信息是對上一環節查詢到的信息進行篩選辨別,去掉一些無用的數據信息,并對有用信息進行初步分析;分析信息是對待處理的數據信息進行深入的篩選辨別,提煉出有價值的數據信息。關于WEB數據挖掘的整個流程,不僅需要自動化設備的輔助,還需要人工辨別的支持。
3云計算在WEB數據挖掘技術中的應用初探
3.1以云計算為基礎的WEB數據挖掘系統架構
WEB數據挖掘系統架構是由幾個節點相互關聯形成的,云計算發揮著使WEB數據挖掘系統架構各節點相互作用的功能,從而促進WEB數據挖掘系統的完善化,具體架構圖如圖1所示。主控節點是用戶和其他節點關聯的中樞紐帶;算法節點則負責保證數據分析的相關算法支撐,類似于一個算法數據庫;數據節點則是一個存儲數據的大數據庫;服務節點則發揮著控制任務進程和反饋分析結果的功能。(1)服務層。服務層是一個結合用戶需求通過WEB數據挖掘技術來進行數據分析,同時將結果反饋給用戶的過程;(2)控制層??刂茖邮峭ㄟ^主控節點來根據用戶具體需求分析,選出最恰當的算法程序,保證算法程序和信息數據的契合度;(3)存儲層。存儲層主要發揮著存儲使用的算法程序、用戶需求和最終反饋結果的功能。存儲層有效降低了原始數據或算法丟失的可能性,即使是系統故障,后續也可在數據和算法存儲層找到相關的信息數據并且具有可恢復性;(4)業務處理層。業務處理層將數據庫中的原始信息通過主控節點來進行初步分配,在數據進行分析處理之后,再由服務節點將分析結果反饋到主控節點。
3.2以云計算為基礎的WEB數據挖掘算法程序
一般情況下,以云計算為基礎的WEB數據挖掘算法程序的基本步驟如下:(1)結合用戶需求來明確可信度,這種用戶需求通常是通過WEB網頁傳遞過來的;(2)WEB網頁客戶端向主控節點發出服務指令,數據節點會向主控節點傳遞原始數據,同時將服務節點分析的結果反饋到主控節點;(3)主控節點將信息數據傳遞給算法節點,從算法程序數據庫中選出最優的數據挖掘算法程序,再分配至各服務節點;(4)各服務節點會有目的的篩選數據,并對信息數據進行整理分類,通過Apriori算法得到數據庫的頻集;(5)將分析結果反饋至主控節點,獲取整體數據庫的頻集,再將其傳遞至各服務節點,提高節點上的頻集準確性。如此反復,再將服務節點的分析結果反饋至主控節點,從而提高整體頻集的準確性;(6)主控節點將最終結果反饋給用戶。
3.3算法結果分析
算法程序結果的檢驗有賴于實驗數據的支持,據分析結果顯示,算法效率和信息量的關系成正相關,并且傳遞時間有差異,算法程序的傳輸時間要少于數據傳輸時間。與一般算法相比,WEB數據挖掘算法有顯著不同,可通過改變其他算法來獲得新算法程序?;谠朴嬎愕腤EB數據挖掘算法是一個整體算法,各節點聯系較強,有效避免了有效關聯規則遺漏的問題。
4結語
總而言之,WEB數據挖掘技術是對通過WEB文檔或其他網絡手段提煉的信息進一步加工處理、分析運用的技術,其可結合人們的生活習慣和模式來掌握人們的具體需要?;ヂ摼W的發展使得網絡信息量呈幾何式增長,對信息存儲容量和數據分析能力的需求也有所提高,怎樣突破技術限制來挖掘出有效的網絡信息是目前互聯網行業面臨的主要問題。而云計算較強的信息存儲能力和數據計算能力,使得其受到互聯網行業的充分重視?;谠朴嬎愕腤EB數據挖掘技術可統一管理控制網絡資源,結合WEB數據挖掘系統來充分運用云計算的信息存儲能力和數據計算能力,從而提升互聯網信息資源的利用率。
參考文獻
[1]孫雪凌.數據科學在高校學風治理工作中的應用探索[J].無線互聯科技,2016(17):129-132.
[2]沈軍霞,葛坤.新時期ERP系統應用與實踐探討[J].無線互聯科技,2016(17):23-26.
[3]王光煒,薛玉倩.基于云計算的數據挖掘平臺[J].內蒙古科技與經濟,2016(19):65-69.
[4]張玨,陳莉,田建學.面向零售業的關聯規則挖掘的研究與實現[J].計算機技術與發展,2016(10):146-150.
[5]邵傳飛.基于數據挖掘的兵棋推演數據分析方法研究[J].通訊世界,2016(21):245-247.
[6]劉占敏,劉津伊,賈蓓.FP-Growth算法在學生成績分析中的應用[J].信息與電腦(理論版),2016(13):85-87.
[7]高瑜,仝衛國.基于關聯規則的一次風機故障預警方法研究[J].電力科學與工程,2016(10):46-49.
[8]王麗格.大數據時代下的數據挖掘和分析探究[J].科技展望,2016(30):201-203.
[9]熊伯安.基于大數據時代的數據挖掘及分析[J].電子世界,2016(20):51-53.
[10]謝邦昌,斯介生.大數據分析中軌跡數據挖掘的現狀與挑戰[J].中國統計,2016(08):459-461.
中圖分類號:TP274 文獻標識碼:A 文章編號:1009-3044(2009)36-10410-02
Data Mining Technology and Application in Medicine
JIAO Rui, LI Xiang-sheng
(Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)
Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.
Key words: data mining; medical; application
計算機信息管理系統以及數據庫技術在醫療機構的廣泛應用,促進了醫學信息的數字化,使得醫院數據庫的信息容量急劇增加。這些數據蘊含了大量關于病人的病史、診斷、檢驗和治療的臨床信息、藥品管理信息、醫院管理信息等。如何才能不被信息的大海所淹沒,從中及時發現有用的知識,更好地為醫院的決策管理、醫療、科研和教學服務,已越來越為人們所關注,正是在這種背景下,醫學數據挖掘應運而生[1]。
1 數據挖掘技術
數據挖掘DM是知識發現KDD的核心部分,是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中、人們事先并不知道但又是潛在有用的信息和知識的過程,誕生于二十世紀90年代,它的發展速度很快,匯聚了數據庫、人工智能、數理統計、可視化、并行計算等多個學科,是多技術的綜合。
任務:數據挖掘的任務常見有以下幾種。
1)數據總結:其目的是對數據進行濃縮,給出它的緊湊描述。它主要關心從數據泛化的角度來討論數據總結。
2)關聯分析:其目的是找出數據庫中隱藏的關系網,常用的技術有回歸分析、關聯規則、信念網絡等。
3)聚類分析:聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。它是根據數據的不同特征,將其劃分為不同的數據類別。
4)分類與回歸:它是數據挖掘中非常重要的任務,應用最為廣泛。分類和回歸都可用于預測,其目的是從已知的歷史數據記錄中自動推導出對給定的數據的推廣描述,從而能對未來數據進行預測。
5)偏差檢測:數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及量值隨時間的變化等。
技術:數據挖掘技術涉及到統計學、機器學習和模式識別等領域的知識,根據挖掘任務,數據挖掘技術可以分為概念描述、聚類分析、關聯規則分析、分類分析、回歸分析、序列模式分析等。選擇用某種數據挖掘技術前,首先要將待解決的問題轉化成數據挖掘任務,然后根據任務來選擇具體使用哪一種或幾種數據挖掘技術[2]。
過程:數據挖掘的過程一般由三個主要的階段構成:數據準備、數據挖掘、結果表達和解釋,對知識的發現可以描述為這三個階段的反復過程。
1)數據準備:這個階段又可進一步分成三個子步驟:數據集成,數據選擇、數據預處理。數據集成將多文件和多數據庫運行環境中的數據進行組合,解決語義模糊性,處理數據中的遺漏和清洗無效數據等。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘的質量。預處理是為了克服目前數據挖掘工具的局限性。
2)數據挖掘:這個階段進行實際性分析工作,包括的要點是:先決定如何產生假設,再選擇合適的工具進行發掘知識的操作,最后進行證實。
3)結果表述和解釋:根據用戶的需求對提取的信息進行分析,挑選出有效信息,并且通過決策支持工具進行移交。因此,這一步驟的任務不僅是把結果表述出來,還要對信息進行過濾處理,如果不能令用戶滿意,需要重復以上數據挖掘的過程。
2 數據挖掘技術在醫學中應用的可行性和必要性
由于醫療工作自身的特點,如病情觀察的不可間斷、各種醫療檢查結果的紛繁復雜以及大量的醫學文獻專著等,要想使數據真正成為有用的資源,只有充分利用它為醫療工作的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。面對“被數據淹沒,卻饑餓于信息”的挑戰,需要引進一門新的技術――數據挖掘和知識發現,以解決好海量醫學信息的存儲開發與利用。因此,在醫學中應用數據挖掘技術不但是可行的而且是必要的。
運用數據挖掘技術,支持醫院各種層次的科學決策服務,現在已具備了充分的條件。一方面,我國的醫院信息系統經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量數據,為數據挖掘應用奠定了一定的物質基礎。另一方面數據挖掘在經過多年的發展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。
3 數據挖掘技術在醫學的應用
近年來,數據挖掘技術在醫學領域中的應用越來越廣泛,主要表現在以下幾方面。
3.1 在醫院信息系統中的應用
目前,我國大中型醫院均建立了醫院信息系統(Hospital Information System,HIS),運用數據倉庫和數據挖掘技術,對醫院醫療活動過程中產生的海量數據進行深度加工可從中得到長期的、系統的、綜合的數據;同時還可以通過決策樹、神經網絡、遺傳算法、聚類等技術,對數據進行深層次的挖掘和有效利用,得到豐富的輔助決策信息。這兩種技術的綜合應用,能為醫院的科學管理提供支持和依據,可以幫助醫院管理者預測醫院發展的趨勢,滿足更大范圍、更深層次的管理分析需求,從宏觀上把握醫院的發展方向。
3.2 在疾病輔助診斷中的應用
醫學診斷問題是基于知識的序貫診斷問題,醫生通過一定途徑獲取知識,形成推理網絡,而病例數據儲存在數據庫中,因此如何從病例數據庫提取診斷規則成了研究的主題。采用數據挖掘可以通過對患者資料數據庫中大量歷史數據的處理,挖掘出有價值的診斷規則,這樣根據患者的年齡、性別、生理生化指標等就可以做出診斷結論,從而排除了人為因素的干擾。此外由于處理的數據量很大,因此所得到的診斷規則有著較好的應用普遍性。例如利用關聯規則找出頭部創傷患者作CT檢查的適應證以及將數據挖掘用于肝癌遺傳綜合征的自動檢測等等都顯示出數據挖掘技術在疾病輔助診斷的廣闊的應用前景。
3.3 在醫學影像中的應用
當前醫學多媒體數據主要來自醫院中的一些成像儀器如:X光機、B超、CT、電子顯微鏡等,DICOM的出現,促進了醫學影像存檔與通信系統PACS的發展和使用,使得醫院有可能將來自不同設備的醫學影像進行集中、統一的管理和使用。數據挖掘是集數據處理技術最新成果的系統性理論,尤其適用于醫學影像數據分析這類多維數據。
醫學影像數據挖掘的關鍵技術有數據預處理、信息融合技術等。數據挖掘在醫學影像中應用主要在以下三點:1)提高目標影像質量和邊緣提取:利用數據挖掘理論中各種數據的預處理技術去除或降低圖像噪聲的影響,提高目標影像質量或對目標進行邊緣提取。Hsu JH等人曾利用數據挖掘技術對乳腺超聲影像的邊緣檢測算法進行研究并探討了算法的有效性評估問題[3]。2)組織定征和概念描述:通過對目標器官或組織進行概念描述并概括這類對象的有關特征,從而獲得或驗證有關參數的動態范圍。3)醫學影像管理與檢索: 目前,醫學影像存檔與通信系統( PACS) 已經發展成熟,基本解決了醫學影像數據的存儲管理問題, 但影像的檢索始終是研究熱點。數據挖掘技術的應用提供了兩種解決方案:一是由病例描述檢索醫學影像信息;二是由影像信息查詢病例可能診斷[4]。
3.4 在生物信息學中的應用
近年來生物醫學工程研究有了迅猛發展,國內外學者采用數據挖掘技術在DNA分析、醫學影像數據自動分析、糖尿病及心血管系統疾病患者多種生理參數監護數據分析等方面都進行了研究。
DNA在遺傳學研究中的重要作用已經眾所周知,數據挖掘理論中有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘技術被認為是DNA分析中的強有力工具。Jiawei Han和Micheline Ka-mher從異構和分布式基因數據的語義集成、DNA序列間相似的搜索和比較、同時發現的基因序列的識別、發現在疾病不同階段的致病基因等方面闡述了數據挖掘在DNA數據分析領域中的應用[5]。
4 結束語
醫學數據挖掘是計算機技術、人工智能、統計學等與現代醫學信息相結合的產物,是一門涉及面廣、技術難度大的新興交叉學科,需要從事計算機、醫學工程及醫務工作者進行通力合作,力爭在多屬性醫學信息的融合、挖掘算法的高效性和準確性等關鍵技術方面有所突破。
參考文獻:
[1] 曲哲,林國慶,余奎.數據挖掘技術在醫學影像中的應用[J].醫療設備信息,2004,19(6):33-34.
[2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering & Technology,2002(25):173-177.
社會經濟的發展,使得電力資源在其中發揮的作用也日益提高,成為支撐社會持續發展不可獲取的有力資源之一。為了更好地滿足人們不斷提高的用電需求,在電力營銷中應用新技術、新的管理方式已經成為眾多電力企業改革與發展的重點。本文主要就數據挖掘技術在電力營銷系統中的應用進行一定的分析。
1 數據挖掘
1.1 數據挖掘的定義
數據挖掘是數據庫知識發現中的一個主要步驟,它主要是指從大量的數據中自動地搜索隱藏于其中的有著特殊關系的信息的過程。通常數據挖掘與計算機科學有著緊密的關系,通過搜集、在線分析處理、情報檢索、專家系統、模式辨別等方法實現上述目標。
1.2 數據挖掘技術
數據挖掘技術主要有聚類、關聯分析、分類、空間挖掘、時序模式、預測六項。聚類可以幫助人們更好地認識客觀現實,其方法主要有統計分析、機器學習、神經網絡等。如果兩個或多個數據出現取值重復等高概率時,就說明它們之間存在一定的關系,并針對這些關系建立起一定的關聯原則,這就是數據挖掘中的關聯分析技術。分類在數據挖掘技術中是一種非常重要的任務,其可以充分利用原始數據,通過自動導出,對給定的數據進行推廣描述,以便對未來數據進行描述,因此分類主要被用作預測。時序模式主要是指從海量的時間序列數據中,對人們所不知的但有潛在價值的數據進行提取,以便對社會中的各個方面進行預測,并指導人們的行為。
2 電力營銷系統
電力營銷系統主要是以用電管理、電能計量、營業計費、線損管理等項目為核心,在各個業務項目模塊之上,提供一定的服務模塊以及分析模塊。前者主要包塊電網服務、互聯網服務以及客戶服務中心等,其工作中心在于向人們提供更高質量的服務。后者主要是通過對歷史數據的分析、計算等,為項目決策提供參考依據,其工作主要側重于向電力企業提供及時準確的參考依據,比如提供電力系統診斷的相關數據、安全動態評估、異常情況數據分析等。電力營銷系統的數據主要呈現出數據多、種類繁雜、要求高等特點。
3 數據挖掘技術在電力營銷系統中的應用
3.1 聚類技術在電力營銷系統中的應用
聚類技術在電力營銷系統中的應用主要體現在對不良數據進行修正、對負荷進行預測、對變壓器故障進行判別、對電力用戶進行分類、對用戶信用進行評價等。對不良數據進行分析主要是建立在傳統的聚類算法基礎之上,對聚類過程中所應用到的基本參數進行分析,并對其中的相關負荷特征曲線進行提取,對不良數據進行修整。對用戶的用電數據通過選取最佳的角力方法,得出具有代表性的負荷曲線,使電力企業能夠對用戶的用電模式有所了解,并制定出相應購電合同,從而增加電力企業的經濟效益。電力企業一般根據用戶所提出的不同需求,采用聚類分析的方式,將用戶分成不同的組別,并根據分組結果對不同組別之間存在的差異進行分析,并針對分析結果制定出不同的營銷策略,在很大程度上促進了電力企業在經濟效益方面的提高。對用戶信用進行評價主要是通過建立基于聚類分析法的用戶信用評價算法,對不同的用戶組別制定不同的量化依據,從而實現對用戶信用等級評定。
3.2 分類技術在電力營銷系統中的應用
在電力營銷系統中,對其進行中長期預測,除了利用傳統的方法之外,也可以對其采用專家系統、模糊理論等方式。而神經網絡方法在一定程度上得到了人們的高度認可,其主要基于競爭分類之上,對預測準確度的提高有明顯的效果。決策樹技術的誕生在一定程度上也大大提高了數據挖掘技術在電力營銷系統的應用效果。決策樹的應用不僅可以有效提高短期負荷預算的準確度,其對電力營銷過程中出現的竊電行為也有了高效、及時的判別。通過建立分類樹,形成了內容龐大、條理清晰的數據庫,在對SCADA系統的不良數據進行評估的同時,減小了數據庫建立的規模,并大大提高了其預算的準確性及計算的速度。同時,分類技術在客戶關系管理工作中也得到了廣泛應用。
3.3 空間挖掘技術在電力營銷系統中的應用
在很大程度上,電力營銷人員反應的快慢、判斷的準確度、決策的科學性對電力企業的長遠發展有著至關重要的作用。特別是隨著電力體制改革的不斷深入,電力營銷市場化,決策的科學性、正確性顯得更加重要和關鍵。將電力運行系統中的相關數據、負荷分布位置的具體數據以及實時發生變化的相關數據等信息融合為一體,通過空間挖掘技術,對信息進行一定處理,保證電力營銷系統實現設備跟蹤、模擬停電、故障判定、損失評估等功能。同時還可以利用空間分布規則、特征規則、聚類規則、區分規則等,得到不同類別或是相同類別的負荷分布情況。除此之前,空間挖掘技術還能廣泛地應用于負荷管理、抄表收費等服務項目,并能根據線路或變壓器的實際負荷情況,根據用電客戶的實際地理位置等制定出針對性強的負荷控制措施,從而實現負荷的合理應用,對高峰、低谷時期的負荷情況采取錯峰、填谷、調峰等方式實施管理。
3.4 時序模式在電力營銷系統中的應用
時序模式在電力營銷系統中用于進行短期符合預算是一種最為經典,同時也是應用最廣、最系統的一種方法。一般在實際運用中,更多是將時序模式與神經網絡結合,共同對電力營銷系統的相關數據進行分析。隨著科學技術的不斷發展,人們針對數據挖掘技術,提出了一種基于時間窗的新的時序挖掘算法,該種技術主要被廣泛地用作對警報進行智能處理,以便對電力營銷系統中出現的故障進行更加準確的定位與判斷,有利于電力營銷服務管理水平的大力提高,為廣大電力用戶提供更加優質的電力資源。
4 結束語
總之,數據挖掘技術在電力系統中有著非常重要的應用價值。隨著社會經濟的不斷發展,單一的數據挖掘技術已經不能很好地適應當前社會的需求,對此應在實際應用過程中,對其進行不斷改進與創新,促使數據挖掘技術在電力營銷系統中得到更加廣泛的應用,從而促進電力企業經濟效益的穩步提高。
參考文獻:
[1]朱莉.數據倉庫與數據挖掘技術在電力營銷系統中的研究與應用[J].東北大學,2003(18).
[2]朱潔.數據挖掘技術在電力營銷系統線損計算中的應用研究[J].蘭州理工大學,2011(11).