時間:2022-12-20 18:09:05
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據挖掘論文范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
2模糊集理論的引入
在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數據在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉換。模糊理論中的截集是模糊集合和普通集合之間相互轉換的一座橋梁。
3基于事務間數值型關聯規則的數據挖掘算法
假設有一就業數據庫,先通過數據整理,將原始數據記錄值區間[0,10]偏置10個單位。由此就得到了經過偏置后的數據庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數據庫數據整理轉化為擴展事務數據庫。再把擴展事務數據庫記錄通過隸屬度函數轉化為對應的隸屬度。
二、石家莊地區制藥企業專利數據挖掘
本文對石家莊地區制藥企業的專利數據進行挖掘分析,挖掘對象是華北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業股份有限公司、石家莊四藥股份、河北以嶺藥業股份有限公司、石家莊市華曙制藥集團、河北醫科大學制藥廠、河北圣雪大成制藥有限責任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數據能夠找到石家莊地區制藥領域的核心組成,并能為藥企更好地發展提供有力的信息支持。IPC號是目前權威的專利技術主題的標識編碼之一,基本包含了各行各業的專利信息,是一個龐大的專利信息體系。目前國內外很多分析方法及技術大部分是基于專利的IPC分類號來分析專利技術主題的,此分析方法有一定的參考價值和科學性,而且對于具有大量專利信息的分析具有很好的總結概括效果。本文以專利全部IPC號為分析對象,并且構建IPC號之間的關聯規則,在最大程度上揭示隱含的專利技術關聯性,從而為石家莊地區制藥企業專利技術的發展提供參考。
1.數據準備。數據來源的準確與否是數據分析與挖掘的基礎,是數據分析與挖掘的根本。本文所使用的石家莊地區制藥領域專利數據由萬方數據公司提供,以制藥企業地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區制藥領域專利644條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數據庫中的644條專利進行篩選,根據“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區制藥領域沒有聯系或聯系很小,不宜保留。根據“申請人(專利權人)”字段的限制,剔除與石家莊地區制藥不相關或制藥企業地址不在石家莊地區的專利。最后篩選出590條最符合該領域特點的專利。由于IPC號在幾乎所有現存數據庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業又研究大量的專利,所以在進行專利分析之前,需要對專利IPC號進行數據整理。由于過于細致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應的多條IPC號進行拆分,拆分后的數據項有773條,即顯示每個申請人對應的一條IPC分類號。
2.數據挖掘。本文數據挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數據導入SQLserver2005進行挖掘,利用SQLserver2005可以直接進行IPC號的關聯規則挖掘,然后對專利信息進行分析。
3.數據挖掘結果與分析?;陉P聯規則制作依賴關系網絡圖,可以更加直觀地看到各個IPC號之間的關聯和依賴狀態。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術群。這些專利的IPC分類號是關鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫用、牙科用等的配置品)是項集次數最多的,即支持度較高的,C12P(發酵或使用酶的方法合成目標化合物或組合物或從外消旋混合物中分離旋光異構體)、C12N(微生物或酶;其組合物)、C07D(雜環環合物,例如鄰氯芐星青霉素的合成)、C07C(無環和碳環化合物)通過專利相關知識我們已經知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領域的核心。這也是和石家莊地區制藥企業的核心領域相符合的。另外這些專利主題的相互關聯、依賴說明了石家莊地區制藥企業在該領域具有很好的布局網絡,在研發數量上也占有一定優勢,所以說是石家莊地區制藥企業的主要研究領域。
(2)以B65G、C12M為中心的輔助設備專利技術群。藥品的生產離不開設備的支持,所以設備方面的專利也能體現制藥企業的技術水平。在圖1中也能體現出來,專利間有著很強的依賴性和關聯性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統、氣動管道輸送機)、C12M(酶學或微生物學裝置),這些是制藥的輔助技術手段,與中心專利是相互聯系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領域的發展。先進藥品的研制離不開先進制藥設備支持,所以設備水平的提高也是關鍵的。如圖3所示,石家莊地區制藥企業在這一方面的技術依賴網絡也已經形成,說明在此技術領域也已經擁有較強實力。但與中心主要專利相比,輔助設備專利技術還是需要不斷提高的。
主要采用關聯規則與頻次分析相結合的數據挖掘方法,關聯規則旨在提示處方中存在的兩個或兩個以上腧穴之間的配伍形式,頻次分析能夠提供針灸治療某一疾病選用的腧穴及其頻繁程度。羅玲等在全面采集古代針灸治療中風文獻基礎上,重點進行了選穴的經絡癥狀關聯分析,發現針刺治療中風半身不遂使用腧穴頻次最多的為曲池、肩等手陽明經穴;肩、曲池、足三里、百會、風池配伍是最常用處方;多選用足少陽經和手足陽明經穴位。針刺治療中風不省人事使用腧穴頻次最多的為督脈百會穴、心包經中沖穴;風池、百會、曲池配伍或大椎、百會、風池配伍是最常用處方;經脈多選用督脈和足少陽、手陽明等陽經穴位。以上表明針灸治療中風遵循了辨證循經取穴的處方規律。何冬鳳等在全面采集現代針灸治療心絞痛臨床文獻基礎上,重點進行了選穴的經絡部位關聯分析。結果發現,心絞痛選穴分布在心包經、膀胱經、任脈、心經最多;選穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包經和心經,背部用穴近95%分布于膀胱經,胸部用穴全分布于任脈和心經。以上表明針灸治療心絞痛遵循了辨位循經取穴的處方規律。數據挖掘結果證實了古代、現代取穴規律和特點與針灸臨床理論的一般規律和特點是基本相符的。經絡辨證提示了經穴效應的循經性,特定穴的選用提示了經氣會聚狀態是腧穴發揮效應特異性的關鍵。
1.2腧穴運用規律的研究
1)神經系統疾病:趙凌等收錄了從先秦至清末的偏頭痛針灸專著,采用多層關聯規則挖掘算法,計算腧穴項集的支持度和置信度,發現手足少陽經脈的穴位絲竹空、風池、率谷、頷厭、頭臨泣出現頻次最高,偏頭痛處方配伍中以合谷一風池出現的頻次最高,少陽經的交會穴選用最多。楊潔等發現針灸治療貝爾面癱中,手足陽明經穴選用最多,重視局部穴位,配合遠端選穴,地倉穴為使用頻次最多經穴,交會穴、五輸穴、下合穴等特定穴運用廣泛。吳糧葶等挖掘針灸治療中風后遺癥的現代文獻,表明針灸治療中風后遺癥選穴以循經為基礎,首選陽經腧穴,分布主要在四肢,陽明經與少陽經的配伍關系最為常用,特定穴為選穴的主體,特別重視交會穴及肘膝關節以下的特定穴。李旗等挖掘出針刺治療格林巴利綜合征所選腧穴以足三里、合谷、曲池、陽陵泉、外關、三陰交使用頻率最高,經絡則以手足陽明經最為常用。CongMen等以不同針刺手法刺激小鼠足三里,構筑神經元混沌放電的復雜網絡來刻畫神經元放電時間序列的時變特性。
2)消化系統疾病:任玉蘭等通過多維、多層的關聯規則分析針刺治療功能性消化不良的古文獻,發現足三里、中脘、脾俞、胃俞、內關是治療FD最常用的主要腧穴,足三里與中脘相配是最主要穴位組配方式;取穴以循經為基礎,主要集中在任脈、膀胱經、脾胃經上;所選腧穴以特定穴為主體,遵循局部與遠端取穴相結合原則。張勇等以古文獻中治療鼓脹的經穴為原始數據,運用頻數統計及關聯規則算法,統計出古代治療鼓脹最常用經穴為足三里、水分、氣海等,通過2次priori關聯結果,最終確認組穴1(復溜,中風)和組穴2(復溜,脾俞)在臨床應用中具有強關聯性。鄭華斌等發現在治療腸易激綜合征中,特定穴的使用廣泛,其中以足三里為最,其次為天樞、上巨虛、中脘等,臟腑辨證取穴為針刺治療腸易激綜合征的重要原則,以足陽明胃經的足三里和天樞為主。
3)心血管系統疾?。汉味P等收集從先秦至清末有關胸痹的文獻,挖掘結果為歷代針灸治療胸痹以心包經選用頻次最高,陰經使用最為頻繁,特定穴的選用占有絕對優勢,如五輸穴原穴絡穴等,體現了循經取穴原則。高麗美通過頻次分析及關聯規則算法挖掘現代穴位貼敷治療心絞痛文獻,結果表明心俞、膻中、內關、厥陰俞使用頻次最多,腧穴選用以特定穴為主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴為主;以足太陽膀胱經、任脈、手厥陰心包經選用頻次較高。
4)其他系統疾?。和鹾楸虻冉梃b文獻計量學及數據挖掘的相關方法,對針灸治療更年期綜合征的常用腧穴及經絡進行描述性統計。發現現代治療女性更年期綜合征所選取的穴位中以三陰交、腎俞、關元、足三里使用頻率最高,膀胱經、任脈、脾經腧穴應用最為廣泛。王靜等發現源于149篇文獻的186條數據元素組成的阿片類藥依賴針灸治療數據庫中,用穴頻次居于前五的經穴足三里、三陰交、內關、合谷和神門構成了穴—穴,癥—穴,研究對象—穴,—穴和戒毒分期—穴等關聯規則中的穴位主體。
1.3刺灸方法的應用規律研究
賈春生等提出建立刺灸法文獻數據庫并設計文獻數據應用平臺,在此基礎上分析數據資料,建立刺灸法數據挖掘模型。此后,各學者運用數據挖掘方法對穴位注射、火針、穴位敷貼、穴位埋線、刺絡放血等刺灸法進行了特異性規律及特點的研究。刺灸法挖掘技術的應用中,頻次分析最為常用,能夠提供各類刺灸法治療不同疾病的頻繁程度,篩選其治療的優勢病種。張選平等發現穴位埋線療法主要優勢病種是內科的胃脘痛、肥胖病、癇證、哮喘、腹痛、面癱、便秘;外科的腰腿痛;皮膚科的牛皮癬和五官科的重瞼術。劉新等總結出放血針具共涉及9種,以三棱針使用頻次最高,將放血量人為分為6個等級,其中放血量為少許(少于0.1mL)的出現頻次最高,為401次。許曉康等發現水針療法在內科疾病治療中出現頻次最高,其次為外科疾病,相對于其他疾病,呃逆出現頻次最高。
1.4腧穴疾病譜的研究
吳糧葶等通過規范病癥、腧穴名稱,統計中風后遺癥所屬病癥的針灸病癥譜及總結針灸治療中風后遺癥的腧穴譜,結果顯示針灸病癥譜分布呈偏向性,腧穴譜遍布十四經脈,首選陽經腧穴,常用腧穴以陽明少陽經穴為主。邢晶晶等通過文獻比例、疾病比例對內關及其常見配伍的針刺病譜進行分析,總結出內關針刺病譜主要分布于脾胃系和心系;單穴內關針刺病譜中冠心病文獻比例最高;內關配伍足三里針刺病譜中呃逆文獻比例最高;內關配伍三陰交針刺病譜中焦慮抑郁文獻比例較高。黃宗雄等通過對清代及清以前昆侖穴相關文獻的整理,挖掘得出:昆侖單穴主治病證33種,篩選出2種優勢病證;配伍主治病證45種,篩選出19種優勢病證及其高頻配伍處方。陳文修等統計出百會單穴主治病證73種,篩選出22種優勢病證;配伍主治病證106種,篩選出21種優勢病證及其高頻配伍處方。
1.5名老中醫經驗挖掘
張華等對田從豁教授臨床病歷資料進行整理,發現田從豁教授臨床應用穴方共19個,陰交、肓俞、水分配伍使用頻次最多。陳裕收集當代名中醫針灸治療偏頭痛醫案247篇,總結出臨床與肝陽上亢型關聯密切的是足少陽膽經,血瘀阻絡型是手少陽三焦經,風邪上擾型是足太陽膀胱經,氣血不足型是足陽明胃經。并且,根據關聯規則挖掘提出的基本配穴規律與中醫經絡理論相契合。
1.6針灸臨床決策支持系統構建
針灸臨床決策支持系統對于實現針灸臨床決策模式的轉變有重大意義,基于數據挖掘方法,各學者在此方向進行了有益的探索。任玉蘭等提出建立疾病癥狀、證候癥狀關系的樣本數據庫、概率數學模型;再通過遺傳算法進行針灸治療最優方案的選擇,構建具有人工智能特征的針灸臨床循證診療決策輔助支持平臺。王佑林等利用復雜網絡的K核心思想并改進來尋找針灸治療疾病所用穴位的主穴信息,使其更好地適應中醫決策系統并提供支持。李云松等發現在決策系統中,使用一元字串和二元字串的特征更適合腧穴處方的自動生成,提出了一種基于K近鄰方法的腧穴處方自動生成算法,通過分析病歷庫中與目標現病史最相似K條病歷的穴位配方,來自動給出患者針灸治療的推薦方案。胡綠慧等提出使用Weka平臺進行編程,分析穴位的支持度與置信度,找出適用于針灸臨床方案決策研究的最好方法,用以指導臨床醫生的方案決策。
2分析與展望
2.1數據挖掘結果能夠與傳統的中醫學理論相契
合并提供新知《席弘賦》云:“凡欲行針須審穴。”可見臨證選穴及配伍的重要性。查閱近幾年針灸數據挖掘的結果,不難發現,針灸處方的配伍仍大量選用“原絡配穴”“俞募配穴”“八脈交會配穴”“合募配穴”“遠近配穴”等傳統配穴方法,遵循著“循經取穴”的規則,體現了“經脈所過,主治所及”“腧穴所在,主治所及”的規律。數據挖掘在驗證傳統的中醫學理論的同時,還能在海量的文獻中發掘出新知,如趙凌等挖掘偏頭痛文獻時即發現古代針灸治療該病多采用同名經的配穴方法,發生疾病時即可在相聯系的手足同名經的相應部位針刺;趙華等挖掘田從豁教授治療痹癥經驗的結果提示上肢疼痛與寒凝、血瘀相關,風寒痹阻與下肢發涼相關。這些新的治療方法、不易發現的疾病、證候、癥狀之間的聯系,通過數據挖掘為臨床提供了新的思路與治療模式。
2.2數據挖掘在針灸領域存在的不足及展望
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
(1)傳統電網能量流由電網單方向流向客戶,智能配電網的能量流可雙向流動。
(2)傳統電網信息流傳輸慢,信息不完整,存在較多信息孤島,智能配電網可以實現信息全面集成,高速雙向對等通信,支持分布式處理。
(3)傳統電網的業務流程局限于部門內部,智能配電網的業務流程貫穿多個部門,支持互動業務流程,全局角度的優化決策。因此,涵蓋電源、電網、用戶的全流程,貫穿電網規劃、設計、建設、運行維護、技術改造、退役的全過程,最終形成電力流、信息流、業務流的高度融合和一體化,將成為智能配電網發展、研究、建設的重點。
智能配電網的信息化建設已經全面開始,但我們仍然不能忽略存在的問題。
(1)對配網信息化的認識和定位不清楚,應用主體不明確,導致后期的應用具體的受益者少或不明顯。
(2)對配電信息化系統缺乏統一細致的規劃,存在“盲人摸象”的現象,提不出完整而準確的需求。
(3)容易套用調度自動化的建設思路,過分強調實時應用,而沒有針對配電信息量大面廣的特點,忽視了對其它系統的相關數據利用和整合,造成配電系統的信息缺口很大,模型不完整,后期的應用無法實用化。
(4)配電自動化涉及供電企業內部的生產管理環節較多,因此存在管理體制對自動化基于實時歷史數據庫開展配電網數據挖掘的應用與研究文/楊劭煒邱佳杰葉偉寶當前全球能源開發利用正呈現多元化、清潔化的發展趨勢,我國經濟快速發展,用電需求急速增加,而煤炭、風能、水能、太陽能等傳統與新能源資源的分布與消費呈逆向分布,因此,國家電網公司在2009年5月21日,提出了建設“堅強智能電網”的發展戰略,并分三個階段逐步實現。國家電網“十二五”電網智能規劃中明確了“電網發展方式的轉變”是這一期間的核心,而作為“兩個薄弱點”之一的“配電網”將是重點需要解決的。本文以配電網為切入點,引入數據挖掘技術,圍繞最能體現配網管理水平的各類業務,既提高了傳統配電網業務的執行效率,又能發揮信息技術強大的智能決策優勢。摘要系統的不適應,或者說是自動化系統對不同的管理體制的適應性不強。造成工作職責界定不清楚,運行管理工作跟不上,系統應用和數據維護工作很薄弱。另外,根據國網“十二五”規劃,國家電網公司明確要制定實施農電發展戰略,大力加強農網建設。本項目正是以縣公司這樣的基層供電公司為研究對象,綜合考慮配電網業務的復雜性,及縣公司覆蓋城網和農網的特點,力圖在建立一個有效配電網數據挖掘與分析模型的基礎上,依托先進的技術手段,提高在縣公司對智能配電網的認識和管理水平,并在可能的情況下,將研究成果在浙江省范圍內的縣級供電企業進行推廣。
2項目建設目標
實現對配調圖形數據的智能化管理與各業務環節的正常流轉;研究無線數據通信節點的接入及組網管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網絡結構,管理并維護多個節點,對數據進行預處理;應用有源電子標簽的電子標識系統來定位現場配網設備,解決管理人員在日常巡檢和維護中,突發狀況時的準確定位及地理環境變遷后的配網設備查找;為移動終端上各類信息(地理背景、電力網架、電力用戶信息,配網設備臺帳等)提供圖形化的展示和管理;實現以文件或接口的方式導入電網拓撲、電力用戶信息、設備臺帳信息等。項目主要研究內容:
(1)工作任務生成與流轉方式的研究。提出工作任務的概念,將其作為系統中業務流轉的唯一單元。設計并實現其具體流轉方式。
(2)無線數據網絡的研究。分析以無線數據網作為整個系統的通訊核心的技術可行性。研究無線數據通信節點的接入及組網管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網絡結構,管理并維護多個節點,對數據進行預處理。
(3)有源電子標簽的研究與應用。研究使用有源電子標簽的電子標識系統來定位現場配網設備的技術可行性,以解決管理人員在日常巡檢和維護中,對突發狀況時的準確定位及地理環境變遷后的配網設備查找。
(4)移動終端上配網信息可視化展現的研究。為移動終端上各類信息(地理背景、電力網架、電力用戶信息,配網設備臺帳等)提供圖形化的展示和管理。
(5)與相關系統數據接口的研究與實現。研究電網拓撲、電力用戶信息、設備臺帳信息等數據的載入方式及其技術可行性。涉及系統包括:GIS,PMS,營銷系統等。
3項目技術方案詳情
3.1系統架構
(1)總體要求及架構。系統將采用面向服務架構(SOA),遵循IEC61970標準接口和CIM數據標準,集成SCADA、市公司數據交換總線(IEB)、電力營銷、氣象網站、負控管理等相關系統,采用數據倉庫技術,有效解決多源頭復雜數據的采集、海量數據之上進行快速準確科學的數據分析的難題,貼近國內供電企業電網運行工況和負荷分析預測人員及電網規劃人員日常工作所需的基于省公司實時歷史數據庫開展配電網數據挖掘系統。
(2)技術路線。①基于IEC、CIM等標準,建立資源中心,通過IEB企業總線接收來自PMS、ACADA、電力營銷、用電采集、氣象系統等的多維數據;②采用C/A/S三層架構,保證平臺的穩定性和時效性;③部署上滿足大范圍推廣應用;
3.2集成框架
基于省公司實時歷史數據庫開展配電網數據挖掘平臺集成了SCADA、市公司數據交換總線(IEB)、電力營銷、氣象網站、負控管理等相關系統。集成框架如圖1所示。
4硬件架構
平臺應用采用單獨的應用服務器獨立部署,需要配置相應的軟硬件環境。應用服務器通過F5實現均衡負載,當用戶增加,已有服務器性能影響用戶體驗時,通過增加應用服務器的方式提升系統整體性能。
5軟件架構
基于省公司實時歷史數據庫開展配電網數據挖掘平臺將提供6大業務分析功能及3個基礎管理功能,共約40個分析子功能項,滿足各級負荷分析預測人員的日常工作所要。
1.1領域本體對特定專業領域中的概念及之間關系的描述,即為領域本體,它是對一個應用領域的描述,具體來說,分為本體知識庫和領域本體模式兩種成分,進而描述特定的領域知識和信息,即為領域本體模式,此外,模式描述了應用領域的知識構成或靜態信息。而所謂的顧客價值需求領域本體,描述的是邏輯關系、描述的對象是顧客價值需求目標概念機需求行為概念,明確則是指概念及約束是顯式的定義,基于其具有計算機刻度的特點,構成了形式化,研究目的將領域體原語定義的具體情況如下:定義一:顧客價值需求領域本體的概念構成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顧客機制需求特性概念用Concerpts1表示,顧客的價值需求決策行為概念用Concerpts2表示,如環境約束分析、方略設計、實施等;顧客的基本特征概念則用Concerpts3表示。定義二:顧客價值需求領域本體形式化為三元組:ODomain={Concerpts,Relations,Instances},式中,領域概念的集合用Concerpts表示,領域概念間的關系集合用Relations表示,而ODomain為領域本體,本體實例的集合則用Instances表示,形成三元組。定義三:顧客價值需求領域本體的關系集合表示的是概念集合中各個概念之間的關系,具體數來,表現為n維笛卡爾積的子集。關系集合中存在5種關系,有Part-of:某個概念是另一個概念的屬性。Means-end:不同需求概念之間因果解構關系。Subclass-of:概念之間的繼承關系。Drive-adjust:不同需求概念之間因果解構關系。Attibute-of:某個概念是另一一個概念屬性。也就是行為感知影響目標調整,且目標驅動行為,二者關系密切。定義四:領域模式在應用域的實例,即顧客價值需求領域本體的實例。如“大學生的移動產品需求”本體、“政府顧客的移動產品需求”本體等。
1.2任務本體對特定任務或行為求解方法的描述即為任務本體,對其的設計,應當以顧客需求管理領域決策信息及問題的需求為基礎,有文獻指出,顧客吸引、識別、保持及發展,為顧客生命周期管理涉及到的4個管理主題,如表1所示,也包括了上述主題的決策分析問題。綜合數據挖掘的任務來看,其囊括了一個或多個挖掘子任務、挖掘算法等,結合本次研究,實施了對該領域的任務本體原語定義的設計,如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任務本體用OTaske表示;α管理主題下Taskea挖掘任務的輸出變量用Inputsa表示,如興趣參量、聚類變量、規則前、后件變量;α管理主題下的挖掘任務用Taskea,如顧客細分以及需求特征描述等;挖掘結果輸出表達形式或格式用Outputsa表示,如聚類中心、“類”聚類變量均值、“類”樣本數等;挖掘方法用Methodsa表示,如K-means聚類。另外,α∈(識別顧客,吸引、保留和發展顧客)共同構成了任務本體。
2對本體下顧客需求數據挖掘過程的改進
結合現實發展中的相關問題,在本體的顧客需求數據挖掘過程的改進方面,主要體現了挖掘目和任務、方法的選擇及確定及數據源轉化、約束參數的選擇等。這種方式下,對目標的搜索范圍進行了有效的縮小,進而在此基礎上提高了挖掘質量和效率,如圖1所示。
2.1支持管理決策的挖掘任務首先要進行的是對數據挖掘任務和目標的確定,基于操作中驗證或探索可支持實際管理決策的信息結構,具有較大的價值,其知識內容包括了規則、規律、模式及關系等,結合文中研究主題,依據顧客需求相應決策問題來進行具體數據挖掘任務的設置,在對挖掘任務和目標的完善方面,有效地結合了領域知識的本體模型。在對應概念及關系語義匹配方面,根據該領域需求目標、行為信息的本體模型來進行,繼而確定本次數據挖掘任務。
2.2挖掘數據空間及預處理在具體的實施過程中,以數據挖掘任務和領域本體模型為基礎,指導完成數據集成、選擇以及預處理3個環節,這便是挖掘數據空間及預處理,細分有以下內容:(1)提取、歸并處理多數據庫運行環境中顧客數據,以及遺漏和洗清臟數據等;(2)基于數據來進行數據的選擇方面的需求,應依據數據挖掘任務需要分析的數據來實施,進而有效減少了不相關或冗余的屬性,也得到了符合約束的數據挖掘有限數據基,實現了數據挖掘搜索效率的有效提高,使得相關屬性或遺漏等現象得到了有效避免;(3)基于顧客“需求行為”領域本體的概念語義即為預處理,旨在檢查轉載的數據,確保其合法性,并及時修正其中的錯誤,預處理其中的異常數據。
2.3挖掘方法算法及執行流程依據本次研究的需要,在具體的執行過程中,設定先明確數據挖掘的任務和目的,詳細可分為驗證性、探索性挖兩種,前者由用戶事先給定假設,繼而在挖掘中發現蘊含的某些規則或規律,對所做的假設進行驗證;其次,對操作過程中的挖掘方法和算法進行確定,而挖掘方法和感興趣參數的設置則要根據挖掘任務來進行,如表1所示;最后,確定挖掘結果的表達方式,一般有神經網絡、樹結構以及規則(模板)等[6]。
2.4評價挖掘結果作為整個實施過程的最后一個環節,對于挖掘結果的評價和詮釋,對于整個操作過程具有十分重要的意義,在具體的評價過程中,不能有違背領域本體知識的行為,并要及時參與領域本體的概念關系,且還要采取相應的方法來提高綜合評價的有效性,如置信度、支持度以及興趣度等等,在必要的情況下,實施方應當反饋調整參數或約束等,繼而形成對用戶感興趣知識的重新挖掘,對其進行完善,基于本體用嚴格的邏輯語言表述過程中產生的新知識,需及時在實踐過程中的檢驗與完善,使得整個過程具有較高的可信度,收到良好的執行效益。
2采用可視化圖形操作分析技術
可視化分析技術能夠整合各式不同的數據來源或數據倉儲系統,利用MicrosoftSQLServerAnalysisServices構建多維結構數據庫(Cube),而后存取、分析商業數據,通過鼠標的拖、拉、點、選,操作各種維度與量值,迅速產生各式的分析圖表與統計結果。可視化的圖形操作能為用戶迅速提供決策報表與在線分析處理(OLAP)等重要分析功能。運用專業工具所提供的報表(Reports)、實時查詢(AD-HocQuery)、聯機分析處理(OLAP)等重要商業智能的強大分析功能,使醫院獲得最全面、迅速的數據洞悉能力。具體功能如下:
(1)表定制及報表的整合,在報表靈活性和報表開發易用性等方面具有突出的優勢,其報表是通過圖形界面下的鼠標拖拽操作來直觀的完成的,無須編寫任何腳本或者代碼,即可實現復雜格式的報表。
二、數據挖掘技術在財務分析中的應用
財務分析的主要目的是改善經營管理,提高企業的經濟效益,其主要目的是保證會計信息資料的正確可靠性,以保證企業財產的安全性、完整性。比如某生態園林企業需要投入大量資金完善生產基礎設施,并保證現場作業的有序,如有必要還要投資于企業產品周邊附屬產業的發展,因此財務決策的重要性不言而喻,而在財務決策中應用數據挖掘技術十分必要。財務分析中應用數據挖掘的基本流程包括問題識別、數據準備、數據開采及結果表達與解釋等四個步驟,圖1可將財務分析數據挖掘的過程直觀的表達出來:
(一)問題識別
典型的財務決策包括投資決策、籌資決策、成本決策、銷售決策等,企業要進行財務分析前必須識別決策問題,明確需要達到的決策目標等,再將決策目標轉換為數據挖掘的目標,最后進行準確的數據定義。如企業需要投資企業產品周邊附屬產業,則需要利用數據挖掘技術明確以下問題:
(1)企業經營中可隨時支配的資金額度,需要財務人員建立數據庫模型,將可用于投資的資金情況準確、詳細的計算出來;
(2)編制投資方案,即與本企業實際情況相結合,考慮具體投資計劃,并對投資方案的可操作性進行分析,比如上述園林生態企業需要投資進口園林機械的項目,就需要在投資前對該項目的大小做出合理評估,了解該品牌園林機械在國際市場的占有份額、品質、成本及銷售價格等信息;
(3)投資收益分析,投資的主要目的是獲得更高收益,因此在數據挖掘過程中,問題識別時必須做出可靠的收益預算。
(二)數據準備
在完成問題識別后,需要根據不同的需求、從相關數據庫信息中選擇適用的數據信息,即進行數據準備,該過程需要收集大量與企業財務分析相關的數據信息,以保證數據挖掘的真實性、客觀性,比如花卉市場分布信息、裝飾裝潢市場信息、園林設計與市場銷售等信息。通常情況下,數據準備又可分為數據集成、數據選擇及數據預處理等三個步驟,其中數據集成是把多數據庫運行環境中的數據進行合并處理,去除信息噪聲,剔除虛假數據;而數據選擇則是分辨需要分析的數據集合,進一步縮小數據處理的范圍,提高數據質量,從而保證數據挖掘的有效性;數據預處理的主要目的是解決數據挖掘工具局限性的問題。
(三)數據挖掘
當上述準備工作完成后即可進行深入的數據挖掘處理,挖掘過程中需要注意,必須以財務分析核心思想為指導,明確數據挖掘的目的性,數據挖掘的主要內容包括:選擇合適的挖掘工具、具體的挖掘操作及證實發現的知識等,其中選擇合適的挖掘工具至關重要,限于篇幅此處對神經網絡及決策樹兩種方法進行簡單介紹。神經網絡是以自學習數學模型為基礎的,利用該方法可以很容易的解決具有上百個參數的問題,為高復雜度的問題提供一種相對簡單的方法;視經網絡既可以表現為有指導的學習,也可以是無指導聚類,不過輸入神經網絡中的值均為數值型的。實際應用中通常采用該方法進行財務預警分析。決策樹法是現階段應用最廣泛的歸納推理算法之一,其提供了一種展示在何種條件下會獲得對應值的規則的方法,是一種簡單的知識表示方法,在數據挖掘過程中,決策樹法主要用于數據挖掘的分類。
(四)結果表達
結果表達即是在處理數據庫信息的基礎上客觀的表達出數據挖掘的結果,以為企業財務分析提供可靠依據??梢哉f結果表達是數據挖掘的成果展示,其所表達的是最有價值的信息,如結果表達所提供的信息達不到決策的要求,則可重復挖掘過程,直至決策者滿意為止。
1.2分類。它能將數據庫中的數據項,映射到給定類別中的一個。分類[3]定義了一種從屬性到類別的映射關系,給定樣本的屬性值,根據已知的模式將其劃分到特定的類中。
1.3聚類分析。聚類是根據一定的規則,按照相似性把樣本歸成若干類別。在對樣本合理劃分后,對不同的類進行描述。聚類通常用于將客戶細分成不同的客戶群,如有相同愛好的客戶群。
1.4時間序列。按照時間的順序把隨機事件變化發展的過錯記錄下來就構成了一個時間序列。對時間序列進行觀察、研究,找尋它變化發展的規律,預測它將來的走勢就是時間序列分析。
1.5孤立點分析。孤立點在數學上是指坐標滿足曲線方程,但并不落在曲線上的點。它也可以被看作是在數據集合中與大多數數據特征不一致的數據。對孤立點進行分析極有可能發現重要的隱藏信息。
1.6遺傳算法。它是一類借鑒生物界的進化規律(適者生存,優勝劣汰遺傳機制)演化而來的隨機化搜索方法;是一個以適應度為目標函數,對種群個體施加遺傳操作,實現群體結構重組,經迭代而達到總體優化的過程。目前,將數據挖掘技術應用于煙草行業的研究逐步受到重視。歐陽秀君,劉文在《數據挖掘技術在煙草CRM中的應用》一文中[4],主要探討如何將數據挖掘中的關聯規則、聚類、分類方法應用于煙草CRM中??到澹愝x[5]將基于數據挖掘的技術應用于對煙草精準營銷策略的研究。王辛盟[6]采用數據挖掘技術,利用SPSS統計軟件,以某煙草配送中心的訂單數據和客戶資料數據為數據源,用聚類的方法對客戶群進行細分。鄭陽洋、劉希玉[7]采用基于多層次關聯規則挖掘技術,對2007年山東省內某地級市卷煙商業企業的銷售數據進行分析,得到“消費者在購買品名為紅河(軟甲)的客戶中,有57%會同時購買類名為八喜的卷煙”的規則。但以上對于煙草行業的數據挖掘研究的方法主要集中在關聯規則、聚類分析和分類三種方法上,在接下來的研究中,我將探討如何將更多的數據挖掘方法應用于煙草行業的數據分析上。
2數據挖掘技術在煙草行業中的應用
2.1聚類分析在卷煙銷售中的應用為了便于日常卷煙銷售及統計,通常根據卷煙的屬性對進卷煙行分類,常見的卷煙分類方法如下:一是按照價位段劃分,5元以下、5-10元、10元以上等;二是按照利潤貢獻度,分為一類煙、二類煙、三類煙、四類煙和五類煙;三是按照卷煙品牌劃分,泰山系列、黃鶴樓系列、七匹狼系列等;四是按照產地劃分,魯產煙、滬產煙、外產煙等;五是按照焦油含量劃分,低焦油卷煙和高焦油卷煙。以上就卷煙的某一單一屬性對卷煙類別進行區分,極大的方便卷煙的銷售管理工作,然而,消費者在選擇卷煙時,往往會考慮多方面的屬性,因此單一屬性的卷煙分類無法解釋消費者偏好。因此需要引入基于多屬性的卷煙分類方法,由于卷煙規格多且本身具有多重屬性,基于主觀判別分類方法難以滿足分類要求,需借助統計學的方法對卷煙進行科學分類。聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程,同一類別的樣本表現出較高的相似性。因此,可將聚類分析用于解決上述卷煙分類問題,根據多屬性相似程度將卷煙分成幾個類別,消費者在同一類別中的香煙偏好無顯著差異,即同一類別中的香煙具有較高的替代效應。在實際銷售過程中,當某一牌號的卷煙斷貨、緊俏時,可推薦此牌號所在類別的其它牌號的卷煙給消費者作為有效替代。
2.2時間序列用于卷煙銷售趨勢預測卷煙銷售市場季節性特別顯著,主要表現為兩個方面:一是市場以節假日為節點,節前卷煙銷售迅猛,節后消費趨于平淡;二是夏季是旅游市場的旺盛,旅游業帶動外來人口流動增加,卷煙銷售量也隨同增加。同時,卷煙市場也受經濟、人口結構等方面因素影響,使得卷煙銷售量存在明顯的非線性特征,波動范圍比較大,傳統線性預測模型難以準確預測。為了提高卷煙銷售預測精度,建立一個基于時間序列、能夠精確預測卷煙銷售量的模型已經成為一種必然趨勢。時間序列由四個影響成分所組成,分別是長期趨勢、循環變動、季節變動、不規則變動。這四個影響成分與卷煙銷售市場的變動規律相吻合。通過建立卷煙銷售時間序列模型,對以往銷售的歷史數據進行分析,能夠有效地預測未來卷煙銷售市場的走勢和發展規律,更好地掌握卷煙市場的供需關系。在此基礎上,做好備貨工作,設立合理庫存,實現有效的貨源供應。通過對區域市場變化趨勢的預測并結合客戶實時經營狀況,能夠對客戶的需求總量做出相適應的預測,確保做好客戶的合理定量工作,保障不同零售客戶需求。預測結果還可為制定公平合理的貨源投放政策提供依據,使得各類貨源能夠投放至有相應銷售能力的客戶手中,更好的滿足消費者的需求。
2.3孤立點分析用于煙草專賣執法數據挖掘中的孤立點分析方法可以通過計算數據點之間的距離,稠密度等來模擬用戶之間的屬性差異,由此找到那些屬性特征與正常點差異非常大的用戶數據點。人們普遍認為孤立點的存在極有可能是度量或執行錯誤所導致的,因其不符合數據的一般模型,所以在研究普遍現象時,人們總是試圖使孤立點的影響最小化,而盡可能排除它們。然而,孤立點可能隱藏著比一般的數據更有價值的信息。近些年來,孤立點挖掘作為一個重要的研究課題,已被廣泛用于信用卡詐騙監測、市場內部交易偵測、工業設備故障探測等領域。在已建立的煙草分銷數據庫中儲存著大量客戶訂單信息,這些訂單信息包含多個維度,如用戶ID、商品編號、訂購數量、需求數量、同一品牌訂貨間隔等等??衫霉铝Ⅻc挖掘算法對客戶訂單數據進行分析,建立客戶評估監測模型,找到以下“孤立點”:訂單金額高的,敏感牌號訂購量大的,敏感牌號訂購頻繁的,以往訂購敏感牌號頻率低但最近一段時間頻繁訂購的,按照商圈不具備高端敏感牌號銷路的卻頻繁訂購等等。這類訂單“異?!钡目蛻?,或者稱為“孤立點”,可以被認為是存在相當大的“違規”可能性,我們的專賣執法人員應該對這一類的零售戶采取進一步的跟蹤調查。孤立點數據分析,勢必成為專賣執法的又一利器。
2.4遺傳算法用于車輛配送線路優化卷煙商業企業的銷售收益主要來自于訂單,銷售成本主要產生在物流配送的環節。所以,在假設銷售量不變的情況下,如何優化線路配置,降低成本,最大化公司利潤,在當前煙草行業面臨巨大的挑戰和壓力下,顯得尤為重要。因此,采用科學的、合理的方法來確定配送線路將是車輛優化調度工作的重中之重,是物流系統優化、物流科學化的關鍵。煙草商業企業已有的線路優化系統中儲存有客戶商店位置、道路情況等信息,可以在此基礎上,利用遺傳算法對配送線路問題進行優化。將一系列實際中車輛配送的約束條件,轉換成二進制編碼(染色體)并隨機產生初始種群,通過模擬達爾文的遺傳選擇和自然淘汰的生物進化過程,并借助于自然遺傳學的遺傳算子進行組合交叉和變異,逐代演化產生出越來越好的近似解,末代種群中的最優個體經過解碼,可以作為最終問題的近似最優解,用以實現對車輛的優化調度,即合理地進行配貨優化、貨物配裝優化,特別是配送路線優化。從而達到提高里程利用率,降低行駛費用,減少車輛空駛里程,增加貨運量,節約燃料,降低大修費等,為企業帶來更大的經濟效益。另外,車輛優化調度在減少廢氣排放量,降低城市空氣污染方面也起到積極作用。
1.2模糊集理論的應用要點該方法通過模糊集合與模糊推理兩種方法,其研究測試的對象是各類不確定性因素,屬于傳統集合理論的創新。模糊集理論在設備狀態監測和故障診斷中的應用,主要包含了兩個方面。一方面,是在相關數據概念的形成時,采用不準確和較為模糊的語言變量,根據人們習慣,對設備狀態的變化及變量變化狀態進行描述。具有較強的直觀性,且相關人員在接受該類概念時,也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規則,在建模時模糊化,使得機械設備的控制、預測以及故障診斷等過程擁有更為廣闊的空間。
1.3基于實例分析的方案優化及調整該種方法擁有較為簡單的思路,在對設備未來運行情況進行預測時,系統會匹配與設備目前情況相似的實際案例,并從以往的解決方法中選出最佳的解決方案,再結合設備實際情況進行相應調整。此類方法的應用范圍較廣,且得到的計算結果也相對準確,但同時也具有一定缺陷,即無法全面整合以往設備數據及解決規律,缺乏充足的繼承性。該方法進行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進行全面的推理工作,并采用類比和聯想法,較為全面的對故障進行診斷。
1.4多種數據挖掘法的聯合應用除上述幾種數據挖掘技術外,實際工作中還涵蓋了以傳統數據統計為基礎的統計分析方法、人工神經網絡元技術、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應用效果,可以將各類方法進行配合使用,代表性的算法組合類型如表1所示。
以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發生原因以及故障征兆的相互聯系,在綜合考慮的基礎上對機械設備故障的可能原因進行全面分析。而該方法在運用的過程中,會對各類故障征兆進行約簡化從而得到較為普遍的規律,但是所得到的規律也可能存在不可靠問題。故在實際應用模糊集理論的同時,配合采用遺傳算法,通過對模糊集理論所得到的結論及規則進行全面優化,使得診斷的結果更為準確與高效。上述案例方法在渦輪機故障診斷過程中進行應用時,可先建立完善的渦輪機故障集,在此基礎上采用模糊集理論對渦輪機故障進行診斷,配合遺傳算法對渦輪機故障規律進行優化,使得最終故障診斷結果更為準確。除遺傳算法與模糊集理論課進行配合使用外,其他各類方法也可以根據設備實際情況進行搭配,使得最終診斷結果更為準確有效。