時間:2023-04-19 16:57:07
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據挖掘技術分析論文范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績
為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。
一、數據選取
回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。
選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數據分析
運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態分布假定條件
由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。
從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文
摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統計學專業;數據挖掘;大數據;教學
一、引言
通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。
二、課程教學探討
針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。
(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。
(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。
(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。
(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數字信息化社會的飛速發展,計算機技術和數據庫管理系統被廣泛應用于科學探索、商業、金融業、電子商務、企業生產等各種行業,已逐漸發展成為一種智能管理過程。數據挖掘作為一種新興的數據分析技術,它的研究成果取得了令人矚目的成就[1]。利用數據庫技術,通過對教務管理的大量數據進行多層次、多維度的加工處理,從而實現人性化管理,為科學決策提供支持。
畢業論文在教學體系中占有十分重要的位置,是本科生培養計劃中衡量教學質量的重要指標。提高畢業論文教學質量是一項系統工程,為研究在當前的教學條件下如何提高畢業論文教學質量,本文采用數據挖掘技術對影響畢業論文成績管理的多方面因素進行了深入分析和挖掘,以期發現對學校畢業論文教學管理有用的知識,將這些知識應用于本科學生畢業論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發展提供更廣闊的空間,發揮重要的作用。
1 數據挖掘簡介
數據挖掘(Data Mining),又稱數據庫中的知識發現(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數據,從大量的、有噪聲的、模糊的、隨機的海量數據中尋找其規律的技術,它是數據庫研究中的一個很有應用價值的新領域。
1.1 數據挖掘的定義
H包含如下功能:
綜上所述,數據挖掘具有三大特點:其一是處理大型數據;其二應用數據挖掘的目的是發現未知的、有意義的模式或規律;其三是一個對大量數據處理的過程,有特定的步驟[3]。
1.2 數據挖掘的主要方法
數據挖掘是一個多學科交叉領域,它由人工智能、機器學習的方法起步,并與統計分析方法、模糊數學和可視化技術相融合,以數據庫為研究對象,圍繞面對應用,為決策者提供服務。
數據挖掘的方法主要可分為六大類:統計分析方法、歸納學習方法、仿生物技術、可視化技術、聚類方法和模糊數學方法。歸納學習法是目前重點研究的方向,本文根據給定的訓練樣本數據集,采用歸納學習法中的決策樹技術構造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎的歸納推算法,著眼于從一組無序的,無規則的事例中推斷出類似條件下會得到什么值這類規則的方法,它是一種逼近離散值函數的方法,也可以看作一個布爾函數[5]。決策樹歸納方法是目前許多數據挖掘商用系統的基礎,可以應用于分析數據,同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數據進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結構,是一種知識的表現形式。為了對未知樣本進行分類,生成具體的分類規則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節點為根節點,是整個決策樹的開始,然后遞歸的進行數據分區,每次切分對應一個問題,也對應著一個節點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數據,防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節點中的所有數據都屬于同一類別,或者沒有屬性可以再用于數據進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據測試屬性的取值[6]。C4.5算法是在ID3算法基礎上發展起來的,它繼承了ID3算法的全部優點,并增加了新的功能改進了ID3算法中的不足,可以進行連續值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規則信息的優劣,選出信息增益率最大的屬性作為結點,自頂向下生成決策樹。C4.5算法構造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設S為一個包含s個數據樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設類別[Ci]中的樣本個數為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數據。如果屬性A被選作測試屬性,設[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據A劃分計算的熵為:
然后利用屬性A對當前分支結點進行相應樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創建根節點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結點樹root;
4)If Attributes為空Then;
5)返回單結點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結點的分類錯誤,進行剪枝,并返回根結點Root。
3 畢業論文成績管理系統的設計和實現
利用數據挖掘技術對學生的成績數據進行提煉,所產生的結果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內在聯系。本文采用決策樹技術挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘對象,明確挖掘目標是數據挖掘所有工作中重要的一步。本文中應用于挖掘的數據信息是畢業生的畢業論文成績,旨在通過對大量成績數據進行各層次的挖掘,全面了解具體影響學生畢業論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關知識:數據是挖掘知識最原始的資料,根據確定的數據分析對象,抽象出數據分析中所需要的特征信息模型。領域問題的數據收集完成之后,與目標信息相關的屬性也隨之確定。這些數據有些是可以直接獲得的,有些則需要對學生進行調查才能的得到。
3)數據預處理:此過程中是對已收集的大量數據進行整合與檢查。因為存放在數據庫中的數據一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數據庫中數據進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數據轉換:對預處理后的數據建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術進行分類建模來解決相應的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據系統最終要實現的功能和任務來確定挖掘的分類模型。選擇合適的數據挖掘技術及算法,并采用恰當的程序設計語言來實現該算法,對凈化和轉換過得數據訓練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數據挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規則呈現給管理者,應用于實踐。
7)知識應用:將分析得到的規則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業設計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業論文質量。
4 結論
最終發現影響學生畢業論文成績主要的因素不是指導教師的職稱,學生的基礎及感興趣程度,而是指導教師的學歷高低。根據具體分類規則的結論,學校教學管理工作應加重對教師的素質及能力培養,合理的分配每個教師的畢業論文指導工作,不僅能夠有效的完成畢業課題指導工作,更有助于學生整體論文質量的提高。
在高校教學數字化的時代趨勢下,利用數據挖掘技術來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質量和學生的綜合素質,是高校保持良好的可持續發展的有力工具。
參考文獻:
[1] 劉玉文.數據挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統中的應用[J].計算機應用研究,2005(2):150-154.
1.引言
計算機網絡技術的普及與應用給人們的生活帶來了翻天覆地的變化,同時在網絡上產生了大量雜亂無章的數據。而網格技術、Web技術的發展,為人們從分布的網絡資源中尋找有價值的信息提供了新的技術支持,同時也產生了許多基于網格的數據挖掘系統。而數據挖掘算法又是決定一個數據挖掘系統性能的主要衡量指標。任何軟件系統的設計都離不開算法,數據挖掘技術的執行效率也與數據挖掘算法有關,隨著數據庫技術與數據挖掘技術的成熟與發展,像分類、聚類、決策樹、關聯等等數據挖掘算法已相當成熟,可以研究借鑒現有數據挖掘方法、數據挖掘模式、數據挖掘流程,建立一個基于網格的數據挖掘系統。筆者以眾多數據挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發工具包(Java Web Service Core))的數據挖掘算法的設計過程。
聚類分析(Clustering Analysis)是一個應用比較廣泛的數據挖掘算法,算法的理論研究與實踐應用都已經很成熟,把這一成熟的理論應用于基于網格的分布式系統中,會大大提高數據挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應用于基于GT4數據挖掘系統中。
2.系統結構設計
基于GT4數據挖掘系統的數據源是分布式數據源,分布式數據源是指在物理上分布而邏輯上集中的數據源系統。在該系統中,處在這個網格中的每臺計算機就是這個網格的一個節點,稱之為網格節點。在眾多的節點中,要有一個網格節點來控制和管理其他的節點,這個節點就叫做網格中心控制節點,決策支持都是由網格中心控制節點完成的。如果要完成某個數據挖掘任務,則可以由空閑的網格節點先按挖掘需求來完成本節點的挖掘任務,再由網格中心控制節點來匯總每個節點的數據挖掘情況。局部網格節點管理的信息具有局限性,涉及的范圍較小,主要完成單個節點數據的管理,對局部的數據挖掘結果進行匯總分析,但是這些局部節點的數據與全局節點的數據又是有一定關聯的。根據以上的分析可知,網格平臺下的數據挖掘任務由全局數據挖掘與局部數據挖掘共同完成。
3.算法的Web Service設計
3.1 全局聚類算法的Web Service設計
網格環境下的全局控制網格節點與局部網格節點間的關系我們可以理解為上下層的關系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節點當成是層次聚類的頂層。本課題全局聚類算法借鑒傳統的利用代表點聚類算法CURE。
CURE算法將層次方法與劃分方法結合到一起,選用有代表性的、固定數目的空間點來表示一個聚類。算法在開始時,每個點都是一個簇,然后將距離最近的簇結合,一直到簇的個數為要求的K。首先把每個數據點即局部網格節點看成一個聚類,然后再以一個特定的收縮因子向中心收縮它們。
CURE算法的主要執行步驟如下:
(1)從數據源樣本對象中隨機抽取樣本集,生成一個樣本集合S;
(2)將樣本集合S分割為一組劃分,每個劃分大小為S/p;
(3)對每個劃分部分進行局部聚類;
(4)通過隨機采樣剔除聚類增長太慢的異常數據;
(5)對局部聚類進行聚類,落在每個新形成的聚類中的代表性點,則根據用戶定義的收縮因子收縮或移向聚類中心;
(6)用相應的標記對聚類中的數據標上聚類號。
有了數據挖掘算法,就可以完成數據挖掘任務了。全局聚類算法的主要功能是響應用戶的數據挖掘請求,將對應的請求發送給局部網格節點,將局部網格節點的挖掘結果整理輸出。全局聚類算法Web Service資源的結構包括算法Web Service接口、算法資源屬性文檔、算法功能實現和算法功能四個部分。
利用傳統的聚類算法完成全局的數據的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設計要經過過以下幾步:
第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數據挖掘服務接口,該服務接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉為WSDL文件。
第二步:用Java編寫全局聚類算法(CURE)代碼;
第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一個GAR文件;
第五步:向Web Service容器部署全局數據挖掘服務。
3.2 局部聚類算法的Web Service設計
局部聚類算法的主要功能是完成局部網格節點的數據挖掘任務,并把數據挖掘結果上傳到全局控制節點。局部網格節點的數據挖掘任務與傳統的單機數據挖掘任務類似,本課題局部聚類算法使用傳統的聚類算法K-平均方法,以K為參數,把N個對象分為K個簇,簇內具有較高的相似度,而簇間的相似度較低[34]。本論文的數據挖掘任務主要是由局部網格節點實現的,下面就詳細的介紹K-平均算法的主要執行過程如下:
(1)從數據集中任意選擇K個對象作為各個簇的初始中心。
(2)根據現有的簇中心情況,利用距離公式計算其他對象到各個簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。
(3)根據所得各個對象的距離值,將對象分配給距離最近的中心所對應的簇。
(4)重新生成各個簇的中心。
(5)判斷是否收斂。如果收斂,即簇不在發生變化,那么停止劃分,否則,重復(2)到(5)。
K-平均算法是一個經典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設計,部署方法與全局算法相似。
4.結論
基于GT4的數據挖掘系統中的數據挖掘服務資源有網格的中心控制節點(即全局節點)進行統一的管理,在局部網格節點挖掘過程中,根據其處理能力分配最佳的數據集給局部節點,從而使整個系統的計算負載相對均衡。其數據挖掘系統的規??呻S著服務的多少動態伸縮。當系統要增加新的局部挖掘節點時,只需部署局部Web Service資源即可。將網格應用到分布式數據挖掘系統中,建立一個基于網格的數據挖掘系統,必將使其在各個領域都得到廣泛的應用。
參考文獻
[引言]隨著我國信息技術的進步,數據挖掘技術得到廣泛應用,在軟件工程中需要對數據信息進行搜集、分類與整理,通過數據挖掘技術的應用可以有效提高工作效率,推動軟件工程的有序發展。我國對數據挖掘技術的應用與研究雖然處于初級階段,但通過不斷的經驗積累也能夠發揮技術的更多價值。
1數據挖掘技術概述
數據挖掘技術指的是在信息技術發展背景下,對信息數據展開處理的技術。與過去的信息處理技術相比,數據挖掘技術功能更加強大,可以應用在各個領域,無論是數據處理、數據轉換還是數據分析,都能夠完成相互之間的聯系,并對數據進行最終評估。將數據挖掘技術應用在軟件工程中,能夠提高企業處理信息數據的效率,避免操作失誤,保護企業數據準確[1]。
2數據挖掘技術在軟件工程中的重要性分析
2.1高效整合多樣化信息數據
由于數據挖掘技術的功能比較多,其中包含了傳統處理技術的功能,實現多樣化信息的收集與分類,并將數據按照類別存儲與整理。數據挖掘技術可以在多樣化數據中實現數據的系統化管理,為人們進行數據查閱工作帶來方便。在軟件工程中應用該技術,方便信息數據的高效整合,幫助企業全方位了解信息與數據[2]。
2.2保證信息數據的準確率
數據挖掘技術擁有強大數據運算功能,以往的數據信息系統運算數據時需要耗費大量時間與成本。如果信息數據體系龐大,系統運算時會面臨癱瘓問題。在軟件工程中,一旦系統發生癱瘓,系統將無法正常使用,數據也會受到破壞。應用數據挖掘技術之后可以有效解決以上問題,實現系統的優化,使系統可以在最短時間內處理數據,防止信息數據發生丟失現象,提高數據處理的時效性。面對大量的信息數據,有的數據得不到利用,但長期處于系統中會影響系統運行效率,應用數據挖掘技術可以將無價值的數據剔除,留下有用的信息數據,保證系統的運行效率和數據質量。
2.3縮短信息數據處理時間
在軟件工程中應用數據挖掘技術可以分類處理雜亂無章的數據,實現數據的轉換與調用。對數據進行深入挖掘處理時也可以應用數據挖掘技術進行數據的分類,并對模糊數據及時清理,提高系統內現存數據的實用價值。人們獲取到的信息數據需要進行反復核對,以此保證數據真實性,通過數據挖掘技術的應用減少時間浪費,提高數據核對效率。
3數據挖掘技術在軟件工程中的應用分析
3.1系統結構
數據挖掘技術應用流程主要分為三個階段:數據預處理、數據挖掘、模式評估與知識表示。在數據預處理階段中,高效得到原始數據的根本原因在于確定任務處理對象,得到符合軟件工程需求的數據。通過數據清洗彌補原始數據存在的缺陷,確保數據的完整性。數據抽取需要從數據庫中選擇與軟件工程任務相符合的信息。數據轉換需要將數據格式加以轉化,實現數據的適用性。在數據挖掘中需要制定一定的挖掘任務,通過對數據的分類與評價總結,合理應用運算方法進行數據推敲。在模式評估與知識表示中,其實際用途在于挖掘成功的表達,將興趣度作為衡量標準,提高數據表達的識別能力。
針對軟件工程中數據挖掘技術的優化應用,可以從系統結構方面入手,具體如下:(1)檢測軟件工程中的克隆代碼。以軟件工程為標準,將一部分代碼復制,結合實際情況更改一部分代碼,并對這些代碼進行檢測,代碼檢測與更改可以同時進行,能有效提高檢測效率,實現系統的維護工作。當前應用數據挖掘技術進行克隆代碼檢測的方式一共有四種,具體為比較標識符、對比文本、檢測系統程序結構與度量圈。在實際操作中,要求人們結合實際情況選擇相應的克隆代碼檢測方法。(2)數據信息挖掘法。這是以橫切關注點為主的挖掘方法,在軟件工程中應用該方法可以改造系統,對數據信息達到良好的處理效果[3]。
3.2軟件管理
為了讓數據挖掘技術更好地應用在軟件工程中,需要從軟件管理角度入手,采用以下兩方面舉措。一方面,深入挖掘數據的組織關系,另一方面,挖掘版本控制信息。軟件工程系統比較繁瑣,挖掘組織關系時較為困難,人們需要合理調配各項信息,以此作為挖掘的依據。如果以軟件工程管理流程作為主題,對電子郵件與共享文件展開組織關系挖掘,可以有效避免系統流程發生混亂,保護軟件管理的秩序。當信息數據發生變化時,應用數據挖掘技術進行軟件管理,將版本控制作為重要依據,將數據挖掘技術與版本控制相聯系,降低系統運行成本,并達到警示的效果,提高軟件工程的管理水平。
3.3軟件開發
在軟件工程初期階段,人們將數據挖掘技術看成數據庫,隨著技術的發展,軟件工程發展到現實應用,系統和現實共同發展。軟件工程將各項指標與要求緊密結合,研發出最新產品,以往的軟件工程中軟件開發十分困難,而如今應用數據挖掘技術,可以將其與數據庫相融合,發揮數據庫內信息的最大價值,有效推動軟件開發的進步。不僅如此,軟件工程可以對信息進行更深層次的挖掘,充分發揮軟件工程的價值,利用數據挖掘技術實現數據的更新,保證軟件開發質量,優化軟件操作流程。在技術的支持下,人們可以合理劃分軟件內部,方便及時發現問題,并展開積極有效的問題處理。利用數據挖掘技術可以進行網站設計,對網站內容進行挖掘,特別是對文本內容的挖掘,隨后整合網站信息,通過自動歸類技術實現信息的層次性組織。在軟件或網站管理中,應用數據挖掘技術可以根據用戶對網站的訪問記錄,進行記錄信息挖掘,從中了解用戶對該網站內容的興趣,進而對用戶提供信息推送服務和定制服務,以此吸引更多用戶訪問該網站。
在軟件開發階段,可以使用DataAnalytics輕量級業務數據可視化分析平臺,這是數據挖掘技術的一項成果。該平臺能夠實現異構數據源的高效整合,可以兼容各種數據源類型,支持海量數據??山尤隕xcel/CSV等數據文件、企業各種業務系統、第三方互聯網數據、公共數據服務平臺等來源,輕松整合所有相關業務數據,幫助企業消滅數據孤島。企業利用該平臺可以完成數據的深度交互分析,DataAnalytics基于探索式分析,支持智能推薦圖形與圖表,二者可以協同過濾,幫助用戶快速定位,通過數據挖掘找出問題,以拖拽式操作方法解決問題。
3.4聚類
在數據挖掘技術中聚類指的是對各個環節數據加以分析,結合軟件工程的具體要求實現數據細化,以類型細化作為基礎,為原始數據類型做出保障。通過聚類可以讓同種類型數據具有相似性特點,在存在相似性的同時,也存在一定的差異,突出各自的特點。應用數據挖掘技術實現聚類劃分時,面對的對象無法預測,與其他算法相比,聚類擁有更加廣泛的應用范圍,進行數據分析時更加獨特,挖掘信息數據時可以確保檢測結果的有效性與真實性。
4結論
總而言之,隨著信息技術的深入發展,人們已經步入信息時代,數據挖掘技術也成為對信息數據展開處理和存儲的有效方式。在軟件工程中應用數據挖掘技術,有利于提高軟件開發效率,提升軟件管理質量,加強數據挖掘力度,使數據挖掘技術發揮巨大效果,人們可以應用數據挖掘技術完成數據的聚類和網站設計,為人們的生活帶來便利。
[軟件工程碩士論文參考文獻]
[1]張立鑒.數據挖掘技術在軟件工程中的應用研究[J].網絡安全技術與應用,2019(6):47-48.
[2] http:///f?kz=691510974.
[3] J.M.Kleinberg. Authoritativesources in ahyperlinked environment. Proc.9th ACM-SIAM Symposium on Discrete Algorithms. 1998:668-677.
[4] 李曉明,劉建國.搜索引擎技術及趨勢.大學圖書館學報,2000,(16).
[5] 陳新中,李巖,謝永紅,楊炳儒. Web挖掘研究.計算機工程與應用,2002_13.
[6] 劉軍.基于Web結構挖掘的HITS算法研究.碩士學位論文.中南大學,2008.
[7] 劉悅.WWW上鏈接分析算法的若干研究:(博士學位論文).北京:中國科學院,2003.
[8] A. Blum and T. Mitchell. Combining labeled and unlabeled data with Containing. In COLT:Proceedings of the Workshop on Computational Learning Theory.Morgan Kaufmann Publishers. 1998.
[9] Chakrabarti S, Gerg M, Dom B. Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery. Computer Networks. 1999,31(11):1623-1640.
[10] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search Engine. In seventh International World Wide Web Conference. Brisbane. Australia, 1998.
[11] Haveliwala T H. Topic-sensitive PageRank[C]. Proceedings of the Eleventh International Word Wide Web Conference. Hoho Lulu Hawaii,2002.
[12] 江裕明.基于超鏈接的Web結構挖掘算法的研究.碩士學位論文.西安電子科技大學,2006.1.
[13] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann 2000.
[14] 劉芳芳.Web鏈接分析中HITS算法的研究.碩士學位論文.大連理工大學,2006.
[15] 李秋銳.基于蜜罐網絡的郵件捕獲系統分析與部署[J].信息網絡安全,2012,(01):64-67.
[16] 郎為民, 楊德鵬, 李虎生.智能電網WCSN安全體系架構研究[J].信息網絡安全,2012,(04):19-22.
基金項目:
在電子政務信息建設中已經有了成功的電子政務業務處理和信息管理系統,卓有成效的過程控制指揮系統和辦公自動化系統。但從電子政務全局的高層次和大范圍的分析角度去審視,則感到數據分散,難以整合。因此,研究電子政務數據倉庫和數據挖掘很有必要。
1.電子政務信息建設的數據倉庫
電子政務數據倉庫是電子政務信息架構的新焦點,它提供集成化的和歷史化的電子政務業務數據;它集成種類不同的電子政務應用系統;電子政務數據倉庫從事物發展和歷史角度來組織和存儲電子政務數據,以供信息化和分析處理之用。它是對現有電子政務信息系統深刻認識的結果,來自異地、異構的電子政務數據源或數據庫的數據經過加工后在電子政務數據倉庫中存儲、提取和維護。傳統的電子政務數據庫主要面向業務處理,而電子政務數據倉庫面向復雜數據分析、高層決策支持。電子政務數據倉庫提供來自種類不同的電子政務應用系統的集成化和歷史化的數據,為全局范圍的電子政務戰略決策和社會治安長期趨勢分析提供有效的支持。免費論文參考網。目前,經過近20年的建設,全國電子政務信息系統建設已經積累了大量數據,對于電子政務工作起了意義深遠的推動作用,電子政務工作已經初步進入了數字化、電子化、信息化,極大地提高了電子政務工作的效率。以土地管理為例,現在的管理方式是以前不能比擬的。但是,如何將這些數據用于全局范圍的戰略決策和長期趨勢分析,則是需要進一步解決的問題。例如,土地問題,近年來始終與住房問題、物價問題和就業問題一起,成為全國人民非常關心的問題,其問題有表面的原因,也有深刻的歷史原因和現實原因。如何花較少的代價,將此問題解決得圓滿一些,建設電子政務數據倉庫是一重要手段。免費論文參考網。
電子政務數據倉庫是一種全新的分布式異構數據系統的集成方法:把各個信息源中與決策支持有關的數據,預先經過提取、轉換、過濾,并與相應信息源中其它數據進行合并,按主題存放在一個中央數據庫中,當用戶需要查詢時,可以直接訪問中央數據庫,不必訪問其它數據源。
電子政務數據倉庫包括3個基本的功能部分。數據獲?。簭碾娮诱找痪€數據源獲取數據,數據被區分出來,進行拷貝或重新定義格式等處理后,準備載入電子政務數據倉庫。數據存儲和管理:負責電子政務數據倉庫的內部維護和管理,包括數據存儲的組織、數據的維護、數據的分發。信息訪問:屬于電子政務數據倉庫的前端,面向用戶------提取信息、分析數據集、實施決策。進行數據訪問的工具主要是查詢生成工具、多維分析工具和數據挖掘工具等。
電子政務數據倉庫的特點:針對全局電子政務業務戰略分析,非常詳細的數據,第三范式數據結構,高層次和大范圍的分析,詳細的歷史信息,存儲和管理大量的數據,整個數據結構統一,索引較少。
因此,原來對分布式異構數據的復雜訪問變成直接在該倉庫上進行即席查詢的簡單操作:用戶需要某些指定信息和快速查詢,但不一定要最新信息,在這個環境中需要高性能和訪問信息源中不能長期保存的信息。
電子政務數據倉庫是一個比傳統解決方法更為有效的集成技術,即對感興趣的數據及其變化預先提取并按公共模式集成到一個中央數據庫中,由于分布和異構問題被提前解決,用戶可以在中央數據倉庫上進行高效的查詢或分析。
由于電子政務數據倉庫的體系結構,必須照顧電子政務已有的信息系統的體系結構,以及相關的基礎設施,因此,確定電子政務數據倉庫的體系結構,必須兼顧用戶需求的多變性、基礎設施的復雜性、技術更新的步伐。數據倉庫本身可以使用通用的或者特別要求的數據庫管理系統來實現。盡管在圖中表示的是一個單獨的、中央化的數據倉庫,實際上,為了達到理想的性能,分布式和并行性往往是必然的選擇。
電子政務數據倉庫技術中一些比較重要的問題是:數據倉庫管理,數據源和數據倉庫的演化,復制帶來的不一致,過期數據處理等。電子政務數據倉庫管理涉及電子政務數據倉庫開發的各個階段,與之相關的問題涉及電子政務數據倉庫設計、數據裝載、元數據管理等。數據源和數據倉庫演化,則是研究電子政務數據倉庫體系結構如何順利處理信息源的變化問題,如模式變化、新信息源加入,舊信息源刪除等。復制不一致,是指從各個信息源拷貝來的同一信息或者相關信息出現的不一致,一般用集成器對這些數據進行清理。對于電子政務數據倉庫中的數據,可能會保存很多年,但是一般不會永遠保留下去,這就要求研究比較可靠的技術以保證過期的數據,可以自動而有效地從電子政務數據倉庫中被清除出去。
2.電子政務數據挖掘一般方法
電子政務部門在過去若干年的時間里都積累了海量的、以不同形式存貯的數據資料,例如戶籍資料、土地資料和規劃管理資料等。此外,電子政務工作所涉及到的數據類型是相當復雜的,例如:用地指數,其特征抽取相當復雜;土地配置規律特點,其數據聯系是非平面的,也是非標準立體的。由于這些資料十分繁雜,要從中發現有價值的信息或者知識,達到為決策服務的目的,成為非常艱巨的任務。電子政務數據挖掘一般方法的提出,讓用戶有能力最終認識數據的真正價值,即蘊藏在數據中的信息和知識。
電子政務數據挖掘是按照既定的電子政務業務目標,對大量的數據進行探索、揭示隱藏其中的規律性并進一步將其模型化的先進、有效的方法。數據是按照電子政務數據倉庫的概念重組過的,在電子政務數據倉庫中的數據、信息才能最有效的支持電子政務數據挖掘。因此,首先從正在運行的電子政務計算機系統中完整地將數據取出;其次各個環節的數據要按一定的規則有機、準確地銜接起來,以極易取用的數據結構方式,全面地描述該業務目標。
電子政務數據挖掘就是從大量的、不完全的、模糊的、有噪聲的、隨機的數據中,提取隱含在其中的、事前不知道的、但是潛在有用的信息和知識的過程。電子政務數據挖掘技術是面向應用的,不僅面向特定數據庫的簡單檢索和查詢調用,而且要對這些數據進行微觀和宏觀的分析、統計、綜合和推理,從中發現事件間的相互關系,對未來的活動進行預測。
3.基于電子政務數據倉庫的數據挖掘
基于電子政務數據倉庫的數據挖掘的方法,是以電子政務數據倉庫為中心,各信息源由原始數據庫,經過打包和集成到電子政務數據倉庫;基于電子政務數據倉庫的數據挖掘,是通過模型庫和方法庫的協助,對電子政務數據倉庫進行數據挖掘,從而獲得分析預測結果和決策支持的。
基于電子政務數據倉庫的數據挖掘的特點:1、規模: 電子政務數據倉庫中集成和存儲著來自若干分布、異質的信息源的數據。免費論文參考網。這些信息源本身就可能是一個規模龐大的電子政務數據庫,可以想象數據倉庫會有比一般數據庫系統更大的數據規模。如何從如此巨量的數據中有效的提取有用信息,需要各方面技術的進步。從當前發展來看,支持并行處理的分布式DBMS、具有大規模并行處理(MPP)能力的計算機、超大規模的存儲機構等技術的發展和協同將使電子政務數據倉庫走向實用。2、歷史數據:傳統的電子政務數據庫系統為了獲得最大的執行效率,往往存儲盡可能少的數據量。因為,擁有的數據越多,數據組織、重構、瀏覽、索引和監控的難度越大。傳統電子政務數據庫系統在“時間”方向的長度很有限。比較而言,電子政務數據倉庫的根本特征之一就是進行長時間的歷史數據存儲,這使得可以進行數據長期趨勢的分析。電子政務數據倉庫為長期決策行為提供了獨一無二的支持,電子政務數據倉庫中的數據在時間方向上具有大的縱深性。3、數據集成和綜合性:從全局的角度看,數據倉庫集成了電子政務內各部門的全面的、綜合的數據。電子政務數據挖掘面對的是關系更加復雜的全局模式的知識發現,能更好地滿足高層戰略決策的要求。在電子政務數據倉庫中,數據已經被充分收集起來了,進行了整理、合并,有些還進行了初步的分析處理。另外,電子政務數據倉庫中對數據不同粒度的集成和綜合,更有效地支持了多層次、多種知識的挖掘。4、查詢支持 電子政務數據倉庫面向決策支持,電子政務數據倉庫的體系結構努力保證查詢(Query)和分析的實時性。電子政務數據倉庫設計成只讀方式,用戶可以直接訪問電子政務數據倉庫,挖掘過程可以做到實時交互,使決策者的思維保持連續,挖掘出更深入、更有價值的知識。
電子政務數據倉庫和數據挖掘是將來電子政務智能化的基礎,可以幫助用戶得到他們想知道的信息,有些數據也許隱藏人們意想不到的信息,數據挖掘就是讓用戶發現這些隱藏信息的工具。電子政務數據倉庫和數據挖掘研究和應用所面臨的主要問題:挖掘的對象:更大型的數據庫、更高的維數和屬性之間的復雜關系;多種形式的輸入數據;用戶參與和領域知識的融合;證實(Validation)技術;知識的表達和解釋機制;知識的更新和維護;多平臺支持、與其他系統的集成。
中圖分類號TP3 文獻標識碼A 文章編號 1674—6708(2012)76—0209—02
近幾年來,隨著數據庫技術的不斷發展,數據挖掘引起了信息產業界和整個社會的極大關注。因為人們所擁有的數據量在不斷的增長,這就對數據的管理和分析提出了更高的要求,急需新的技術從大量的信息中提取或“挖掘”知識,于是數據挖掘(Data Mining)技術被受人們關注和使用。
1 數據挖掘技術定義
數據挖掘技術是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在大多數情況下,人們只知道儲存數據,數據越來越多,可是不知道數據中存有很多重要的信息,數據挖掘就可以從這大量的數據中搜索出重要的信息。
2 數據挖掘常用的方法
1)決策樹。決策樹方法是把數據分類,構成測試函數,建立樹每一層分支,重復下去就構成了決策樹。在構造決策樹時,樹盡可能精度高,規模小。商業銀行在對風險決策時經常用此方法;
2)人工神經網絡。神經網絡方法引用生物神經網絡的方法,就好像人的神經網絡,它連接輸入、輸出信號的樞紐。它在很大程度上模擬人腦的神經系統處理信息。人工神經網絡具有四個基本特征:非線性、非局限性、非常定性、非凸性。用人工神經網絡方法建立的模型具有很強的非線性擬合能力,學習規則簡單,控制能力強等優點;
3)遺傳算法(Genetic Algorithm,GA)。遺傳算法是模仿達爾文生物進化的自然選擇和遺傳機制的一種尋優算法。群體中的所有個體為研究對象,利用隨機化技術搜索編碼,然后分別利用選擇、交叉和變異這三個基本遺傳算子對其進行遺傳操作就能尋找到問題的最優解或者是最滿意解。遺傳算法的優點是過程簡單,具有隨機性,可擴展性。實用。在很多領域得到了很大的應用。缺點是編程比較復雜,需要對問題進行編碼,找到滿意解后還要對問題解碼。算法速度比較慢,對初始種群的選擇有依賴性等缺點;
4)聚類算法。聚類算法可以說是多元統計研究“物以類聚,人以群分”的一種方法,主要任務是發現大型數據中的積聚現象。聚類分析是把相似特征的樣本歸為一類,類內差異差距較小,類間距差距較大。聚類算法在好多領域有應用。在商務上,根據客戶不同的消費模式進行分類,對客戶進行劃分,幫助商家獲得更多利益。在生物學中,對動植物進行分類,了解各自的基因特征。聚類的算法也比較多,例如:基于模糊的聚類方法、基于粒度的聚類方法、量子聚類、核聚類、譜聚類,這些是新發展的聚類算法。還有常用的聚類算法—BIRCH算法、K—MEANS算法、均值計算方法等。
3 數據挖掘的應用
數據挖掘技術在好多領域有應用。例如:金融業、通訊、教育、政府管理部門等等行業。1)金融業。例如:金融事務需要搜集和處理大量復雜的數據,許多銀行和金融機構提供多種多樣的投資服務(如共同基金)、信用服務(如個人信用卡)和銀行服務(如個人存款)。由于交易的頻繁性、信息的不對稱性和復雜性,必須從海量數據中挖掘信息,金融數據挖掘技術可以幫助銀行系統查詢客戶以往的需求情況并預測未來;可以分析潛在的信譽較差的客戶,及時采取措施減少資產損失;2)通訊業。例如:現今通信業務可以說是五花八門,多種多樣,適合不同需求的人群。要想退出新業務,創效益。就必須先確定可能要試用此項業務的客戶特征。確定完成后先讓小范圍的客戶試用此項業務,當他們試用一段時間后,對客戶的反饋信息進行分析,修改更新,反復這樣下去,直至此項業務成熟后,推廣進入市場。那如何從大量的客戶消費數據中得到這些客戶特征,這就需要數據挖掘技術對客戶進行詳細的深層次的分析,得到有效的,準確的數據;3)教育部門。例如:高校的招生可以說是任何一個高校的大事,招生好壞直接影響學校的生存。專業計劃的是否合理,就直接影響招生。我們需要對大量的招生錄取信息和就業信息進行分析,數據挖掘技術就可以從這些信息中提取重要的信息預測未來的專業計劃如何投放,每個專業投放多少比較合理,不至于計劃浪費;4)政府管理部門。隨著社會的不斷進步,政府部門內部以及部門之間擁有了大量的政務信息,要想掌握有效,準確的政務信息,我們可以利用數據挖掘中的決策樹方法,從大量的政務信息中提取準確有效的信息,大大提高整個電子政務的智能化水平??梢酝ㄟ^對網絡各種經濟資源的深度挖掘,確定未來的經濟形勢,從而可以指定出合理的宏觀調控政策。為社會經濟提供有力的可靠的拐杖。
4 數據挖掘未來的展望
數據挖掘的應用越來越廣泛,人們對數據挖掘技術的需求水平也就越來越高。它可以預測未來的發展趨勢,所以今后研究焦點可能會集中到處理非數字數據;尋求數據挖掘過程中的可視化方法,便于在知識發現過程中的人機交互,使計算機真正實現智能化。這可能需要一段時間,需要計算機工作者的不斷的研究探索,可能需要很大的努力。但我相信,不久的將來我們會看到數據挖掘據技術很大的進展。
參考文獻
[1][加]Jiawei Han Micheline Kamber著.范明,孟小峰譯.數據挖掘概念與技術[M].機械工業出版社.
[2]陳曉燕.遺傳算法在數據挖掘中的應用[J].瓊州學院學報,18(2).
[3]周明華.近代算法在工程領域中的應用研究[D].浙江大學博士學位論文,2005,1.
[4]曾令明,金虎.基于遺傳算法的雙向關聯規則挖掘[J].微電子學與計算機,2006(23):35—37.
[5]周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用, 2012,48(12).
1 當前很多高校學生的成績管理面臨的問題
目前大部分高校教務管理系統是采用聯機的事務處理系統對學生成績進行管理,成績數據只能簡單地存儲于數據庫中,而對數據的處理也停留在單純的數據查詢和插入修改等功能上,僅有的對成績的分析可能也只是求總和、平均值、均方差和合格率等之類的統計。教務管理系統中的數據單純的保存了相關數據信息而沒有能夠挖掘出這些數據背后所隱藏的可能有用信息——例如學生每門課程取得的成績的可能原因、每門課程的諸多知識點之間以及課程和課程之間的聯系。龐大的數據庫里數據和數據之間存在著很多的關聯,我們如何充分利用這些數據關聯,為高校教育教學決策者提供一定的決策依據,從而科學的指導教學,提高高校的教學及管理水平,進一步提高辦學效益和水平,是目前高校需要去面對和解決的問題。
2 利用數據挖掘技術管理學生成績
數據挖掘技術就是從大量的、有噪聲的、不完全的、隨機的、模糊的應用數據中來提取隱藏在其中的潛在并且十分有用的信息過程[2]。利用數據挖掘對存儲在高校成績數據庫中的學生成績數據信息進行全面的深層次的分析和挖掘,達到全面地分析成績數據的優劣及產生原因、各種因素之間隱含的內在聯系的目的。挖掘分析這些數據所隱藏的有用信息,找到對指導教師教學和學生學習有用的知識,幫助高校管理者對未來高校的發展進步的決策。由此可見,數據挖掘技術一定會在教師提高教學質量、學生增加學習效率和學校強化管理水平等方面起到至關重要的引導作用[3]。
第一,使用計算機對高校學生成績進行信息管理相對于傳統管理方法有著十分明顯優勢:在現代的互聯網時代,信息的管理早已經超越傳統概念,使用計算機存儲量大且成本低,可以長久保存,同時對信息的檢索更迅速也更方便,結果的可靠性也是傳統管理方法不可比擬的,這些也正是高校管理正規化和教育單位的科學化所必需的。
第二,學生成績管理系統對于任何一個教育單位來說都是一個不可或缺的組成部分。它對于高校的管理者的辦學思路的抉擇來說是至關重要的。高校的成績管理系統不僅應該做到為用戶提供方便快捷的查詢手段還用改能夠提供充分的信息量以滿足不同用戶的不同查詢需求。學生可以通過這個系統方便的查找自己到各門課的考試成績及其他的教學相關信息;教師也能夠通過系統提供的查詢和分析工具非常準確的掌握學生的成績變化,及時獲取教學效果反饋信息,改進教學方式方法等;對高校的管理者來說,運用了最新的數據挖掘技術的學生成績管理系統也可以讓他們更及時快捷的從海量的數據中找到有用的信息,從而為不斷提高高校的辦學質量和管理水平提供保障。
3 學生成績管理系統的設計
3.1數據挖掘的過程
數據挖掘是一個多階段的復雜過程,如圖1所示直接數據目標數據凈化數據數據源知識數據選擇清理與集成數據轉換數據挖掘模式評價數據預處理數據挖掘解釋和評價。
主要分為以下六個主要步驟[4]:
1)確定數據源。數據源的確立是整個系統的基礎,是挖掘結果準確的保證。對學生成績信息進行數據挖掘時,面向對象是各類不同的學生,例如教務處要挖掘的信息是面向全校學生的成績,從而掌握全校學生的學習情況,而每個系所要掌握的學生的學習情況是針對本系的學生來說的,所以要挖掘的對象也只是每個系學生的成績信息。他們面向對象和數據挖掘的目的都是不同的;
2)選定模型。為所挖掘的問題選擇恰當的數據挖掘方法,并且針對該挖掘方法選擇幾種或是一種的算法。選擇何種算法將直接影響挖掘信息的質量;
3)采集數據。這個階段在整個開發過程中將會占用開發者大部分的工作量和時間。因為開發者需要收集在以往的教學實踐中的數據信息,這些信息中,有些數據他們可以以直接的方式獲得,而有些數據可能需要對學生以問卷調查等形式獲得。
4)數據預處理。開發者在這一步需要將收集到的大量的不同的數據預處理,使其為一個分析數據模型;數據預處理是數據挖掘很重要的一步,數據只有經過預處理才能提高挖掘對象的質量;
5)數據挖掘。算法在這一步得到具體的實現,開發者將對經過預處理的數據信息進行挖掘;
6)解釋和評價。分析和驗證上一步的挖掘結果,并從中找到有價值的信息,將其集成到教師的教學環節和學生的學習環節中去,使教師和學生可利用所得信息改進教和學的策略,指導學生進一步更好的學習。
3.2數據挖掘的方法
在實際應用中需要根據對信息的實際需求選擇恰當的挖掘算法。通過對幾種常用的數據挖掘方法進行比較和分析,本文選擇了以下兩種適合的算法:關聯分析方法以及決策樹分類方法。
1)關聯分析
利用關聯分析對數據進行挖掘的目的就是挖掘出隱含在數據之間的關系。首先給定一組或一個記錄的集合,然后,通過分析此記錄集合從而推導出信息之間的相關性[5]。一個適用于關聯規則的最有說服力的例子就是“90%客戶在購買黃油和面包的同時也會選擇購買牛奶”,即:規則“購買黃油和面包也會同時購買牛奶”的信息可信度高達90%。在大型的數據庫系統中,類似的關聯規則會產生很多,因此需要開發者進行篩選。一般來說,我們會采用 “可信度”和“支持度”這兩個閩值去淘汰一些沒有太多實際意義的規則。
關聯規則算法主要 有以下兩個步驟:第一步要求開發者查找出所有的頻繁項集。頻繁項集就是指其支持度大于或是等于最小支持度的那些項目集。第二步是指由頻繁項集所產生的強關聯規則,即所產生的以上規則一定要滿足最小置信度和最小支持度[6]。
在實際教學中應用關聯分析的數據挖掘方法對學生成績信息進行分析和處理,研究課程的開設先后關系以及各門課程的成績相關性,分析的結果將對一些課程的教與學提供很多有用的信息,使高校的教學工作邁上一個新的臺階。
2)決策樹算法對學生成績的分析
決策樹算法是以實例為基礎的歸納學習算法,用來形成數據挖掘的預測模型和分類器,同時可以對大量未知數據進行預測或分類、數據的預處理以及數據挖掘等。通常包括兩部分:樹的生成和樹的剪枝[7]。
使用決策樹算法來提取分類規則時,規則使用以“if——then”的形式表示。決策樹算法和其他算法相比具有以下的優勢:處理速度較快;從結果上來說,分類準確率也更相近,算法更容易轉換為SQL語句。
4 結論
利用數據挖掘技術進行高校學生的成績、心理分析和德育評估、教學及管理決策、教學質量評估等,能夠為學生、教師以及教學管理人員等用戶提供相應的數據信息支持,對教務管理和教學過程有著極為重要的指導意義,同時也為高校教與學、管理與決策的服務提供了一種新的思路。
參考文獻
[1]劉春陽,數據挖掘技術在高校成績管理中的應用研究,學位論文大連交通大學,2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]劉軍.決策樹分類算法的研究及其在教學分析中的應用[D].河海大學,2006.
[4]鄧景毅.關聯規則數據挖掘綜述[J].電腦學習,2006(3):2-3.
數據挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,也就是從大型的數據庫數據中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,數據挖掘技術也是現在智能理論系統的重要研究內容,已經開始被應用于行政管理、醫學、金融、商業、工業等不同的領域當中,在保護設備故障信息管理方面發揮出了積極的作用。
一、數據挖掘技術的概念
隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,主要是指從大量的數據中發現和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,當前數據挖掘技術已經逐漸被應用于了醫藥業、保險業、制造業、電信業、銀行業、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數據可以被廣泛地存儲在不同的數據庫當中,如果依然采用傳統的數據處理方法來對這些海量的信息數據進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數據,同時,盡管智能診斷以及專家系統等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數據挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發揮其獨特的優勢。wWW.133229.Com從不同的角度進行分析,數據挖掘技術可以分為不同的方法,就目前的發展現狀來看,常用的數據挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數據挖掘技術在保護設備故障信息中的實現方法
1.基本原理。在設備出現故障時采用數據挖掘技術對設備進行一系列的故障診斷,也就是說根據這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數據挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數,既要包括機器在正常運行以及平穩工作時的信息數據,也應當包括機器在出現故障時的一些信息數據,在現場的監控系統中往往就會存在著相應的正常工作狀態下以及出現故障時的不同運行參數,而數據挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通常可以借助概率統計的方式,在對故障模式進行識別時可以采用較為成熟的關聯規則理論,實現變量之間的關聯關系,并最終得到分類所需要用到的一些規則,從而最終達到分類的目的,依據這些規則,就可以對一些新來的數據進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數據挖掘技術保護設備故障信息管理的基本功能
1.數據傳輸功能。數據挖掘技術保護設備故障信息管理與分析系統的主要數據來源就是故障信息的分站系統,而分站系統中的數據是各個子站的一個數據匯總,而保護設備故障信息管理與分析系統所采用的獲取數據的主要方式就是一些專門的通信程序構建起系統與分站之間的聯系,將分站上的一些匯總數據傳輸到故障信息系統的數據庫中,分析系統所具有的數據傳輸功能,在進行數據的處理時又能做到不影響原先分站數據庫的正常運行,并且具備抗干擾能力強、計算效率高的優點。
2.數據的分析功能。系統在正常運行時,會從故障信息子站或者是分站采集相關的數據并且對這些采集到的數據進行分析整理,最終得到有用的數據信息,利用數據挖掘技術對龐大的故障數據進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數據挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現查詢后的備份轉存等,根據故障信息系統所提供高的數據信息以及本系統庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業自動化程度的不斷提高以及數據庫技術的迅速發展,很多企業在一些重要的設備方面都安裝了監測系統,對設備運行過程中的一些重要參數和數據進行采集,采用數據挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數據挖掘系統充分應用到監控系統中,有效解決故障診斷中的一些困難,事實證明,將數據挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數據挖掘技術的保護設備故障信息管理與分析系統[j].電力自動化設備,2011,9
一、引言
隨著我國高等教育的改革和發展,高校進入大規模舉債辦學的階段,高校財務面臨的局面越來越復雜。高校不僅有基礎建設、事業單位經費收支,還涉及到科研經費、校辦企業投資等,高校一旦發生財務問題,影響的不僅僅是高校本身,更會引發各式各樣的社會問題,因此需要對影響高校正常運行的各種財務問題進行實時有效的監控。
傳統的財務分析方法單純以財務報表為基礎,就多個指標進行分析,也就是單純地看最近一年或幾年,或者某個院系的指標。與這些靜態的分析方法相比,把商業智能運用到財務預警系統,即將財務數據和各種外部數據進行收集、歸納、量化(ETL技術)建立數據倉庫,高校財務部門可以通過提取有用的數據經過聯機分析處理工具(OLAP)或數據挖掘工具(Date Mining)結合財務部門的專業知識進行分析,轉化為對高校財務分析有用的信息,從而為高校財務提供一個動態的風險預警方案??偠灾瑢⑸虡I智能運用于高校的財務分析系統,可以根據不同的決策層靈活地展現財務分析結果,也可以連續分析財務問題,還可以與高校其他院系聯合在一起進行綜合分析。
二、高校財務指標體系的構建
高校財務指標是高校財務預警的一個核心,相關學者對高校財務指標體系已經有了一定的研究,本文針對高校過度舉債、資金利用率低等問題,就高校財務指標作了相應的調整,再結合指標選取原則初步建立了有效的高校指標體系。
(一)償債能力
為了反映高校償還債務能力和資產負債水平,選取流動比率、資產負債率、長期負債率、貸款收入比重、利息保障倍數五個指標。
(二)營運能力
為了反映高校的經營狀況選取現實支付比率、潛在的支付比率、公共經費支出比率、投資收益比率、自有資金余額占年末貨幣資金比重五個指標。
(三)發展能力
為了反映高校的成長性以及開源創收的能力,選取凈資產增長率、固定資產增長率、現金凈額增長率、自籌收入比率四個指標。
(四)非財務因素
一些非財務因素也能體現出高校的辦學效率和發展實力,為了全面反映高校的發展狀況選取了師生比、教師人均科研經費和教師貢獻率三個指標。
即使指標選擇嚴謹,這些指標中某些指標間還是有一定的相關性,并且過多的指標會增加信息的收集和整理難度,降低工作效率,所以要對這些指標進行優化。將初選四個方面的所有十七個指標匯總進行正態性檢驗,將服從正態性分布的指標體系進一步做T檢驗,以確定哪些指標具有顯著性作用,篩選出顯著性指標,刪除不顯著的指標;將沒有服從正態性分布的指標體系進一步做非參數檢驗,同理確定這部分指標中的顯著性指標,刪除不顯著的指標,最后匯總所有顯著性指標用于構建高校財務預警模型指標體系。此優化過程不僅解決了預警指標體系的顯著性問題,同時也達到了盡可能降低預警指標體系維度的目的。
三、高校財務預警基于商業智能技術的實現
高校商業智能系統主要包括三部分:高校數據倉庫、多維分析和高校數據挖掘。高校數據倉庫用于存儲有用信息;多維分析可以從不同層面進行全面了解儲存在高校數據倉庫中的信息;高校數據挖掘則是發現問題找規律,并對將來進行預測。高校商業智能實現的大體過程是收集數據,對數據進行清理、轉化,存入數據倉庫,將倉庫數據變為信息,并用OLAP工具、數據挖掘工具對信息進行處理,將信息變為對決策有用的知識。其架構如圖1。
(一)財務數據倉庫的設計
高校數據倉庫的目的是通過對整個高校的相關數據進行梳理,構建一個體系化的數據存儲環境,把大量分散復雜的數據轉化成集成的、統一的信息,將正確的信息方便、準確地傳遞給需要的人。數據倉庫與傳統的數據庫的最大區別在于傳統的數據庫是未經整理的一堆雜亂數據,而數據倉庫是經過整理、規劃過的系統數據庫的子集合。數據倉庫可以使高校面對大量的錯綜復雜的數據進行靈活的處理,為內部各個信息使用者提供他們所需要的有效信息。
1.數據倉庫概念模型的設計
數據倉庫的概念模型主要任務是界定系統邊界和確定主題域及內容,星形概念模式是由一個事實表和一組維表組成,是一種多維的數據關系,相對于別的概念模型來說,星型雖然不節省空間,但是操作相對簡單,所以創建高校數據倉庫的概念模型采用星型。
高校各類指標的多維分析是商業智能技術構建高校財務預警的核心問題,所以在設計概念模型時,應選擇財務指標作為數據倉庫的主題,并以這一主題建立事實表,然后從高校財務分析的角度來確定維度,如時間、項目、部門等。各高??梢愿鶕陨淼那闆r來設定維度,文章根據自身了解的情況擬設了六個維度作為介紹:院級單位、項目、部門、指標、往來單位、時間。星型結構設計如圖2。
2.財務數據倉庫邏輯模型設計
邏輯模型主要是根據星形維度的選擇,構建維度的層次關系,層次關系以高校相關人員對信息的需求為主線,分析各維度的層次關系以及粒度的劃分、事實表的設計等。比如之前的高校數據倉庫概念模型設計分了六個維度,時間維度就可以從日、周、月、季度、年來進行劃分層次;院級單位可以按一級單位(校),二級單位(院),三級單位(部門)依次劃分;指標可以根據前文中所示的指標類型進行劃分;項目可以按照高校所承接的國家級項目、省級項目以及其他項目類別進行劃分;部門可以按黨委部門、行政部門、教學單位、教輔單位、附屬單位依次劃分;往來單位按照政府、金融機構、企業等進行劃分。
3.財務數據倉庫物理模型設計
物理模型需要確定數據的存儲結構、索引策略、數據存放位置及存儲分配等,主要目的是提高性能和更好地管理存儲數據。
4.數據ETL
ETL包括抽取、轉換、裝載。其中,抽取是將數據從各種原始存放系統(如各種帳套數據和Excel文件)中讀??;轉換是按照預先設計好的規則將數據轉換,使數據格式統一;裝載則是將轉換好的數據導入高校數據倉庫。
(二)基于OLAP技術的財務分析模型實現
OLAP技術(聯機分析處理技術)以數據倉庫為基礎,針對某個特定的主題進行聯機數據訪問、處理和分析,通過直觀的方式從多個維度、多種數據綜合程度將系統的運營情況展現給使用者。OLAP技術的一個重要特點是通過多維交互的方式對數據進行處理,與多維數據組織的數據倉庫相互結合、補充,這些多維分析操作可以使用戶從不同的維度和角度來分析數據,其中主要方法包括切片、切塊、鉆取和旋轉。
而對于已經建立并裝載完成了高校數據倉庫的,可以在此基礎上建立OLAP系統。首先對OLAP的多維數據結構進行設計,包括維度和多維數據集的設計,然后創建維度和多維數據集,可以采用Analysis Service做分析服務器,最后利用SSRS展示查詢數據。高校財務預警正是運用OLAP技術實現各監控指標的多維綜合評價,達到對高校財務數據的實時分析。
例如,通過對高校財務部門的調查研究,發現其需要了解高校不同時間、不同院系的科研收入、教學成果以及償債能力等,那么信息使用者可以在選擇范圍內的維度和量度來進行有意義的組合,還可以從其他不同的角度來了解高校的財務狀況。通過報表展示,可以選擇對不同維度上涉及到的數量進行分析,并找到有價值的信息。高??梢赃x擇“時間”、“各級院”、“償債能力”組成一個三維的償債能力立方體,以表示在不同的時間,各個二級院校的償債能力如何。具體如圖3。
OLAP對于數據的即時處理和分析充分體現出財務分析的時效性和真實性,實現了商業智能技術與財務分析的融合。OLAP通過多維的方式對數據進行了分析、查詢和定制報表。維是人們觀察數據的特定角度,多維分析方式符合思維模式,減少了混淆并且降低了出現錯誤的可能性,它能使用戶多側面、多角度地觀察數據庫中的數據。OLAP可以通過切片、切塊、鉆取及旋轉等操作來分析數據倉庫中的財務數據,以對高校的財務數據進行更透徹形象地分析。
(三)基于數據挖掘技術的財務預警模型的實現
對于已經存在的財務信息,可以利用OLAP技術從不同的維度由高校數據倉庫中獲取,但是高校數據倉庫數據中潛在的、隱藏的關系和信息很難得到充分的體現,以確定高校的財務發展趨勢。因此需要利用數據挖掘技術對它們進行深度的挖掘,構建高校財務危機預警模型。
數據挖掘技術提供了多種財務預警計算方法,如神經網絡算法、邏輯回歸算法、聚類分析算法、決策樹和關聯規則等,在前文已建立數據倉庫的基礎上,可以根據財務預警的具體需要選擇適當的算法構建財務預警模型,分析數據挖掘的結果。具體說,將已經準備好的數據分離到定型數據集中,并生成挖掘模型,通過創建預測查詢,運用測試數據集驗證模型的準確性,以確定是否是性能最佳的模型。當模型確定以后,進行財務預警分析。
鑒于高校財務問題與一般企業的財務問題有著本質的區別,高校財務數據并不如上市公司一樣公開,數據量不豐富,導致成熟的企業財務預警模型很難適用于高校,所以本文認為數據挖掘方法中的灰色關聯計算方法更適合高校財務預警。運用灰色關聯的數據挖掘技術進行財務預警相對于傳統的財務分析方法能夠消除數據的噪聲,將非標準的數據標準化,在應對高校面臨的外部環境多變的形勢下,運用該項技術是必要的。具體做法是首先將數據從數據倉庫中提取出來,然后對數據進行處理,如無量綱化,將處理后的數據帶入灰色關聯模型,得出結果并進行分析。具體步驟如圖4。
四、結論
對于高校的財務預警問題,需要一個動態的監控系統來進行實時監控,而商業智能技術能夠促進這一設想的實現。運用商業智能來構建高校財務預警系統可以將潛在的影響高校正常運行的各種財務狀況實時反映出來。數據倉庫技術能夠使高校的數據進行自動的更新存儲,OLAP技術能夠對高?,F有的財務數據進行多維的分析,同時應用數據挖掘技術建立財務預警模型,實現了對高校財務進行動態的監控。
【參考文獻】
[1] 田隆.基于財務數據中心的商業智能平臺設計與實現[D].北京:北京信息控制研究所碩士學位論文,2010.
[2] 陳俊.財務商業智能系統的研究及其實現[D].中國航天第二研究院碩士學位論文,2008.
[3] 丁博.基于商業智能的A央企財務分析系統研究[D].北京:北京交通大學碩士學位論文,2012.
關鍵詞:高校教育教學;數據挖掘技術;運用
一、數據挖掘概述
所謂的數據挖掘,具體指的就是在海量且模糊隨機數據當中提取出隱含其中,同時具有潛在價值的信息與知識過程。將數據挖掘技術應用在教育教學當中,可以對海量數據予以深入挖掘與分析,進而獲得數據當中所隱含的潛在信息內容,更好地為高校教育教學管理人員決策提供有力支持[1]。
二、高校教育教學管理中的數據挖掘技術應用
2.1在教學質量提升方面的應用
高等院校為了更好地提高教學管理的質量,教務管理部門會在學期期末測評學員領導與任課教師的教學思想、態度以及教學方法等,并且根據最終的評分結果來明確教師的教學質量。然而,受評價人員對標準理解以及把握程度的影響,學生評價仍存在隨意性特征。
在這種情況下,導致評分結果很難對教學效果進行真實地反映,因而也影響了教學質量的評估。
但是,將數據挖掘技術應用在教學質量評估方面,通過對關聯規則算法的合理運用,可以將教學質量評價當中的不同指標權重系數進行設定,并通過Apriori的算法來掃描數據集,在數據挖掘的作用下,獲取學歷、年齡以及職稱三者之間存在的聯系,同樣也可以獲得教學質量和方法的關系[2]。
為此,高校教務管理部門就可以將獲得的規律應用在教學管理實踐當中,合理地設置督學小組并制定出聽課制度,將教學課堂教學的質量真實且客觀地反映出來,實現高校教學水平的全面提升。
2.2課程體系結構的有效完善
高等院校教育體系當中的專業建設作用十分重要,所以,必須要具備高質量的課程體系結構設置。在對學生成績數據庫以及畢業生去向數據庫等多種數據信息進行數據挖掘以后,可以通過對關聯分析與序列模式的分析和探究,獲得數據與數據間存在的相關性。
其中,課程間的關系和先后順序亦或是課程和課程體系結構之間的關系等等。在此基礎上,保證學習高級課程前事先學習先行課程。以計算機專業《數據結構》為例,在教學中將《C語言》作為重要的先行課程,以保證學生在學習《數據結構》內容的時候可以具備良好語言基礎,更深入地理解并靈活地應用數據結構當中的算法。
而在完成《數據結構》學習以后,應根據學生就業走向和市場的實際需求來確定是否安排《JAVA語言程序設計》課程教學。這樣一來,學生的學習成績實現了有效地提高,更利于學生未來就業。除此之外,對內容重復的課程進行有效地壓縮,將落后的課程內容適當地刪除,與專業特點相結合。
由此可見,將數據挖掘技術應用在高校教學中,對于專業建設以及課程改革決策具有積極的作用。
三、網絡教學中的數據挖掘技術應用
在網絡教學中應用數據挖掘技術,可以從Web文件以及Web活動當中選擇出用戶較為感興趣的有價值模式以及信息,這就是所謂的Web挖掘[3]。因為接受教育對象在多個方面都存在差異,具體表現在個人學習目標、學習能力與知識基礎的差異等。為此,網絡教學也必須要能夠適應個性化的學習需求??梢园巡煌脩魧W習狀況與軌跡詳細記錄并存放至數據庫當中,通過對WEB挖掘技術的合理運用,在序列模式挖掘的作用下合理地分類文檔,以保證學生信息檢索速度的提高。
另外,也可以根據學生訪問瀏覽的數據挖掘并分析,針對訪問的數據展開聚類分析,以保證更好地了解學生感興趣的內容,并為其推送相關內容。與此同時,可以在相關聯的頁面當中合理地設置超鏈接,對網站結構予以有效地改善,確保頁面間的鏈接與用戶訪問的習慣更吻合。
結束語:
總而言之,在高校教育教學中合理地運用數據挖掘技術可以在大量數據信息當中處理并提取出更具價值的信息內容,促進高等院校教育教學管理工作的正常開展,特別是評估與決策方面,數據挖掘技術的作用更為明顯。
除此之外,該技術也可以應用在網絡教學當中,使得網絡教學資源配置更加合理,在教育教學中充分發揮自身的效用。上文針對數據挖掘技術在高校教育教學中的實際應用展開了相關性地研究和分析,主要的目的就是為了更好地幫助高校進行決策,為學生提供更為理想的學習環境,在提高學生學習興趣的基礎上,增強高校教育教學的質量與效率。
參考文獻