時間:2023-08-30 09:16:30
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據分析方向范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
入藏比例與流通比例的分析比對
取自科與社科的入藏比例和流通比例的差值Z,以數值0為分界點,分為正負兩個區間,如果Z值落在同區間內,則表示館藏圖書與讀者需求在整體上保持一致,反之,若Z值落在不同的區間,則表示館藏圖書與讀者需求存在矛盾。計算公式Z=X-YX:入藏比例Y:流通比例如圖1所示,圖書館5年內的Z值均分布于兩個不同的區間,從而說明,入藏的圖書與讀者的需求存在出入,沒有達到一致。那么,為了使圖書更好的被利用,是應該繼續按照圖書館原有的采購比例繼續采購,還是要改變采購方向迎合讀者的需求,就要進一步的了解利用率較高的幾大類圖書。
文獻的利用率衰減對文獻采購的影響
1圖書利用率的分類排名
通過統計,借閱率排名前10位的有文學(I)、哲學(B)、藝術(J)、語言、文字(H)、社科總論(C)、歷史、地理(K)、經濟(F)、工業技術(T)、政治法律(D)、數理科學和化學(O)。以2008年入藏的中文圖書作為統計對象,以2008年—2012年5年作為5個借閱時間段,前10位的借閱率統計結果如表3。表3的統計結果清晰表明,在每年的借閱率排名前10類中,社科類占到了80%,而自科類只占到了20%,社科類中文學(I)的借閱率更是高居榜首,文學類圖書受到讀者的歡迎,在其他各個高校中的借閱率排名亦是居高不下。社科類更是占據了借閱率排行的前6位。自科類排名中T大類遙遙領先,這是由于工業技術本身就涵蓋了TB、TD、TM等眾多類別,受眾面較為廣泛,但與社科類的圖書利用率進行比較,自科類的圖書利用率還是有一定的差距。一個圖書情報機構是為某一個或幾個專業研究、教育培訓服務,還是為一般參考咨詢或娛樂欣賞服務,這是設計藏書結構的基本出發點和目標[2]。西安理工大學屬于理工院校,以工為主亦應該在圖書館館藏結構中得以體現。
2文獻利用率的衰減分析
中圖分類號:TP 311.3 文獻標志碼:A 文章編號:1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相關分析法是在分析某個問題或指標時,將與該問題或指標相關的其他問題或指標進行對比,分析其相互關系或相關程度的一種分析方法,用少數幾對綜合變量來反映2組變量間的線性相關性質.目前它已經在眾多領域的相關分析和預測分析中得到廣泛應用.本文主要研究如何利用相關分析技術產生計算機專業課之間的相關系數,發現專業課程之間的相關度,對數據倉庫中的數據進行約簡[1].
1 相關分析
1.1 相關分析概述[2]
相關分析(Correlation Analysis)是研究隨機變量之間的相關關系的一種統計方法.相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系.例如,教育投資與教育發展速度的關系、教師教學水平和學生的學習效果之間的關系等[3].
相關系數值為-1(完全負相關關系)~+1(完全正相關關系)之間,相關系數為0時,表示不存在相關關系.例:
正相關:學生的學習能力與學習成績的關系;
負相關:教師的身體狀況與缺勤率的關系;
零相關:教師的身高與教學能力的關系.
Pearson相關用于雙變量正態分布的資料,其相關系數稱為積矩相關系數(Coefficient of Product-Moment Correlation).進行相關分析時,我們一般會同時對2變量繪制散點圖,以更直觀地考察2變量之間的相互變化關系[4].
用Flag Significant Correlations 進行顯著性檢驗,標出有顯著性意義的相關系數,用一個星號“*”標記在α=0.05水平上有顯著性意義的相關系數;用2個星號“**”標記在α=0.01水平上有顯著性意義的相關系數[5].
1.2 相關分析的表示方法
進行相關分析的主要方法有圖示法和計算法.圖示法是通過繪制相關散點圖來進行相關分析,計算法則是根據不同類型的數據,選擇不同的計算方法求出相關系數來進行相關分析.
1.2.1 圖示法
圖示法的具體做法就是繪制相關散點圖.相關散點圖是觀察2個變量之間關系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個變量中的1個變量(作為自變量),以縱軸表示另一個變量(作為因變量).將2個變量之間相對應的變量值以坐標點的形式逐一標在直角坐標系中,通過點的分布形狀和疏密程度來形象描述2個變量之間的相關關系.
相關散點圖可以通過手工繪制而得到.但如果面對的變量值比較多,手工繪制的過程既費時,又不夠精確.
1.2.2 計算法
相關系數也稱為相關量,是用來描述變量之間變化方向和密切程度的數字特征量,一般用r表示.它的數值范圍在-1到+1之間,它的正負號反映變量之間變化的方向;它的絕對值的大小反映變量之間關系的密切程度.
根據2個變量變化的密切程度,我們把相關關系分為完全相關、高度相關、中度相關、低度相關、零相關[6].
完全相關:│r│=1的相關;
高度相關或強相關:0.7≤│r│<1的相關;
中度相關:0.4≤│r│<0.7的相關;
低度相關或弱相關:│r│<0.4的相關.
1.3 Pearson相關
Pearson相關也稱積差相關,積差相關也稱積矩相關,是英國統計學家Rearson提出的一種計算直線相關的方法,因而又稱為Rearson相關[6-7].
積差相關系數是2列成對觀測值中各對觀測值的標準分數乘積之和除以觀測值對數所得之商[8].
1.3.1 Pearson相關的使用條件
1) 2個變量之間是線性關系,都是連續數據;
2) 2個變量的總體是正態分布,或接近正態的單峰分布;
3) 2個變量的觀測值是成對的,每對觀測值之間相互獨立.
1.3.2 Pearson相關的計算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示數據的對數;σX,σY分別表示X和Y變量的樣本標準差;[JP],分別表示X和Y變量的樣本平均數.[ZK)]
對于學生成績,其課程總體分布接近正態分布,滿足Pearson相關的使用條件.在統計軟件SPSS中,可以很方便地得出2變量之間的Pearson相關系數.[JP]
2 用相關分析法進行數據約簡
2.1 學生成績數據倉庫的建立
數據選擇上,主要選擇了作者所在學校計算機專業3年來產生的專業基礎課成績,收集并整理了包含高等數學、C語言、數據結構和數據庫系統原理的504條學生成績數據.并將具體的成績數據離散化為4個等級[9],即:
成績>=80“A”; 70=
2.2 用相關分析法進行數據約簡
對大規模數據庫內容進行復雜的數據分析通常需要耗費大量的時間,這就常常使得這樣分析變得不現實和不可行,尤其是需要交互式數據挖掘時.數據約簡技術正是用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘,顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果基本相同[10].
數據約簡并不是一個新的領域,現在已經提出了很多理論和方法,如:層次分析法,主成分分析法,隨機抽樣、免疫算法等.本研究根據實際需要,提出將相關分析方法應用于學生成績的屬性約簡,即方便快捷又不失理論性.
在SPSS軟件中,畫出計算機專業課高等數學成績的直方圖,如圖1.
用同樣的方法,可以畫出其他計算機專業課如C語言、數據結構等的直方圖,可以看出,我們所建立的數據倉庫中,學生計算機專業課程成績基本上符合正態分布,滿足Pearson相關的使用條件.
我們用雙變量相關分析技術來分析相關課程之間的關聯程度,并做出統計學推斷,以最少的數據量反映最大的信息量,進而對數據庫的屬性進行約簡.通過相關分析約簡相關性較弱的屬性,選擇相關性強的屬性而不直接利用數據庫中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.
在SPSS中進行課程間Pearson相關系數分析,得到計算機專業課程相關系數分析表如表1.
1:表中數值為4門課程進行相關分析得到的皮爾遜相關系數(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個數(N).“*”標記在α=0.05水平上有顯著性意義的相關系數;用兩個星號“**”標記在α=0.01水平上有顯著性意義的相關系數;
2:相伴概率用來判斷求解線性關系的兩變量之間是否有明顯的線性關系.一般將這個Sig值與0.05相比較,如果它大于0.05,說明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語言與數據結構的Sig是0,此數值說明C語言與數據結構有顯著的線性關系(因為Sig0.05,則說明兩變量之間沒有明顯的線性關系).
由表1可以看出,同一門課程之間的Pearson相關系數為1,是完全相關關系.高等數學與C語言之間的Pearson相關系數為0.283,C語言與數據結構之間的Pearson相關系數為0.281,數據結構與數據庫系統原理之間的Pearson相關系數為0.565,并且都有“*”標記,由此可以推斷這4組課程之間有顯著性意義的相關性.
3 結語
用相關分析技術對數據庫進行約簡,結果表明:線性代數、計算機導論及Pascal語言等多個因素相關性較弱;而C語言、數據結構、高等數學及數據庫系統原理之間相關性較強,根據數據庫約簡原則,可將線性代數、計算機導論及Pascal語言等多個屬性項從數據庫中刪除,以便提高數據挖掘效率.
參考文獻:
[1]段西凌,甘開鵬.數據挖掘在人口普查信息系統中的應用[J].云南民族大學學報:自然科學版,2006,15(2):170-172.
[2]茆詩松.統計手冊[M].北京:科學出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.數據挖掘原理與應用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學出版社,2007.
[4]王艷.數據挖掘中關聯規則的探討[J].成都信息工程學院學報,2004,19(2):173.
[5]張儒良,王翰虎.論數據挖掘優化教學管理[J].貴州民族學院學報,2004:133.
[6]趙輝.數據挖掘技術在學生成績中分析中的應用[D].大連:大連海事大學,2007.
[7]王月敏.基于遺傳算法的智能組卷系統研究[J].云南民族大學學報:自然科學版,2009,18(2):173-176.
[8]劉利鋒,吳孟達. 關聯規則的快速提取算法 [J].計算機工程.2008,34(5):63-65.
[9]李萍,段富.數據挖掘中數據約簡的研究與應用[J].微計算機應用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韓永國,劉自偉.數據挖掘技術在生源分析中的應用研究[J].計算機應用研究.2004,32(6):48-51.
中圖分類號V2 文獻標識碼 A 文章編號 1674-6708(2014)123-0164-02
當飛機處于某種特殊氣動彈性耦合效應下的時候,就會出現抖振的隨機振動現象,如果戰斗機處于大攻角飛行姿態,通常需要承載一定量的抖振載荷,這會直接導致飛機內部部件的疲勞損傷,使得飛機發生飛行安全事故的概率大大增加,在目前的處理方式中,主要是在飛機制造之后,如果發現存在抖振問題,會對設計進行適當的修改,或者是采取抑制減緩措施,這會導致耗費大量的時間與經費,在飛機的研發周期中采取有效的措施減少其抖振問題非常的必要,這就需要在飛機設計、風洞模型試驗、飛機試飛幾個階段做好抖振響應數據的處理工作,本文就主要對此予以簡單分析探討。
1 抖振響應數據的預處理工作
飛機在發生抖振時,其會產生抖振響應數據,對這些數據在處理的時候,為了防止發生靜態響應影響數據處理的結果,需要對飛機各種飛行狀態下的抖振響應數據進行去除均值的預處理,一般情況下,為了方便敘述,會將飛機不同飛行狀態下的數據依據時間順序依次進行存放,其中一個飛行狀態之下的抖振響應數據稱作數據倉,選隨機選擇一個飛行姿態喜愛的抖振響應數據倉,根據合理的時間間隔,將數據倉內的數據進行劃分,可以分為多個子數據塊,然后逐一進行編號,表示為:1,2,…,N,應用這種方法獲取的數據塊中包含n個數據點,為了使分辨率得到保證,臨近的子數據塊之間相互重疊的部分應該達到百分之五十以上。
首先對子數據塊內的數據進行預處理,并簡單進行分析,形成第i個子數據模塊響應數據序列,即:yi1,yi2,…,yin,i=1,2,…,N,n表示的含義是:數據點的數量。然后對第i個子數據塊中的數據平均方根值進行計算,將其表示為:RMSi(i=1,2,…,N),其計算公式如下式所示:
之所以要對其均方根值進行計算,主要是為了進行響應數據的無量綱化處理,對于定位樣本的關鍵狀態具有積極的作用。然后要對第i個子數據塊的一組峰值進行搜索,并要獲得第i個子數據塊中第j個峰值與該子數據模塊RMSi的比值,實現統計量的無量綱化。
其次對其給定飛行狀態的樣本數據預處理進行簡單分析,其預處理流程主要表現為:(1)形成數據倉的RMS序列;(2)對數據倉中各個子數據塊的RMS值的均方根進行計算,記做RSS;(3)獲得給定飛行狀態下第i個子數據塊的RMSi與RSS的比值,實現其統計量的無量綱化。
2 子數據模塊的數據統計方法
首先分析子數據塊統計量的概率模型,由機抖動響應具有一定的隨機性,尤其是具有明顯的分散性,所以在對其響應數據進行處理的過程中,采用適當的統計學方法建立模型,在上文數據處理方法的基礎上,建立概率分布表模型。因為得到的子數據塊的時間很短,可以假設其中的數據來自于同一個總體,并且能夠保持相互獨立,那么可以選擇總體Zi的樣本為:Zi1,Zi2,…,Zin,在抖振響應峰值特性的概率分布模型的描述中,常用的有:Gumbel分布與威布爾分布,應用威爾分布對第i個子數據塊Zi進行假設,那么其概率密度可以用下式來進行表示:
其中,f(Zi)表示的含義是:Zi的概率密度函數,Gi表示的含義是:威爾分布的大小尺度因子;Bi表示的含義是:威爾分布的形狀因子。那么可以將其概率分布函數表示為:
其次,簡單分析子數據模塊統計學量分布參數,本次研究中,對于其分布參數估計應用最大似然估計,建立起威布爾分布的似然函數,并應用相關的參數估計方法,得到其簡化之后的威布爾似然函數值為:
然后對似然函數取對數,并應用迭代法對相關數值進行求解,就能夠得到最大似然參數估計量的值。
最后應用χ2擬合檢驗法來對子數據塊中數據是否符合威布爾分布進行檢驗,根據上文中的樣本觀察值及最大似然參數等,來對總體分布假設進行檢驗。
3 數據倉RMS值的分布統計方法
為了分析給定飛行狀態下的數據倉分布規律,依據上文研究的結果,進一步進行研究,在編制飛機抖振疲勞譜的時候,要得到對應的飛行狀態,以此為基礎獲取疲勞荷載值及疲勞壽命,最后校核飛機抖振強度,在此過程中,還需要找到飛機的關鍵狀態,尤其是其運行過程中的極限狀態,在給定的飛行狀態下,對其數據倉RMS分布進行分析主要是為了確對幾個關鍵的RMS水平進行確定,并在相應的子數據模塊中對其進行定位,再結合其響應模型進行響應分布的分析,這能夠保證其很好的滿足后續工作的需求,通過對給定飛行狀態下數據倉RMS值分布進行統計分析,再結合飛機抖振應用背景及以往的工程實踐經驗,可以對其相應數據應用經驗步進函數來進行描述,就能夠很好的滿足抖振壽命估計、抖振疲勞譜編制、抖振強度校核等工作要求,這對機抖振響應數據分析處理質量及工作效率的提升都具有非常重要的作用。
4 結論
飛機抖振響應數據具有隨機分布的特點,并且具有鮮明的分散性,在對其進行處理時具有較大難度,飛機長期處于抖振載荷之下,會對其部件產生較大影響,容易導致安全事故的發生,本文就結合其抖振響應數據的實際特點,提出了一種統計模型分析法,并對其分析方法中的關鍵步驟進行了簡單分析,對機抖振響應數據的處理分析具有一定的參考作用。
中圖分類號:K928.78 文獻標識碼:A 文章編號:
0引言
預應力混凝土連續箱梁具有結構剛度大、變形小、及行車舒適等優點,在國內外得以廣泛推廣。由于公路橋梁中橋面較寬,車輛在行駛的過程中經常不能行駛在橋梁的軸線上,這樣公路橋梁經常處于偏心荷載的作用下。當箱梁的截面采用變截面時,箱梁常處于約束扭轉狀態。
本文首先通過理論分析建立約束扭轉的微分方程,然后根據有限元理論,運用初參數法求解微分方程,最終導出當箱梁受到約束扭轉時的剛度矩陣。這對編寫箱梁約束扭轉分析計算程序有很好的幫助。
1基本方程的建立
1.1自由扭轉分析
在研究自由扭轉之前,首先引入薄壁桿件扭轉理論中的一個最基本的假定——符拉索夫的剛周邊假定,即在小變形情況下,可以認為桿件扭轉后斷面在其原來平面上的投影形狀與原斷面形狀相同。根據剛周邊假定,開口薄壁桿件扭轉時斷面如剛體般轉動,各個組成部分的扭角都相同。以圖1的工字斷面為例,可把它看成由三個狹長斷面所組成,并設H1、t1、H2、t2、H3、t3分別代表三個狹長斷面的長度和壁厚。每一斷面的扭率都應該相同,即
ϕ1′=ϕ2′ϕ3′=ϕ′(1)
上式中:ϕ′為整個斷面的扭率;J1=、J2=、J3=分別為三個狹長斷面的扭轉慣性矩,假設J為整個工字斷面的扭轉慣性矩,顯然應有:
J=J1+J2+J3 (2)
由此可見,對于開口薄壁桿件的自由扭轉慣性等于組成斷面的各狹長矩形斷面的扭轉慣性矩之和。
對于閉口薄壁桿件在自由扭轉時,以u表示翹曲位移,v表示切向位移。則
=+(3)
其中:v=ϕρ,表示剪應變(剪應力與剪切模量之比)。
所以上式可寫成:
=- ϕ′ρ(4)
其中Ω為閉口斷面所圍成面積的兩倍。
對上式兩邊對S積分,根據位移連續性條件可得:
=G (5)
把上式中定義為閉口斷面自由扭轉時的自由扭轉慣性矩,用Jd表示。以上部分推導了閉口斷面在自由扭轉時的慣性矩的計算公式。
1.2約束扭轉分析
薄壁桿件在扭轉時,若由于支座約束或其他原因(如非等斷面桿件),使得斷面不能自由翹曲,那么桿件就發生約束扭轉。箱梁在約束扭轉時斷面的扭矩為自由扭轉扭矩和二次扭矩之和。寫出約束扭轉時的總扭矩[2]:
(6)
再在桿中取出長為dz的一微段(見圖二),根據扭矩平衡的條件可得斷面扭矩與外分布扭矩之間的關系為:
(7)
由以上兩式可得:
(8)
其中k=
式中為箱梁截面扇性慣性矩;
為約束扭轉時的約束系數;
k 為箱梁截面的抗扭常數;
為箱梁截面的扇性慣性矩;
mt為作用在箱梁上的扭矩。
2運用初參數法求解微分方程并推導單元剛度矩陣
考慮約束扭轉的箱梁扭轉單元剛度方程為:
=(9)
根據閉口薄壁桿件約束扭轉的微分方程(8)式,先假定mt=0求(8)式相應的齊次微分方程,運用初參數法,初參數取、、、,微分方程初參數的解為:
根據有限元中對剛度系數的定義,先假定,而。這樣就可以確定出初參數、。變換符號,可以求出、、及。以此類推可求出其它元素。按上述過程所求得的各剛度系數為:
式中D=
至此剛度矩陣中的系數已全部求出。
3結論
本文用薄壁箱梁的約束扭轉理論,導出了梁單元在受約束扭轉時的剛度系數矩陣。由于本文的方法是基于桿系結構剛度法基礎之上的,容易編寫程序,在工程計算中,有一定的實用價值。
參考文獻
[1] 郭金瓊,房貞政,鄭振.箱形梁設計理論[M].人民交通出版社,2008
(Xuzhou College of Industrial Technology,Xuzhou 221140,China)
摘要:在虛擬現實項目制作中,由于種種原因,海量數據處理是一項艱巨而復雜的任務,本文主要論述了海量數據處理困難的原因,并提出了對海量數據進行處理的方法。
Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.
關鍵詞:虛擬現實 海量數據
Key words: virtual reality;massive data
中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2011)19-0158-02
0引言
虛擬現實項目制作過程中,由于虛擬現實包含的內容豐富,需要載入的數據量有時會非常巨大,需要進行處理和查詢的內容很多,然后還要以文字和圖像的形式進行表示出來,所以經常會遇到海量數據處理的瓶頸,造成這種情況的原因是:
①數據量過大,數據中什么情況都可能存在。如果說有10條數據,那么大不了每條去逐一檢查,人為處理,如果有上百條數據,也可以考慮,如果數據上到千萬級別,甚至過億,那不是手工能解決的了,必須通過工具或者程序進行處理,尤其海量的數據中,什么情況都可能存在,例如,數據中某處格式出了問題,尤其在程序處理時,前面還能正常處理,突然到了某個地方問題出現了,程序終止了。
②軟硬件要求高,系統資源占用率高。對海量的數據進行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統資源。一般情況,如果處理的數據過TB級,小型機是要考慮的,普通的機子如果有好的方法可以考慮,不過也必須加大CPU和內存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。
③要求很高的處理方法和技巧。這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經驗的積累,也是個人的經驗的總結。沒有通用的處理方法,但有通用的原理和規則。
在多個虛擬現實項目的基礎上,尤其是通過與行內多名專家進行項目經驗交流,以下的方法都可以對海量數據在虛擬現實項目中的處理進行改善。
1選用優秀的數據庫工具
現在的數據庫工具廠家比較多,對海量數據的處理對所使用的數據庫工具要求比較高,一般使用Oracle或者DB2,微軟公司最近的SQL Server 2005性能也不錯。另外在BI領域:數據庫,數據倉庫,多維數據庫,數據挖掘等相關工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。筆者在實際數據分析項目中,對每天6000萬條的日志數據進行處理,使用SQL Server 2000需要花費6小時,而使用SQL Server 2005則只需要花費3小時。
2編寫優良的程序代碼
處理數據離不開優秀的程序代碼,尤其在進行復雜數據處理時,必須使用程序。好的程序代碼對數據的處理至關重要,這不僅僅是數據處理準確度的問題,更是數據處理效率的問題。良好的程序代碼應該包含好的算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。
3對海量數據進行分區操作
對海量數據進行分區操作十分必要,例如針對按年份存取的數據,我們可以按年進行分區,不同的數據庫有不同的分區方式,不過處理機制大體相同。例如SQL Server的數據庫分區是將不同的數據存于不同的文件組下,而不同的文件組存于不同的磁盤分區下,這樣將數據分散開,減小磁盤I/O,減小了系統負荷,而且還可以將日志,索引等放于不同的分區下。
4建立廣泛的索引
對海量的數據處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序等字段,都要建立相應索引,一般還可以建立復合索引,對經常插入的表則建立索引時要小心,筆者在處理數據時,曾經在一個ETL流程中,當插入表時,首先刪除索引,然后插入完畢,建立索引,并實施聚合操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚集索引都要考慮。
5建立緩存機制
當數據量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關系到數據處理的成敗,例如,筆者在處理2億條數據聚合操作時,緩存設置為100000條/Buffer,這對于這個級別的數據量是可行的。
6加大虛擬內存
如果系統資源有限,內存提示不足,則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理,內存為1GB,1個P4 2.4G的CPU,對這么大的數據量進行聚合操作是有問題的,提示內存不足,那么采用了加大虛擬內存的方法來解決,在6塊磁盤分區上分別建立了6個4096M的磁盤分區,用于虛擬內存,這樣虛擬的內存則增加為4096*6+1024=25600M,解決了數據處理中的內存不足問題。
7分批處理
海量數據處理難因為數據量大,那么解決海量數據處理難的問題其中一個技巧是減少數據量??梢詫A繑祿峙幚?,然后處理后的數據再進行合并操作,這樣逐個擊破,有利于小數據量的處理,不至于面對大數據量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數據,還需要另想辦法。不過一般的數據按天、按月、按年等存儲的,都可以采用先分后合的方法,對數據進行分開處理。
8使用臨時表和中間表
數據量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利用一定的規則進行合并,處理過程中的臨時表的使用和中間結果的保存都非常重要,如果對于超海量的數據,大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作,可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個胖子。
9優化查詢SQL語句
在對海量數據進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優良的SQL腳本和存儲過程是數據庫工作人員的職責,也是檢驗數據庫工作人員水平的一個標準,在對SQL語句的編寫過程中,例如減少關聯,少用或不用游標,設計好高效的數據庫表結構等都十分必要。筆者在工作中試著對1億行的數據使用游標,運行3個小時沒有出結果,這是一定要改用程序處理了。
10使用文本格式進行處理
對一般的數據處理可以使用數據庫,如果對復雜的數據處理,必須借助程序,那么在程序操作數據庫和程序操作文本之間選擇,是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等。例如一般的海量的網絡日志都是文本格式或者csv格式(文本格式),對它進行處理牽扯到數據清洗,是要利用程序進行處理的,而不建議導入數據庫再做清洗。
11定制強大的清洗規則和出錯處理機制
海量數據中存在著不一致性,極有可能出現某處的瑕疵。例如,同樣的數據中的時間字段,有的可能為非標準的時間,出現的原因可能為應用程序的錯誤,系統的錯誤等,這是在進行數據處理時,必須制定強大的數據清洗規則和出錯處理機制。
12建立視圖或者物化視圖
視圖中的數據來源于基表,對海量數據的處理,可以將數據按一定的規則分散到各個基表中,查詢或處理過程中可以基于視圖進行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
13避免使用32位機子
目前的計算機很多都是32位的,那么編寫的程序對內存的需要便受限制,而很多的海量數據處理是必須大量消耗內存的,這便要求更好性能的機子,其中對位數的限制也十分重要。
14考慮操作系統問題
海量數據處理過程中,除了對數據庫,處理程序等要求比較高以外,對操作系統的要求也放到了重要的位置,一般是必須使用服務器的,而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制,臨時空間的處理等問題都需要綜合考慮。
15使用數據倉庫和多維數據庫存儲
數據量加大是一定要考慮OLAP的,傳統的報表可能5、6個小時出來結果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數據的利器是OLAP多維分析,即建立數據倉庫,建立多維數據集,基于多維數據集進行報表展現和數據挖掘等。
16使用采樣數據,進行數據挖掘
基于海量數據的數據挖掘正在逐步興起,面對著超海量的數據,一般的挖掘軟件或算法往往采用數據抽樣的方式進行處理,這樣的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和,防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣,抽取出400萬行,經測試軟件測試處理的誤差為千分之五,客戶可以接受。
還有一些方法,需要在不同的情況和場合下運用,例如使用鍵等操作,這樣的好處是加快了聚合時間,因為對數值型的聚合比對字符型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢,對數據分析和挖掘也越來越重要,從海量數據中提取有用信息重要而緊迫,這便要求處理要準確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數據的研究很有前途,也很值得進行廣泛深入的研究。
參考文獻:
中圖分類號 P415.12 文獻標識碼 A 文章編號 1007-7731(2017)07-0156-03
Abstract:Aiming at meteorological station with new automatic station and original station,when the meteorological data is abnormal or shortage,the data processing methods were summarized in order to play a guiding role in the daily work of the station.
Key words:Automatic station;Abnormal data;Processing method
隨著地面氣象觀測自動化業務的不斷發展,新型自動站在山東省氣象臺站陸續安裝使用,與臺站已運行的老自動站實現雙軌運行,使觀測業務更趨向于全自動化。臨沂市觀測站于2015年12月1日正式運行DZZ4新型自動站和ISOS地面氣象綜合業務系統軟件,實現了以新型自動站(DZZ4型)為主,老自動站(CAWS600-B型)為備份的雙軌運行方式。自動觀測項目有氣溫、相對濕度、氣壓、風向風速、降水、0~360cm地溫、能見度等,氣溫、相對濕度、氣壓、風向風速、地溫等各觀測要素人工觀測儀器已按規定撤除,在新型站儀器故障或數據異常時,可以用備份站數據代替。
1 異常數據的判斷
日常觀測值班時,應每1h查看自動站數據,并與備份自動站觀測數據進行對比,當發現某要素數據相差較大時,應及時檢查數據是否有異常。也可以查看SMO軟件采集界面觀測要素的連續曲線圖,判斷分鐘數據是否正常。在采集界面各要素的顯示數據右邊,有曲線圖標,分別點擊就可以看到對應數據的2h內變化曲線,據此可以判斷數據變化是否正常連續。還可通過ASOM系統判斷異常數據。登陸綜合氣象觀測系統運行監控平臺,點擊運行監控-數據監控-多站單要素曲線圖,選擇需要對比臺站的時間范圍、添加需要對比的臺站,再選擇對比的要素,點擊查詢即可彈出對比臺站所選要素的曲線圖,如果各臺站曲線圖變化一致,說明數據正常,如果本站曲線明顯偏高或偏低,或曲線有明顯的急升急降現象,則判斷為異常數據。
2 異常記錄處理原則[1]
(1)白天正點記錄異常時,3次定時觀測時次(指08:00、14:00、20:00)的記錄應及時處理,其他正點時次的記錄應在下一定時觀測前完成修改、上傳。夜間正點記錄異常時,應在當日10:00前完成修改上傳。若夜間異常數據影響到08:00、09:00記錄,應在10:00前對08:00、09:00相應記錄進行修改上傳。
(2)已實現自動觀測的氣溫、相對濕度、風向、風速、氣壓、地溫記錄異常時,正點時次的記錄按照正點前10min內(51-00分)接近正點的正常記錄、正點后10min內(01~10分)接近正點的正常記錄、備份自動站記錄、內插記錄的順序代替。其中風向風速異常時均不能內插,瞬時風向、風速異常時按缺測處理。
(3)o自動記錄可代替時,僅在定時觀測時次正點后10min內,對氣溫、相對濕度、風向、風速、氣壓、降水、能見度、地溫(草溫除外)進行人工補測,其他時次按缺測處理。若某要素人工觀測儀器已按規定撤除或超過正點后10min,則該要素不再人工補測。
(4)分鐘數據異常時均缺測處理,不內插,不用備份自動站記錄代替。因分鐘數據異常造成加密數據文件錯誤時,加密數據文件不做訂正處理。
(5)連續2個或以上時次數據缺測時,不能內插,仍按缺測處理。內插可以跨日界。
(6)自動站每1h正點數據與分鐘數據不一致時,一般維持原記錄。若確認正點數據有誤,可用該正點的分鐘數據代替,若確認正點的分鐘數據有誤,可用正點值代替。
(7)4次平均值和24次平均值可以互相代替。
(8)自動站降水量、日照時值有缺測時,日總量按缺測處理。
(9)各異常記錄的處理情況應在備注欄注明,并在MDOS系統平臺中填報。
3 具體要素異常的處理
3.1 氣溫和相對濕度 (1)氣溫缺測相對濕度正常時,水汽壓和露點溫度用前/后10min、備份站代替或內插求得的代替后氣溫與自動站相對濕度進行反查求得。(2)自動站相對濕度缺測而氣溫正常,需用自動站氣溫與代替后的相對濕度進行反查求得水汽壓和露點溫度。(3)氣溫與濕度均缺測時,用前/后10min數據或備份站數據或內插記錄的順序代替氣溫、相對濕度,并反查水汽壓、露點溫度,不能代替時,均按缺測處理。以上數據用前/后10min數據代替時,在正點觀測編報界面,點擊觀測時間下面的“代缺”,出現“正點前/后10min自動觀測數據”,如圖1,雙擊需要代替的氣溫或相對濕度分鐘數據欄,點替換即可。用備份站數據或內插記錄代替時,在正點觀測編報界面,輸入備份站正點數據或內插記錄即可,替換或修改后的數據欄顯示為黃色。需要反查水汽壓和露點溫度時,可利用地面觀測業務軟件(MOI)工具菜單中的“要素計算”,在干球溫度數據欄輸入溫度值,在濕球溫度數據欄輸入加U的濕度數據,點擊計算按鈕,即可求得對應的水汽壓和露點溫度。
3.2 風向風速 正點2min和10min風向風速缺測時分別用相應的2min和10min數據代替,不能互相代。用正點前/后10min接近正點的數據代替,其前推的相應時段內必須有正確數據[2]。否則用備份站數據代替。如:某日09:00的2min風速數據缺測,用08:57的2min數據代時,08:56和08:57都必須有正常分鐘數據。10min數據缺測,用08:57的10min數據代時,08:48―08:57必須有正常的分鐘數據。正點瞬時風向風速異常時按缺測處理,不能用備份站數據代替。所有風數據缺測不能代替時,人工觀測儀器已撤除的臺站需目測2min風向風速,風向按8個方位估計,其他風數據按缺測處理。風速記錄缺測但有風向時,風向也按缺測處理,有風速無風向時,則風速照記,風向記缺測。
3.3 氣壓 正點氣壓數據不正常時,用前/后10min數據代替,其操作方法與氣溫相同。用備份站記錄代替,2個氣壓傳感器感應部分高度一致,可以直接輸入代替,2個氣壓傳感器感應部分高度不一致,用高度差訂正公式將代替的本站氣壓訂正到現用自動站氣壓傳感器高度上來,輸入到氣壓數據欄,再以此計算海平面氣壓[3]。
3.4 降水量 夏季非結冰期使用翻斗雨量傳感器作為降水量采集儀器,稱重式雨量傳感器、備份自動站翻斗式雨量傳感器作為備份儀器。冬季結冰期使用稱重式雨量傳感器測量降水,翻斗雨量傳感器和備份站翻斗儀器停用。降水量記錄異常時,非結冰期,用稱重式雨量傳感器、備份自動站翻斗式雨量傳感器順序代替,結冰期則用人工觀測雨量筒記錄代替。定時觀測時次,在正點觀測編報界面,點擊“降水量替代”按鈕,出現小時降水量、翻斗降水量和稱重降水量數據,如圖2,非結冰期小時降水量取自翻斗降水量,翻斗降水量數據異常時雙擊需要代替的稱重降水量數據,點保存即可代替。用備份站降水量代替時,將備份站小時降水量數據輸入到定時降水欄即可。結冰期用人工定時觀測雨量數據代替時,在正點觀測編報界面,點擊小時降水量后面的“修改”按鈕,出現小時內分鐘降水量界面,如圖3,將故障時段內的小時、分鐘雨量刪除按缺測處理,然后在6h降水欄(08:00正點在12h降水欄)輸入人工定時觀測降水數據。出現微量降水時,正點觀測編報時次08:00在12h降水欄內輸入00,14:00和20:00在6h降水欄輸00。
降水量記錄異常的其他情況:(1)無降水現象,因其他原因(昆蟲、風、沙塵、樹葉、人工調試等)或自動站故障造成多余記錄時,在正點觀測編報界面,點擊小時降水量后面的“修改”按鈕(圖3),刪除該時段內的分鐘和小時降水量,并在值班日記中說明。(2)降水現象停止后,仍有降水量,若能判斷為滯后(滯后時間不超過2h),可將該量累加到降水停止的那分鐘和小時時段內,否則將該量刪除。夜間(20:00―08:00)能夠判斷為滯后降水的,按前述處理;無法判斷的,按正常處理。(3)稱重式雨量傳感器在降水過程中,伴隨有沙塵、樹葉等雜物時,按正常降水記錄處理,液態降水溢出或固態降水堆至口沿以上,或降水過程中取水,則該時段降水按缺測處理。(4)稱重式雨量傳感器承水口內沿堆有積雪或雨凇時,應及時清理到收集容器內。由此產生的異常稻藎若能判斷降水結束時間的,加入到降水結束的時次,該時次降水時段內的分鐘數據按缺測處理;不能判斷降水結束時間的,加入到有降水量的最后一個時次,該時次內分鐘數據按缺測處理。無降水時,沙塵、樹葉等雜物或偶然跳變造成的降水數據應及時刪除。以上降水數據的處理均在圖3界面內修改刪除即可。(5)若因某時段降水數據異常而影響“15時段年最大降水量”及相應的開始時間挑選時,若相應時段的備份自動站降水數據正常,需將備份自動站挑取的“降水量、出現次數和開始時間”替換到現用站的年報表中。
3.5 能見度 能見度缺測時,非定時觀測時次的正點數據中所有能見度數據均按缺測處理,定時觀測時次進行人工補測。人工觀測值存入Z文件CW段能見度和VV段10min平均能見度,其他VV段自動能見度數據按缺測處理,A文件中使用人工觀測值,須在備注欄說明。此種情況下,允許能見度記錄值與天氣現象之間的不匹配。具體操作為在正點觀測編報界面,人工觀測值(以0.1km為單位,第二位小數舍去)輸入到能見度欄,以m為單位輸入到10min能見度欄內,其他欄按缺測處理,輸“-”。能見度自動記錄缺測時不做內插處理,不用正點前后10min接近正點的記錄代替。
4 結語
以上是針對新型自動站各要素采集數據異常時,對相應的代替處理方法進行總結介紹,在定時和非定時時次數據缺測時,觀測員首先要清楚可以用哪些數據代替,其次是明確數據代替的優先順序,最后是熟練掌握數據代替的軟件操作方法,以便在規定時間內完成操作,及時準確的上傳數據。
參考文獻
[1]中國氣象局綜合觀測司.地面氣象觀測業務技術規定(2016版)[S].2016.
轉變經濟發展方式,實現經濟社會的全面協調可持續發展是我國當前和今后較長時期內的一項重要戰略任務。2012年黨的十對加快轉變經濟發展方式進行了新部署,提出了“一個立足點”、“四個著力”和“五個更多”的要求,這為我國當前和未來經濟發展進一步指明了方向。在當前國家強調加快經濟轉型發展和大力建設中原經濟區的大背景下,研究評價河南省工業經濟增長的環境技術效率及如何促進河南省工業經濟發展方式轉變,實現可持續發展等問題,對于建設資源節約型、環境友好型社會,加快河南新型工業化進程,促進中原崛起和河南振興具有重大的現實意義。正是出于這一考慮,本文擬采用基于方向性距離函數的DEA方法測算河南省工業的環境技術效率,通過環境技術效率的地區差異和發展趨勢的比較分析,提出促進河南省工業環境技術效率提高和可持續發展的對策建議。
方向性距離函數與環境技術效率
經濟活動往往會伴隨污染物的產生,環境技術即反映了這樣一種同時包括“好”產出和“壞”產出的特殊投入產出技術結構。它可以表示為如下生產可能性集合:
P(x)={(y,b):x能生產(y,b)},x∈RN+ (1)
P(x)表示決策單元(省份)使用N種投入x=(x1,…,xn)∈RN+所得到的M種“好”產出y=(y1,…,yM)∈RN+以及I種“壞”產出b=(b1,…,bI)∈RN+的生產可能性集合。環境技術給出了既定條件下,最大產出y擴張,最小污染物排放的集合,即給出了環境產出的可能前沿,但生產可能性集合P(x)無法借助傳統的Shephard距離函數來計算。不同于傳統的距離函數,Fare等(2001)根據Luenberger(1992、1995)短缺函數的思想,構造了如下方向性距離函數解決這一問題:
(2)
其中,g=(y,-b)為產出水平擴張的方向向量,它表示在給定投入x的情況下,好產出y成比例地擴大,“壞”產出b成比例地收縮,β為方向性距離函數值,即好產出y增長、“壞”產出b減少的最大可能數量。類似于Fare(1957)定義的傳統技術效率,環境技術效率可定義為好產出的實際產量ytk與環境技術結構下的前沿產出量(1+β)ytk的比率,即1/(1+β)。環境技術效率刻畫了環境與經濟發展的協調程度,其取值區間為(0,1),數值越接近1,說明環境技術效率越高,環境與經濟發展越協調;數值越接近0,說明環境技術效率越低,環境與經濟發展越不平衡。與傳統技術效率不同,環境技術效率不僅可以反映投入、產出和污染之間的關系,同時也包含著公眾對環境質量的偏好(即方向向量的結構),從而能較全面地描繪現實生產與理想社會的差距。
樣本及相關數據說明
本文分析時段為2004-2010年,模型涉及的變量及相關數據說明如下:
各地區期望產出水平用工業增加值數據表示,非期望產出為“三廢”,分別用工業廢水排放量、工業CO2排放量及工業固體廢物產生量等指標表示。本文投入因素為物質資本投入、勞動力和能源消耗。選取工業固定資產凈值年平均余額(K)度量資本投入,用工業從業人員數(L)度量勞動力投入,用工業單位GDP能耗度量能源消耗(E)。以上相關數據均來自歷年《河南統計年鑒》及各省轄市統計年鑒,并以2004年為基期年對各年工業增加值和固定資產凈值年平均余額進行折算。
變量統計分析
為了更好地統計比較河南各地區的環境污染數據,本研究將利用熵值法將“三廢”數據轉換為非期望產出指數(胡曉珍等,2011),由于篇幅所限,河南各地區在報告期內的非期望產出指數值未給出,本文對各地區非期望產出指數及其他指標的數據僅進行一般性的統計描述,結果如表1所示。
由表1中的數據可以看出,在2004-2010年間,河南省各地區的工業發展情況差異較大。其中,工業增加值的最大最小值比為7.57,而非期望產出最大最小值比16.19,工業資本、勞動力投入以及能源消耗的最大最小值比依次分別為9.24、12.32和3.40。盡管各變量的標準差都小于其中間值,但除勞動力投入和能源消耗外其他變量的標準差和中間值差距較小。由此可知,較大的數值差異不僅表明河南地區工業的經濟規模和增長速度差異大,同時也表明各地區所面臨的資源環境壓力差異較大。因此可以進一步推知,在對河南省工業進行技術效率測算時,如果忽視能源消耗和環境污染的話,將不可避免地導致分析結果出現較大偏差,從而產生錯誤結論。
河南省工業環境技術效率分析
依據河南省工業在2004-2010年間的投入產出數據,運用GAMS軟件進行相關線性規劃求解,得出各地區歷年的方向性距離函數值,并將其轉換為相應的環境技術效率值,結果如圖1所示。
從圖1可以看到,河南各地區的工業發展普遍存在著環境技術無效率的狀況,而且環境技術效率的地區差異大,但這與工業發展水平沒有必然聯系。具體來看,在2004-2010年中,各年環境技術效率為1的地區個數分別為7、7、7、8、8、8和9,除2010年外,都不足總數的50%。河南各地區歷年環境技術效率的標準差分別為0.1415、0.1399、0.1540、0.1641、0.1639、0.1652和0.1836,而最大最小值比分別為1.7391、1.8349、1.9231、1.9231、1.8868、1.8018和1.9646,由此可見,河南各地區環境技術效率差異總體上在逐年擴大。就具體年份如2004年來看,處于生產前沿上的地區僅有鄭州、開封、平頂山、鶴壁、漯河、三門峽及濟源等地,環境技術效率在[0.8,1.0)之間的地區也僅有5個,分別為安陽(0.920)、焦作(0.959)、許昌(0.998)、周口(0.857)和駐馬店(0.976),而環境技術效率最小的新鄉僅為0.575。
由上述分析可知:第一,河南大多數地區在工業發展中,沒有能夠充分地應用最佳實踐生產技術,從而導致其環境技術效率的普遍低下,其中一個重要的原因是各地區所使用的生產技術與自身的客觀經濟發展狀況(包括經濟發展水平、工人的技能、產業結構和政策、基礎設施狀況、自然資源稟賦等)不匹配。第二,河南工業發展中的環境技術效率改善潛力較大,這同時也表明其經濟發展潛力也較大。如2004年的新鄉,一旦在工業生產中采用最佳的實踐技術,即便不增加物質資本、勞動力投入及能源消耗,它的期望產出也可提高為當前的1.7倍,同時還可將非期望產出為減少當前的6%。第三,環境技術效率水平與工業經濟發展水平之間沒有必然聯系。河南18個省轄市在2004-2010年間的環境技術效率與工業增加值之間的相關系數分別為0.0414、-0.0536、0.0992、0.0915、0.0402、-0.0391、0.0635。就具體地區來看,如開封、鶴壁和濟源,其環境技術效率在研究期內一直為1,但它們的工業增加值排名卻一直處于后列。
由圖1可知,河南大多數地區的工業環境技術效率都經歷了不同程度的變化,其中,7個地區由于處于生產前沿而維持環境技術效率不變,4個地區出現環境技術效率改善,而其他地區的環境技術效率則都表現出不同程度的惡化狀況。具體來看,環境技術效率在期初和期末都為1的地區有鄭州、開封、平頂山、鶴壁、漯河、三門峽及濟源。環境技術效率改善的地區有周口(0.143)、濮陽(0.096)、洛陽(0.015)、許昌(0.002)。有7個地區的環境技術效率都出現惡化,按惡化程度由大到小依次為駐馬店(-0.256)、南陽(-0.197)、商丘(-0.143)、焦作(-0.112)、新鄉(-0.063)、安陽(-0.054)、信陽(-0.027)。
各地區環境技術效率出現這種變化的原因可能是:第一,對那些環境技術效率改善的地區而言,它們的經濟基礎較好,資本深化程度較高,有較為充沛的人力資本以及完善的制度環境,能夠在經濟發展以及對外交流的過程中,更好地實現經營管理模式的創新和資源的優化配置。雖然在期初其環境技術效率可能相對低下,但是它們善于學習模仿發達地區的最佳實踐技術,學習借鑒了先進的組織形式和管理經驗,通過優化產業結構,不斷加強基礎設施建設以改善發展硬環境,同時能夠不斷推進市場經濟體制改革,改善發展的軟環境,調動了各種生產要素的積極性,從而實現了生產的高效率。第二,那些始終處于生產前沿面上的地區通常是技術的創新者或適宜技術的引進者,它們使用既有技術的方式總是最為有效的。根據環境技術效率的含義,對于經濟發展中始終采用最有效方式來應用最佳實踐技術的地區它們所使用的技術可能一直在不斷進行完善,從而也必然帶來技術使用方式上的相應變化,但它的環境技術效率卻始終保持最大值。第三,那些環境技術效率惡化的地區,其在發展中可能無視自身的經濟發展條件,而只是一味地引進先進技術和管理經驗,而不能有效地加以消化、吸收和利用,使技術和管理的應用產生了不匹配的狀況,從而導致了環境技術效率惡化。另外,2004年以來,受國內大環境的影響,許多地區投資過快增長,投資規模偏大,高耗能、高污染、低水平的重復投資也是造成環境技術效率下降的重要原因。
對策建議
通過對河南省環境技術效率的分析可知,河南省工業環境污染程度呈現出逐年加重的趨勢,各地區工業發展面臨著較大的資源環境壓力。研究還發現,河南省總體環境技術效率偏低,地區差異較大,且不少地區環境技術效率存在惡化趨勢。這意味著要提高河南省工業環境技術效率,實現工業的轉型發展和可持續發展。首先,河南省各地要加大經濟結構調整的力度,立足本地優勢,大力發展資源消耗低、環境污染少、附加值高的高技術產業和特色優勢產業,來優化地區產業結構和改善環境技術效率。其次,要鼓勵技術創新,加大自主研發和技術引進的投入力度,同時對企業生產工藝、技術設備要不斷進行改造升級,提高設備性能和生產效率,以減少能源浪費和環境污染。再次,要采取有效措施打破地區間的體制障礙和技術壁壘,促進各種生產管理經驗的交流和技術的擴散,以遏制地區環境技術效率的惡化,并縮小地區間的技術差距。最后,要通過明晰資源產權問題,推進排污權交易制度,并把資源節約利用與環境保護納入企業評價與政府政績考核體系等途徑不斷健全資源環境管理制度,以促進經濟、資源、環境的良性互動與協調發展。
參考文獻:
【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.
【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO
0 引言
民航氣象數據庫系統利用數據庫技術和商用數據庫管理系統,對各類氣象資料進行有效的組織與管理,采用統一的數據模型和用戶界面,從而實現對氣象資料的有效存儲和快速檢索,并具有分布調用、高度共享和安全可靠等性能,為航空氣象服務、氣象業務與科研培訓提供有力的支持。航空氣象情報及氣象資料的及時、準確、標準化獲取是保障民航安全運行的重要基礎。本文介B了一起由數據庫進程數達到最大導致民航氣象數據庫進程頻繁宕機故障,并給出了故障問題處理方法。
1 民航數據庫系統結構簡介
民航氣象數據庫系統是具有飛行氣象情報及氣象資料的制作、交換、備供、存儲等功能的信息系統,包括通信分系統、數據庫分系統、預報平臺及服務平臺四部分[1],如圖1所示。
1.1 通信分系統
通信分系統是民航氣象數據庫系統的基礎系統,它主要實現各類氣象資料的接收、檢查、處理,并根據一定的規則向其它系統及地區中心進行資料分發,同時實現氣象中心、地區中心與航站之間的數據交換。通信分系統將獲取的各種氣象數據發送給數據庫分系統,數據庫分系統將這些數據進行分類、解析和處理后存儲在數據庫中。
1.2 數據庫分系統
數據庫分系統采根據存儲數據的用途及時間劃分為實時庫、歷史庫及臨時庫,分別滿足不同的業務與服務的要求。數據庫分系統又分為資料處理子系統和數據庫管理子系統。
(1)資料處理子系統對服務器data目錄下接收到的氣象信息進行分析分解,質量控制后入庫;
(2)數據庫管理子系統采用C/S模式,對資料處理、數據庫等進行實時監控與管理,預報平臺與服務平臺則通過獲取Oracle數據庫中的氣象資料,以不同的形式展現給用戶。數據庫管理子系統主要側重于對數據庫中氣象資料的管理。提供的主要功能有:系統登錄、資料處理、數據庫管理、數據庫恢復、日志和統計、告警、用戶管理、進程管理、系統配置、窗口、幫助等。
1.3 預報平臺
預報平臺(民航氣象信息綜合處理系統)利用氣象實時數據庫資料,通過對數據庫中的氣象資料進行檢索、分析、處理,制作成文本、圖形等形式的氣象產品,為航空氣象預報人員提供服務。
1.4 服務平臺
氣象信息服務平臺從數據庫中提取相關產品,以WEB形式展示向航空氣象用戶提供航空氣象產品及服務。
2 故障現象
民航氣象數據庫系統數據庫子系統運行環境:硬件環境為IBM服務器;操作系統為AIX5.2;數據庫系統為oracle 10g。
數據庫運行一段時間后,資料處理子系統相關進程自動停止運行,導致621客戶端及相關協議單位無法檢索到最新資料,且重新啟動后再次停止運行或直接無法重新啟動。
3 故障分析
通過查看數據庫相應進程診斷文件方法檢查故障原因,數據庫診斷文件是獲取有關數據庫活動信息的一種方法,用于解決數據庫出現的一些問題,主要包含有關數據庫中出現的重要事件的一些信息,這些文件能更好的對數據庫進行日常的管理。
5 結束語
本文介紹了一起民航氣象數據庫常見故障,即達到進程最大連接數后導致相關用戶進程頻繁down機問題,造成用戶無法獲取最新報文和自觀數據,一般較為普遍的處理方法為采用修改系統最大進程連接數后重新啟動數據庫,但是民航氣象數據庫對系統停機重啟要求較高,重啟數據庫將導致用戶無法及時獲取數據,具有一定的安全風險。本文主要利用Oracle數據庫中遠程連接進程的共同特點,都含有關鍵字“LOCAL=NO”,然后經根據關鍵字“LOCAL=NO”篩選出inactive進程使用“kill -9”強行殺掉[4],此方法可以實現在不重啟數據庫情況下解決ORA-0020問題。
【參考文獻】
[1]太極計算機股份有限公司,民航氣象衛星傳真廣播系統用戶手冊[M].1-60.
一、對象與方法
1.對象 :選擇2010年1月至2011年11月在我們服務中心接受靜脈穿刺后發生局部淤血的200例患者,其中男性84人,女性156人,年齡18至60歲。
2.方法 :對靜脈穿刺后發生局部淤血的患者進行原因分析,將淤血外滲分為4種原因;(1)患者因素 指患者輸液局部的血管、全身情況等導致淤血;(2)機械因素 指針頭的型號、輸液的藥物濃度、針頭固定方式等原因導致的淤血;(3)按壓方式因素 指拔針后按壓部位錯誤或按壓時間過短等造成的局部淤血;(4)操作因素 指護理人員穿刺操作不規范、血管選擇不好、技術差等原因造成的局部淤血。
二、結果
靜脈穿刺后發生局部淤血的因素分析見表1
表1靜脈穿刺后局部淤血的相關因素分析
三、討論
1.靜脈穿刺后發生淤血的相關因素 有表1可以看出患者按壓方式不正確是造成靜脈局部淤血的主要原因,不正確的方式包括(1)按壓時間過短,正常人出凝血時間是3-5分鐘,也就是說靜脈輸液完畢,拔針后必須按壓穿刺部位5-10分鐘才能止住血,對有一些特殊的血液病等凝血功能障礙者,應再適當延長按壓時間。若按壓時間不足,則會引起皮下淤血。(2)患者拔針后按壓位置不當,靜脈穿刺時,針頭與皮膚一般成20-250角,由靜脈上方或側方快速刺入皮下,沿靜脈方向潛行少許刺入靜脈血管,因此,皮膚穿刺點與靜脈穿刺點不在同一位置,所以,如果拔針后只按壓皮膚穿刺點而沒有按住靜脈血管穿刺點,也會導致皮下淤血。其次有表1還可以看出護理人員的操作不當也占一小部分因素,由于靜脈輸液在臨床上廣泛應用,熟練掌握靜脈輸液穿刺技術及相關知識尤為重要。護理人員的操作因素主要包括輸液穿刺技術不高、操作失誤、無法辨認血管位置、穿刺血管或針柄固定不牢導致針頭脫出血管外導致皮下淤血;還有選擇穿刺點不規范,在同一條血管同一部位短時間內反復多次穿刺,造成血管壁多個針孔滲血導致皮下淤血。
中圖分類號:O175.27
文獻標識碼:A文章編號:1672-8513(2010)03-0181-04
Oscillation of the Solutions of Neutral Hyperbolic Partial Differential
Equation with Nonlinear Diffusion Coefficient and Damped Term
ZENG Yunhui
(Department of Mathematics and Computational Science,Hengyang Normal University,Hengyang 421008,China)
Abstract:
This paper discusses the oscillation of solutions of neutral hyperbolic partial differential equation with nonlinear diffusion coefficient and damped term. Some sufficient conditions for each solution are obtained by using Riccati transformation and the method of differential inequality under two kinds of different boundary value conditions.
Key words:
damped term; nonlinear diffusion coefficient; hyperbolic partial differential equation
近年來,國內外許多學者研究了雙曲型偏微分方程解的振動性,已有一些研究成果發表[1-6],但具非線性擴散系數和阻尼項的中立型雙曲泛函微分方程解的振動性的研究成果目前國內尚未見報道.本文討論一類具非線性擴散系數和阻尼項的中立型雙曲偏微分方程解的振動性.
考慮如下偏微分方程
tr(t)t[u(x,t)+∑dr=1cr(t)u(x,δr(t))]+m(t)t[u(x,t)+∑dr=1cr(t)u(x,δr(t))]=
a(t)h(u)Δu+∑mj=1aj(t)hj(u(x,t-τj(t)))Δu(x,t-τj(t))-
∑nk=1bk(x,t)fk(u(x,t-σk(t))),(1)
其中(x,t)∈Ω×R+G,R+=[0,∞),ΩRn有界且Ω逐片光滑,Δu=∑ni=12ux2i,(x,t)∈G.
邊值條件:uN=g(u,x,t),(x,t)∈Ω×R+,(2)
u(x,t)=0,(x,t)∈Ω×R+,(3)
本文總假定下列條件成立:
(H1) r(t),m(t),a(t),aj(t),τj(t),σk(t)∈C(R+,R+); bk(x,t)∈C[×R+,(0,∞)],bk(t)=minx∈Ωbk(x,t),τj(t)≤t,σk(t)≤t,σ′k(t)≤1,cr(t)∈C(R+,R+),0≤∑dr=1cr(t)
(H2) h(u),hj(u),fk(u)∈C(R,R),且對u≠0有 fk(u)u≥Ckconst>0,uh(u)g(u,x,t)
引理1 設Q(t)∈C([μ,+∞);R+),Qk(t),σk(t)∈C([μ,+∞);R+),σk(t)關于t為非減函數且σk(t)≤t,limt+∞(t-σk(t))=+∞,若條件
∫+∞t3 Qk(s)ds=+∞,(t3>0)(4)
成立,則微分不等式 Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t))≤0無最終正解.
證明 (反證法)假設Z(t)是微分不等式
Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t))≤0.
的一個最終正解,則存在t1>0,當t≥t1>0時,Z(t)>0,可得
Z′(t)+∑nk=1Qk(t)Z(t-σk(t))≤0
又σk(t)≤t,limt+∞(t-σk(t))=+∞,則存在t2≥t1>0,當t≥t2>0時,Z(t-σk(t))>0.因此
Z′(t)≤-∑nk=1Qk(t)Z(t-σk(t)),
故limt+∞Z(t)=C1≥0,則存在t3≥t2>0,當t>t3>0時,有Z(t-σk(t))≥C1.從而得
Z′(t)≤-C1∑nk=1Qk(t)(5)
第3期曾云輝:具非線性擴散系數和阻尼項的中立型雙曲偏微分方程解的振動性
對(5)在[t3,t]上關于t積分,得Z(t)≤Z(t3)-C1∑nk=1∫t3tQk(s)ds,取極限并結合條件(4)有limt+∞Z(t)≤Z(t3)-C1∑nk=1∫t3∞Qk(s)ds=-∞這與Z(t)>0矛盾,引理1得證.
定理1 對于方程(1)、(2),條件(H1),(H2)及(4)成立,其中
Qk(t)=Ckbk(t)[1-∑dr=1cr(t)]θk[t-σk(t)]1-σ′k(t)r(t-σk(t)),0
若滿足
∫+∞t21r(ξ)exp[-∫t1ξm(s)r(s)ds]dξ=+∞,(6)
則方程(1),(2)的所有解在G內是振動的.
證明 假設方程(1),(2)存在一個非振動解u(x,t),不失一般性,不妨設u(x,t)>0,t≥t0>0,t0為某一常數(若u(x,t)0,u(x,t-τj(t))>0,u(x,t-σk(t))>0,u(δr(t))>0,j∈Im,k∈In.
方程(1)兩邊在Ω上關于x積分得:
ddtr(t)ddt[∫Ωu(x,t)dx+∑dr=1cr(t)∫Ωu(x,δr(t))dx]+m(t)
ddt[∫Ωu(x,t)dx+∑dr=1cr(t)∫Ωu(x,δr(t))dx]=a(t)∫Ωh(u)Δu(x,t)dx+∑mj=1aj(t)∫Ωhj(u(x,t-τj(t)))Δu(x,t-τj(t))dx-∑nk=1∫Ωbk(x,t)fk(u(x,t-σk(t)))dx,t≥t1,(7)
由Green公式及邊值條件(2)和(H2)有:
∫Ωh(u)Δux,tdx=∫Ωh(u)u(x,t)Nds-∫Ωh′(u)gradu2dx=∫Ωh(u)g(u,x,t)ds-∫Ωh′(u)gradu2dx≤0, t≥t1,(8)
∫Ωhj(u(x,t-τj(t)))Δu(x,t-τj(t))dx≤0,j∈Im, t≥t1,(9)
其中ds是Ω上的面積元素,又由(H1)和(H2)有
∫Ωbk(x,t)fk(u(x,t-σk(t)))dx≥bk(t)Ck∫Ωu(x,t-σk(t))dx,(10)
令V(t)=∫Ωu(x,t)dx,則當t≥t1時,V(t)>0,由(7)~(10)可得:
r(t)[V(t)+∑dr=1cr(t)V(δr(t))]′′+m(t)[V(t)+∑dr=1cr(t)V(δr(t))]′+∑nk=1Ckbk(t)V(t-σk(t))≤0,
令y(t)=exp∫tt1m(s)r(s)ds,w(t)=[V(t)+∑dr=1cr(t)V(δr(t))],則w(t)≥V(t)>0且有
[r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)V(t-σk(t))≤0,t≥t1(11)
由于[r(t)w′(t)y(t)]′=[r(t)w′(t)]′y(t)+r(t)w′(t)y′(t)=[r(t)w′(t)]′y(t)+r(t)w′(t)y(t)m(t)r(t) =[r(t)w′(t)]′+m(t)w′(t)y(t)
因此, 1y(t)[r(t)w′(t)y(t)]′=[r(t)w′(t)]′+m(t)w′(t).
從而, 1y(t)[r(t)w′(t)y(t)]′+∑nk=1Ckbk(t)V(t-σk(t))≤0.
從而, [r(t)w′(t)y(t)]′≤0.
下證:w′(t)≥0且不能w′(t)0.
若w′(t)0,使當t≥t2>0時,有
r(t)w′(t)y(t)≤r(t2)w′(t2)y(t2)=α
w′(t)≤αy(t)r(t)=α1r(t)exp(-∫tt1m(s)r(s)ds)(12)
對(12)式在[t2,t]上關于t積分,得
w(t)≤w(t2)+α∫tt21r(ξ)exp(-∫ξt1m(s)r(s)ds)dξ .(13)
對(13)取極限及條件(6)有
limt∞w(t)≤w(t2)+α∫+∞t21r(ξ)exp(-∫ξt1m(s)r(s)ds)dξ=-∞這與w(t)>0矛盾.
又若w(t)0,則[r(t)w′(t)y(t)]′0,由(16)可得∑nk=1Ckbk(t)V(t-σk(t))≤0,此不可能,因此,w′(t)≥0且不能w′(t)0.
于是有w(t)=[V(t)+∑dr=1cr(t)V(δr(t))],則w(t)≥V(t)>0,得
V(t)=w(t)-∑dr=1cr(t)V(δr(t))≥w(t)-∑dr=1cr(t)w(δr(t))≥[1-∑dr=1cr(t)]w(t),
V(t-σk(t))≥[1-∑dr=1cr(t)]w(t-σk(t)),
從而由(11)得
[r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)[1-∑dr=1cr(t)]w(t-σk(t))≤0.
由微分中值定理,當t≥σk(t)>t2>0時,存在0
w(t-σk(t))≥θk[t-σk(t)]w′(t-σk(t)),
因此 [r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)[1-∑dr=1cr(t)]θk[t-σk(t)]w′(t-σk(t))≤0.
令Z(t)=r(t)w′(t),則w′(t)=1r(t)Z(t),w′(t - σk (t)) = 1 -σk ′ (t)r(t -σk (t))Z(t -σk (t)),
即Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t)≤0,(14)
其中Q(t)=m(t)r(t).
由引理1得微分不等式(14)無最終正解,因此,存在u≥t2>0,使當t≥u>0時,Z(t)=r(t)w′(t)≤0,故w′(t)≤0,這與已證的w′(t)≥0且不能w′(t)0矛盾.定理1得證.
為了討論(1),(3)的振動性,引入如下引理.
引理2[8] 設λ0是下列特征值問題
Δφ(x)+λφ(x)=0,x∈Ω,λ是常數,φ(x)=0,x∈Ω,
的最小特征值,φ(x)是與λ0對應的特征函數,則λ0>0,φ(x)>0,x∈Ω.
類似定理1的證明有:
定理2 設定理1中的條件全部滿足,h(u),hj(u)為常數(均設為1,j∈Im),則方程(1),(3)的所有解在G內是振動的.
參考文獻:
[1]崔寶同,俞元洪,林詩仲.具有時滯的雙曲型微分方程解的振動性[J].應用數學學報,1996,19(1):80-89.
[2]何猛省,高述春.雙曲時滯偏微分方程解的振動性質[J].科學通報,2001,24(2):295-301.
[3]陳大學,周樹清.具有阻尼項和分布時滯的二階中立型泛函微分方程解振動性[J].西南師范大學學報:自然科學版,2007,32(5):22-26.
[4]羅李平,歐陽自根.非線性時滯雙曲型偏微分方程解的振動性質[J].湖南師范大學學報:自然科學版,2006,34(2):10-13.
[5]俞元洪,胡慶席.帶有阻尼項的偏泛函微分方程解的振動準則[J].數學的實踐與認識,2000,30(3):331-338.
DOI:10.3969/j.issn.1008-0821.2016.02.031
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)02-0167-04
〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.
〔Key words〕research data;open data policy;research status;research trend
科學數據(Scientific Data),也稱科研數據(Research Data),與科學論文一樣也被視為重要的科研產出,也是一種具有潛在經濟價值的戰略資源。開放科學數據對數據驅動科學研究起到了關鍵作用,越來越多的研究是建立在對已有科學數據重用的基礎之上的。因此,完整保存并開放獲取先前研究的科學數據,對于順利開展后續研究、推動科學進步具有重要意義。開放科學數據在國家科技創新中的戰略地位不斷提升,目前在開放規模和開放程度上均達到了前所未有的水平。通過開放科學數據改善社會生活受到眾多投資者、出版商、科學家和其他利益相關者的高度關注,歐洲、美國以及眾多國際組織與研究機構都積極建立開放科學數據的政策保障與管理機制。如美國已經形成了以“完全與開放”為基本國策的科學數據開放共享法規體系;經濟合作與發展組織(OECD)頒布了《公共資金資助的科學數據獲取原則與指南》,以指導成員國制定與完善科學數據開放共享政策;歐盟“地平線2020計劃”將科學數據新增為開放存取的對象并要求逐步達到開放性可獲取,并啟動了旨在促進科學數據獲取和再利用的“科學數據開放先導性計劃”[1]。
我國早在2002年就已正式啟動科學數據共享工程,并先后在六大領域共計24個部門開展了科學數據共享工作。2006年以來,中國科學院國家科學圖書館提出并開展了科學數據與科技文獻跨界集成服務、數據融合技術的研究和開發。目前,我國在科學數據開放政策的制定和完善方面,與美國、英國、澳大利亞、日本、韓國、臺灣等國家和地區相比仍顯滯后。本文針對國內外科學數據開放政策的研究現狀進行了比較分析,在此基礎上探討了國內外相關研究的特點以及我國現有研究的不足,并對我國科學數據開放政策的未來研究動向進行了評判。
1 國內研究現狀分析
對從CNKI和萬方數據兩大中文數據庫檢索到的相關文獻進行閱讀和梳理發現,我國針對科學數據開放政策的相關研究可以概括為以下5個方面:
1.1 建立開放科學數據政策保障機制的理論性研究
目前已有較多成果是針對建立和完善科學數據開放共享政策法規的頂層設計展開論證,如劉細文(2009)指出,美國、英國以及眾多國際組織與研究機構都就科學數據開放獲取問題,積極建立政策保障與管理機制并廣泛推行相關服務與實踐,其政策舉措主要圍繞科學數據交流渠道各環節,集中體現在數據開放資助、數據質量控制、數據合法保護、數據保存以及數據共享利用五大方面[2]。王晴(2014)指出:國內外20余個組織相繼制定或實施了30余條旨在促進科學數據開放共享的政策法規,根據制定主體和效力范圍可以分為宏觀、中觀和微觀3個層面,共同形成了一個較為完備并在不斷完善的制度體系[3]。
1.2 針對國內外各類科學數據開放共享政策的調查研究 目前已有部分成果針對多種政策主體(如高等院校、科研資助機構、信息服務機構等)的有關開放科學數據的聲明、指南以及政策法規等各類政策文本展開了調查分析,如司莉等(2013)考察了美國、英國、澳大利亞3個國家的科研管理機構、高校制定的數據管理政策以及政府制定的數據公開政策,并指出:發達國家的政府部門都制定了科學數據開放共享政策,對科學數據的保存與管理等均作了明確具體的規定。我國政府也應制定完善的科學數據開放共享政策,從政策層面對科學數據的開放共享進行指導和規范[4]。司莉等(2014)針對英美10所高校的科學數據開放共享政策,從一般政策、數據標準、數據訪問與保存、數據共享、數據安全與保護以及數據產權6個方面進行了調查與比較,揭示了英美兩國大學科學數據開放共享政策的特點與差異,指出通過借鑒國外大學科學數據開放共享政策的良好實踐,推動我國大學相關政策法規的制定和[5]。唐源等(2015)針對國外典型醫學相關機構的科學數據開放共享政策從科學數據開放資助、科學數據匯交、科學數據保存、數據共享利用4個方面的政策內容進行文獻調研和網站調研,指出國外政策制定者從政府到機構自身以及期刊等具有多重身份,政策內容集中于數據匯交和共享計劃。
1.3 科學數據開放政策利益主體的開放共享行為研究 由于開放科學數據的利益主體一般要受到相關政策法規的制約,因此也可視為科學數據開放政策的利益主體。國內的相關研究成果主要包括:①單一利益主體的開放共享行為的共享意愿及影響因素分析,如張晉朝(2013)通過問卷調查方法和結構方程模型,分析了我國高??蒲腥藛T科學數據共享意愿的影響因素,指出科學數據開放共享工作的順利開展不僅要關注技術維度,還要關注社會環境因素、內在激勵、人際信任等人文維度[7]。②針對單一利益主體的開放共享行為的演化博弈分析,如莊倩等(2015)建立了參與科學數據開放共享的科研人員之間的演化博弈模型,揭示了科學數據開放共享博弈中存在的"公共品困境"及其原因,指出為促進我國科學數據開放共享健康有序發展,不能僅從國家層面制定和完善相關的戰略規劃,還要從政策法規層面建立相應的激勵機制[8]。
1.4 制定開放科學數據相關知識產權政策法律問題的研究 雖然目前科學數據具有著作權已經成為共識,但其使用存在著作權界定不清及其利益分配不當等問題,尤其是科學數據二次研發過程中的著作權分配問題。司莉等(2015)從科學數據開放共享中的授權方式、數據出版及引用、技術措施、制度與法規、科學數據二次利用5個方面分別探討了科學數據著作權保護存在的問題及對策,指出我國應結合知識產權保護法、著作權法、專利法和中華人民共和國政府信息公開條例等已有法規條例,盡快建立完善的科學數據著作權保護體系[9]。
1.5 基于政策文本分析的科學數據開放政策實證研究 目前國內的相關研究成果非常有限,主要是通過內容分析法進行政策文本分析,如裴雷(2013)通過內容分析法構建了基于政策文本的上下位政策概念一致性的測算框架,并對我國12個領域的科學數據開放共享政策文本進行內容編碼和實證分析,探討了當前我國科學數據開放共享政策在吸收、擴散和創新過程中的政策文本質量[10]。
2 國外研究現狀分析
對從Springer、Emerald和Elsevier三大外文數據庫檢索到的相關文獻進行閱讀和梳理,可以發現國外科學數據開放政策研究所涉及的研究主題更為廣泛,可以大致概括為以下5個方面:
2.1 制定科學數據開放政策的理論探討與實踐研究
國外學者針對這一研究主題的研究成果也比較豐富,如Childs S等(2014)探討了作為實現開放科學數據的機制――科研數據管理(RDM)的作用以及它帶給記錄管理者的機遇,并指出開放科學數據議程的前提是盡可能公開可用的數據,在開放科學數據的背景下仍然存在方法、倫理、政策和實踐等層面的問題[11]。Higman R等(2015)借鑒行動者網絡理論(Actor Network Theory)并結合政策分析過程和案例研究方法,考察了在英國高等教育機構中建立科學數據管理(RDM)政策與實踐的驅動因素,以及科學數據開放共享在科學數據管理過程中的關鍵作用[12]。
2.2 科學數據開放政策利益主體的開放共享行為研究 國外學者針對科研人員的開放共享行為的共享意愿及其影響因素展開了較為系統的實證研究,如Wicherts J M等(2011)對心理學期刊中的統計結果顯著與數據共享意愿的相關性進行了實證研究,發現科研人員不愿意共享數據的主要原因在于:統計結果不構成充分的證據以及更有可能存在明顯的錯誤,并強調了建立科學數據的強制性歸檔政策的重要性[13]。Sayogo D S等(2013)指出科學數據開放共享存在多重障礙與挑戰:①技術上的障礙;②社會、組織和經濟上的障礙;③法律和政策上的障礙,并通過問卷調查得出影響科研人員開放共享意愿的幾個關鍵因素:數據管理技能、組織參與、法律與政策需求、向數據集提供者致謝[14]。
2.3 面向科學數據開放政策利益主體的開放共享服務研究 國外學者針對高校圖書館、研究型圖書館、信息服務機構的科學數據開放共享服務實踐展開了廣泛的研究,國內的相關研究主要是對國外科學數據服務實踐的案例研究及調查分析,如Nielsen H J等(2014)認為科學數據管理(RDM)是圖書館員和信息專業人員的潛在職責,研究型圖書館是選擇、保護、組織與利用科學數據的最佳場所,并應積極參與到其所在學科領域的特定領域的分析研究[15]。Tenopir C等(2014)指出數據密集型科學的出現和數據管理規范的制定,驅動高校圖書館為其教師和學生開展數據管理服務(RDS),并通過調查研究建立了圖書館員、圖書館、信息服務機構參與數據管理服務的評價基準[16]。
2.4 針對專業領域科學數據開放政策的政策分析研究 國外學者針對天文、氣象、地球、生物、醫學等自然科學以及心理學、倫理學等社會科學專業領域的科學數據開放共享政策進行了政策分析研究,如Harris R等(2015)考察了參與開放地球觀測數據的八國集團、歐盟和國際組織的21個政策文本和法律文書――八國集團(G8)開放數據、全球綜合地球觀測系統(GEOSS)數據共享原則、經濟合作與發展組織(OECD)科學數據原則與指南、歐洲環境信息指令等,指出地球觀測領域開放數據政策應更加明確、完整地說明開放獲取的條件,以期充分實現開放地球觀測數據的潛在利益[17]。
2.5 基于政策文本分析的科學數據開放政策實證研究 國外學者進行政策文本分析時除了運用常規的內容分析法以外,還創新性地引入了語義網分析、社會網絡分析等研究方法,如Jung K等(2015)對韓國《開放公共數據指令》(OPDD)的政策文本進行了語義網分析,并指出:利用語義網的概念模型及分析過程有助于確定各類公共政策針對的主要問題及解決視角的一致性[18]。
3 國內外研究現狀的比較分析
對國內外科學數據開放政策的相關研究進行對比,可以發現具有以下幾個特點:①總體來看,我國學者針對科學數據開放政策各研究主題的相關研究,目前大多處于對國外先進政策實踐的案例研究與調查分析階段。②國內外針對科學數據開放政策的相關研究目前主要以英美兩國的政策實踐為主,原因在于英美兩國已經建立起相對完善的科學數據開放政策法規體系,如經濟合作與發展組織(OECD)于2007年頒布了《公共資助科學數據開放獲取的原則和指南》,提倡所有的獲公共資金支持得到的科學數據都應能被公眾獲取、共享。美國、英國等一些重要基金機構也提出了科學數據開放政策指南,如美國國家科學基金會(NSF)、美國國立衛生研究院(NIH)、美國國家航空航天局(NASA)、英國研究理事會(RCUK)等,要求所有獲得資助的項目提交科學數據的開放共享計劃。美國科技政策辦公室(OSTP)于2013年簽署了關于“提高聯邦政府資助的科學研究結果的訪問”的備忘錄,要求由聯邦資金資助所產生的非保密的科學數據,應該存儲并為公眾提供免費的最大化訪問[19]。③國內外對于具體專業領域的科學數據開放政策的研究相對較多,但對于國家統一綜合層面的科學數據開放政策研究十分有限。
對比國內外開放數據政策研究的現狀不難看出,國內相關研究主要存在以下不足:①目前的研究成果主要是針對國外高等院校、信息服務機構和科研資助機構的科學數據開放共享政策的調查研究與比較分析,但從整體來看這類研究成果的研究內容比較分散、系統性不強;②已有研究針對參與科學數據開放的單一利益主體(如研究人員)的開放共享行為進行了演化博弈分析,尚未發現針對參與科學數據開放的多個利益主體之間的演化博弈分析的相關研究;③針對科學數據開放政策的政策文本分析目前主要采用內容分析法,尚未展開借鑒多學科理論與方法的政策文本分析方法的探索性研究;④尚未展開針對科學數據開放政策群的政策協同研究,已有學者針對政府數據的開放數據政策與數據安全政策的協同關系展開研究[20],如黃道麗等(2015)分析了美國政府的開放數據政策與網絡安全政策之間的沖突與協調[21],但尚未發現有針對科學數據展開的類似研究;⑤尚未從政策科學的研究視角展開系統性的科學數據開放政策評估研究。
4 我國未來研究動向評判
通過以上的比較分析,筆者認為,我國圖書情報及相關學科領域研究者應展開協作研究,并從以下5個方面強化和拓展這一重要的跨學科研究領域。
4.1 各類科學數據開放政策的調查與比較分析
針對主要發達國家的政府部門、高等院校與科研機構以及各類國際組織的有關開放科學數據的聲明、指南以及政策法規等各類政策文本展開廣泛的調查分析,比較和分析各類政策文本中有關一般政策、數據標準、數據共享、數據保存、數據安全和數據產權等方面內容的特點與差異,合理借鑒發達國家在政策的系統性、一致性、完善性方面的經驗,為推進我國科學數據開放政策的制定與完善提供必要的參考借鑒。
4.2 科學數據開放政策多個利益主體的博弈分析
現有的研究成果主要是針對參與科學數據開放的單一利益主體(如研究人員)的博弈分析,在后續研究中可針對參與科學數據開放的多個利益主體(研究人員、科研機構、數據中心、資助者、出版者、第三方用戶等)之間的利益訴求關系展開研究,建立參與科學數據開放的多個利益主體之間的演化博弈模型,探索促進多個利益主體開放科學數據的激勵機制,為從微觀層面制定和完善科學數據開放政策提供演化博弈的理論框架。
4.3 基于多學科方法的科學數據開放政策文本分析
值得關注的研究方向包括:①借鑒多學科理論與方法對政策文本進行內容分析,如借鑒扎根理論的“信息提取-歸納-概念化-重組”思想,對各類科學數據開放政策文本進行解構、分類和比較,提取科學數據開放政策的區分要素,確定政策文本結構化編碼體系和分類標準,將政策文本轉化為半結構化數據,建立類定量化的政策文本分析框架。②基于知識單元的政策文本分析方法的探索性研究,如借助于語義網分析和社會網絡分析方法,探索政策文本的詞匯分析單元之間的語義關聯關系,并可通過軟件工具進行網絡結構分析及可視化展示。
4.4 各類科學數據開放政策的政策協同研究
值得關注的研究方向包括:①科學數據開放政策群內部的政策協同研究。通過內容分析法對各類科學數據開放政策進行政策文本分析,從政策連續性、政策互補性、政策交叉性、政策缺失性及政策矛盾性等多個維度考察科學數據開放政策群內部的政策協同。②科學數據開放政策群與數據安全政策群的政策協同研究。借鑒協同論思想和政策協同理論及工具,設計科學數據開放政策群與《中華人民共和國保守國家秘密法》、《中華人民共和國科學技術保密規定》以及其他相關部門頒布的保密規定等數據安全政策群的政策協同機制,制定科學數據開放政策群與數據安全政策群的政策協同策略。
4.5 科學數據開放政策的政策分析與評估研究
將側重于定性分析的政策分析研究與側重于定量分析的政策評估研究相結合,針對科學數據開放政策,從政策科學的學科視角進行多角度的政策分析與評估研究,如針對科學數據開放政策完整的生命周期中的每一環節――政策提案、政策制定、政策實施、政策反饋和政策調整,綜合運用多種政策科學相關理論、方法與工具進行系統性的政策評估研究;運用層次分析法、模糊綜合評判法、數據包絡分析法和灰色關聯度法等政策評估方法,建立科學數據開放政策評估指標體系并進行指標權重分析,采用數學模型及軟件工具構建科學數據開放政策評估模型并進行模擬實驗。
5 結 論
通過CNKI和萬方數據兩大中文數據庫以及Springer、Emerald和Elsevier三大外文數據庫,筆者對國內外現有的科學數據開放政策的相關研究成果進行了比較研究,并在此基礎上探討了國內外相關研究的特點:目前國內的相關研究基本處于對國外先進政策實踐的案例研究與調查分析階段,國內外針對科學數據開放政策的相關研究目前主要以英美兩國的政策實踐為主。結合科學數據開放政策相關領域的學術研究與實踐進展,我國在這一跨學科研究領域未來可能出現五大研究動向:①各類科學數據開放政策的調查與比較分析;②科學數據開放政策多個利益主體的博弈分析;③基于多學科方法的科學數據開放政策文本分析;④各類科學數據開放政策的政策協同研究;⑤科學數據開放政策的政策分析與評估研究。從而推動我國開放科學數據的政策保障與管理機制的建立。
參考文獻
[1]韓纓.歐盟“地平線2020計劃”相關知識產權規則與開放獲取政策研究[J].知識產權,2015,(3):92-96.
[2]劉細文,熊瑞.國外科學數據開放獲取政策特點分析[J].情報理論與實踐,2009,32(9):5-9.
[3]王晴.論科學數據開放共享的運行模式、保障機制及優化策略[J].國家圖書館學刊,2014,(1):3-9.
[4]司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013,(1):61-66.
[5]司莉,辛娟娟.英美高校科學數據管理與共享政策的調查分析[J].圖書館論壇,2014,(9):80-85,65.
[6]唐源,吳丹.國外醫學科學數據共享政策調查及對我國的啟示[J].圖書情報工作,2015,59(18):6-13.
[7]張晉朝.我國高??蒲腥藛T科學數據共享意愿研究[J].情報理論與實踐,2013,36(10):25-30.
[8]莊倩,何琳.科學數據共享中科研人員共享行為的演化博弈分析[J].情報雜志,2015,34(8):152-157.
[9]司莉,賈歡,邢文明.科學數據著作權保護問題與對策研究[J].圖書與情報,2015,(4):118-122.
[10]裴雷.我國科學數據共享政策概念一致性與政策質量評估[J].情報理論與實踐,2013,36(9):28-31.
[11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.
[12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.
[13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.
[14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.
[15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.
[16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.
[17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.
[18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.