時間:2023-06-05 08:44:29
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇數據分析論文范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
改革以來中國發生的大規模人口遷移,是制度變遷和經濟轉型共同作用的結果。中國傳統的計劃經濟體制是圍繞推行重工業優先發展戰略而形成的。在資本稀缺的經濟中,推行資本密集型重工業優先發展戰略,不可能依靠市場來引導資源配置,因而必須通過計劃分配的機制把各種資源按照產業發展的優先序進行配置。由此,以資本和勞動力為代表的資源或生產要素,既無必要,也不允許根據市場價格信號自由流動,因此,隨著20世紀50年代這種發展戰略格局的確定,一系列相關制度安排把資本和勞動力的配置,按照地域、產業、所有制等分類人為地“畫地為牢”,計劃之外的生產要素流動成為不合法的現象。其中把城鄉人口和勞動力分隔開的戶籍制度,以及與其配套的城市勞動就業制度、城市偏向的社會保障制度、基本消費品供應的票證制度、排他性的城市福利體制等,阻礙了勞動力這種生產要素在部門間、地域上和所有制之間的流動。在這種制度下,不存在勞動力市場,農村居民沒有政府的許可不可能向城市流動,勞動和人事部門通過計劃來控制勞動力跨部門流動。
1978年底開始的農村家庭承包制改革,使農戶成為其邊際勞動努力的剩余索取者,從而解決了制度下因平均分配原則而長期解決不了的激勵問題(meng,2000)。與此同時,政府開始對價格進行改革,誘導農民提高農業生產率。在農業剩余勞動力被釋放出來后,非農產業活動更高的報酬吸引勞動力轉移(cook,1999),從而推動農村生產要素市場的發育,原來主要集中在農業的勞動力開始向農村非農產業、小城鎮甚至大中城市流動。
由于各種阻礙勞動力流動的障礙尚未拆除,以及政府鼓勵農村勞動力就地轉移的政策引導,20世紀80年代前期的勞動力轉移以從農業向農村非農產業轉移為主,主要是在鄉鎮企業中就業,即所謂的“離土不離鄉”。但隨著鄉鎮企業遇到來自國有企業、“三資”企業和私人企業越來越強勁的競爭,必須提高技術水平和產品質量,因而鄉鎮企業資本增加的速度逐漸加快,吸納勞動力的速度相應減緩。農村勞動力面臨著越來越強烈的跨地區轉移的壓力。與此同時,外商投資企業、中外合資企業、私營企業和股份公司等其他非國有部門在東部地區發展較快,擴大了對勞動力需求,并成為消除制約勞動力流動體制障礙的一支重要力量。
隨著農村勞動力就地轉移渠道日益狹窄,1983年政府開始允許農民從事農產品的長途販運和自銷,第一次給予農民異地經營以合法性。1984年進一步放松對勞動力流動的控制,甚至鼓勵勞動力到臨近小城鎮打工。1988年中央政府則開了先例,允許農民自帶口糧進入城市務工經商。到20世紀90年代,中央政府和地方政府分別采取一系列措施,適當放寬對遷移的政策限制,也就意味著對戶籍制度進行了一定程度的改革。例如,許多各種規模的城市很早就實行了所謂的“藍印戶口”制度,把絕對的戶籍控制變為選擇性地接受。此外,1998年公安部對若干種人群開了進入城市的綠燈,如子女可以隨父母任何一方進行戶籍登記,長期兩地分居的夫妻可以調動到一起并得以戶籍轉換,老人可以隨子女而獲得城市戶口,等等。雖然執行時在一些大城市遇到阻力,但至少在中央政府的層次上為戶籍制度的進一步改革提供了合法性依據。城市福利制度的改革也為農村勞動力向城市流動創造了制度環境。80年代后期開始逐步進行的城市經濟改革,如非國有經濟的發展,糧食定量供給制度的改革,以及住房分配制度、醫療制度及就業制度的改革,降低了農民向城市流動并居住下來和尋找工作的成本。
與其他方面的政策改革相比,戶籍制度改革在很長時間里沒有實質性的突破,成為勞動力流動的最大障礙。所有在就業政策、保障體制和社會服務供給方面對外地人的歧視性對待,都根源于戶籍制度。隨著時間推移,兩方面的因素變化推動政府對遷移政策進行改革。一是城市戶籍制度不再擁有外部或隱含的福利,也就是地方政府不再根據個人的戶籍來提供就業、社會福利等各方面保障。這樣,城市人口規模擴張不會給地方政府增添額外財政負擔。二是地方政府意識到,勞動力流動不僅帶來資源重新配置,而且也是城市融資的一個重要來源。這樣,市場化發育水平相異的城市根據各自目標來推進城市戶籍制度改革。
可見,通過戶籍制度及一系列其他阻礙人口遷移的制度因素的改革而推動的勞動力流動,不僅是經濟發展的一個重要內容,也是整個經濟體制向市場機制轉變的重要進程,并且以其他領域改革的進展為前提。這個轉變或改革的結果便是勞動力市場的形成與發育,勞動力資源越來越多地由市場來配置。而在整個經濟不斷市場化的過程中,人口遷移也表現出轉軌時期的特點。這是中國轉軌時期人口遷移的特殊性所在。本文旨在利用2000年人口普查資料來分析人口流動與市場化之間的關系。
一、轉軌時期人口遷移理論
人口和勞動力在地區間的流動,是勞動力市場在空間上從不均衡向均衡轉變的過程。發展中國家在其經濟發展過程中,伴隨著工業化和城市化發展,大量農村人口和勞動力從農村流向城市,從低生產率的農業部門流向生產率較高的工業部門。劉易斯(lewis,1954)認為,發展中國家存在著典型的二元經濟結構,農村存在著大量剩余勞動力和隱蔽性失業,農業中勞動力的邊際生產力幾乎等于零或為負值,農村勞動力從農業部門流出不會對農業產出帶來負面影響,反而使留在農業部門勞動力的邊際產出不斷提高;隨著城市中勞動力數量不斷增加,城市工資水平開始下降,直至城市部門的工資水平與農業部門的工資水平相等,農村勞動力向城市流動才會停止。在劉易斯的模型中,勞動力在城鄉之間可以自由流動,不存在顯著的制度。城市現代部門的較高工資水平和傳統農業部門的低工資水平,是勞動力在城鄉之間流動的驅動力量。在托達羅(todaro,1969;harris和todaro,1970)兩部門模型分析中,農村人口和勞動力的遷移取決于城市的工資水平和就業概率,當城市的預期收入水平和農村的工資水平相等時,勞動力在城鄉之間分配和遷移都達到均衡。
由于城市經濟存在著現代正規部門和非正規部門之分,農村勞動力向城市遷移首先進入非正規部門,然后才有可能進入正規部門就業。城市正規部門就業創造率越大,越有利于將更多的非正規部門勞動力轉入正規部門;城鄉收入差距越大,從農村流向城市非正規部門勞動力數量越多,城市非正規部門勞動力規模也越大。由于城市正規部門的就業創造率取決于工業產出增長率及該部門的勞動生產率增長率,城市工業的快速增長將有利于提高正規部門的就業創造率,從而減少城市非正規部門的勞動力規模。但是,這個效應有可能被城市工資增長所誘發的大量新增農村勞動力流入所抵消。因此,城市正規部門的就業創造結果帶來了城市失業率的上升。
費爾茨(fields,1974)認為,托達羅模型中沒有考慮農村勞動力在城市正規部門尋找工作的概率問題。由于非正規部門勞動力獲得正規部門就業機會的相對概率較低,流入城市的農村勞動力大多數只能滯留于非正規部門。他們之所以能夠接受較低的工資水平,主要是在于他們預期能夠從得到的城市正規部門工作機會中獲得補償。在托達羅模型基礎上,費爾茨引入了搜尋工作機會的觀點,一方面強調了城市制度工資和相對就業概率對遷移過程的影響,另一方面也指出,非正式部門大量不充分就業的勞動力保證了勞動力市場實現均衡時的失業率低于托達羅模型得出的估計。非正式部門大量不充分就業的勞動力存在,在一定程度上緩解了城市的失業問題。
隨著勞動力流動,城鄉勞動力市場開始相互作用。但是,根據托達羅理論,城市失業率上升將起到減緩人口繼續向城市遷移。如果依據費爾茨的觀點,城市勞動力市場似乎對農村勞動力流動的影響不大。相比之下,在成熟的市場經濟中,城市的失業率是影響勞動力流動的重要因素。托普爾(topel,1986)利用美國人口普查資料研究發現,1970~1980年,美國東部、中部和北部各州的平均失業率相對于全國水平上升了23%,同時西部和西南部各州的失業率卻顯著下降。同期,人口遷移的空間流向恰好與此相反,人口凈流入地區為西部和西南部地區,東部、中部和北部均為人口凈流出地區。
中國的人口遷移不僅具有發展中國家的一般特征,而且還有經濟體制轉型的獨特之處。如前所述,中國特有的戶籍制度及其改革過程,為人口和勞動力自由流動和擇業提供了制度基礎,這也是研究其他國家人口遷移的理論沒有遇到過的問題。隨著時間的推移,包括戶籍制度在內的各項市場化改革措施必然對人口與勞動力遷移產生顯著影響。同時,城市就業環境變化也為我們觀察城鄉勞動力市場的相互作用提供了條件。
首先,不僅是城鄉之間、地區之間的收入差距驅動人口的遷移,市場化水平在城鄉和地區間的差異也直接影響農村勞動力遷移決策,從而形成特定的遷移流向。在經濟發展的初期,資本相對稀缺而勞動力相對豐富。因此,中國經濟的比較優勢在勞動密集型產業。在20世紀80年代以前的經濟增長模式下,由于政府采取人為扭曲資金價格的方式,在資金密集型產業上投資過多,抑制了具有比較優勢的勞動密集型產業的發展,導致產業結構的扭曲,資源配置效率的損失。經濟改革以來,通過一系列制度變革,資源配置逐漸轉向勞動力較為密集的產業,較好地發揮了中國勞動力資源豐富的比較優勢。產品和生產要素市場的發育帶來了資源重新配置效率的改善,對經濟增長做出了重要的貢獻(cai等,2002)。由于生產要素市場發育上在地區之間不平衡,這種資源重新配置的效果主要體現在沿海地區。2000年,92.1%進出口貿易集中在東部地區,中西部地區分別為4.3%和3.6%.同年,86.5%的外商直接投資集中在東部地區,中西部地區分別為8.9%和4.6%.因此,勞動力遷移在東部地區更為活躍,遷移的流向也以從中西部地區向東部地區為特征。
其次,正如在其他國家觀察到的那樣,較大的遷移距離增加了交通成本、弱化了社會網絡關系和目的地的就業信息,減少了遷移者的收益預期,因此,遷移距離上升降低了遷移發生概率。工作的不穩定性和信息獲得的不確定性,不僅造成了遷移流向是一個從縣內流向縣外,從省內向省外的漸進過程,而且使得親友等社會網絡成為遷移者獲得非正規部門就業信息的主要方式。格林伍得(greenwood,1969)認為,遷移存量對人口在地區之間遷移扮演著社會網絡的作用。先前的遷移可以為后來者提供信息和其他方面的幫助,減少遷移風險,從而對后期的遷移產生影響。蔡fǎng@①(cai,1999)研究發現,75.8%的省內遷移者、82.4%的跨省遷移者的就業信息獲得是通過住在城里或在城里找到工作的親戚、老鄉、朋友獲得的。因此,農村勞動力向城市流動通常受到距離所反映出的社會網絡強弱的限制,形成分階段遷移。
第三,盡管戶籍制度繼續阻隔著農村勞動力向城市遷移,但市場化改革使得城鄉勞動力市場開始融合,城市就業環境變化必然對農村勞動力向城市流動帶來影響。隨著國有企業虧損和非國有部門擴大,越來越多的原國有企業職工開始和遷移者在非正式部門展開就業競爭。在這種情況下,農村勞動力“是走還是留”,取決于正式部門和非正式部門的就業狀況,而且其決策通常是暫時的,而不是長期的。這與harris和todaro(1970)模型中所討論的情況(遷移者在非正式部門臨時就業、等待得到正式部門就業機會),以及sethuraman(1981)觀察到其他發展中國家的情況(大多數遷移者將他們在非正式部門就業視為永久性的)都有顯著差異。一個普遍觀察到的現象是,中國農村勞動力向城市和發達地區流動,通常具有季節性特點,最多以年為單位在原住地和遷入地之間往返,呈現出“鐘擺式”的流動模式。正如solinger(1999)指出的那樣,城市對農村勞動力的大量需求是推進戶籍制度改革的必要條件。在非國有經濟、特別是外商投資較快的地區,市場力量日益顯現,遷移受到鼓勵。
二、空間分布特征變化
1990年以來,中國地區收入差距進一步擴大,吸引了中西部地區勞動力向東部地區流動。同時,要素市場發育及資源配置市場化程度,對地區經濟增長越來越起著主導性的作用。東部地區不僅對外開放時間早,而且市場發育迅速,較高的市場化水平不斷消除了勞動力等要素跨地區間流動的制度,以至成為勞動力流動的主要吸納地區。而勞動力向東部地區流動反過來也推動了該地區的經濟增長,改善了勞動力資源配置效率(cai等,2002)。表1顯示了人口遷移空間分布狀況的長期變化。1987~2000年,人口遷移的空間分布特征是:地區內部遷移(其中主要是省內遷移)比例始終高于地區間的遷移比例。但地區內部和地區之間的遷移比例則隨著時間不斷發生變化。東部地區內部遷移比例提高,東部地區流向中西部地區的比例下降。而中西部正好與此相反,中部和西部地區內部遷移比例趨于下降,中部向西部、西部向中部的遷移比例也在下降,而中西部向東部地區流入比例不斷上升。
注:(1)從統計口徑上看,1987年遷移數量包括遷入時間在半年以上的市、鎮和縣之間的遷移人口;1990年遷移數量包括遷入時間在1年以上的市、縣之間的遷移人口;1995年遷移數量包括遷入時間在半年以上的市,區、縣之間的遷移人口;2000年遷移數量包括遷入時間在半年以上的鄉、鎮、街道之間的遷移人口。(2)全部遷移人口包括地區內部和地區之間的人口遷移,不同年份在遷移時間規定和遷移范圍上的差別對地區之間分布會帶來一定影響。盡管如此,我們仍可以比較不同年份之間遷移流向的變化。
資料來源:《1987年全國1%人口抽樣調查資料》、《1995年全國1%人口抽樣調查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。
根據2000年第五次人口普查的10%資料顯示,全部遷移人口數量為1246萬,占總人口的10.6%,其中省內遷移為7.7%、跨省遷移為2.9%.在總遷移人口中,省內遷移的比重始終很高,為73.4%.當我們描述跨省遷移的流向時,其主要以東部地區為遷移目的地的傾向更加明顯。表2給出了三類地區跨省遷移比例的空間交叉分布。2000年,東部地區跨省遷移近65%集中在東部其他各省(市),中部地區跨省遷移超過84%集中在東部地區,西部地區跨省遷移超過68%集中在東部地區。從時間趨勢上看,1987~2000年,東部地區內部跨省遷移比例上升了近15%,而中西部地區向東部地區遷移比例上升將近24%,后者比前者高出9個百分點。
從流動的出發地和目的地看,遷移可以被劃分為城市到城市的遷移、城市到農村的遷移、農村到農村的遷移和農村到城市的遷移四種主要類型。從這種類型劃分來觀察地區間遷移的流向,也有助于我們理解轉軌時期中國人口遷移的特點。從全國來看,城市到城市的遷移和農村到城市的遷移是目前遷移的主要形式。2000年,兩者合計占總遷移人口的77.9%,而且農村到城市遷移的比重(40.7%)大于城市到城市的遷移(37.2%)。農村到農村的遷移比重較低,僅占全部遷移的18.2%.而城市到農村的遷移比例最低,不到總遷移人口的1/25.從時間趨勢看,城市到城市的遷移所占比重,在東部、中部和西部三類地區都呈現上升趨勢,而農村到城市的遷移比重略呈下降趨勢。
三、遷移的決定因素:計量分析
在遷移決定因素的實證分析中,早期的遷移模型將重力遷移模型和就業為目的的遷移模型合二為一,假定遷移數量不僅與遷入地和遷出地的人口和遷移距離有關,而且取決于兩個地區之間的工資和失業率的比較。通常,采用下列雙對數模型來分析這些因素對遷移流向的影響(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m為遷移率,x為影響遷移流向的各種因素,d為遷移距離,i,j分別為遷出地和遷入地。
舒爾茨(schultz,1982)認為,人口變量反映的是其他影響遷移而沒有在模型出現的社會經濟變量的作用,它沒有行為學上的意義。由于遷移是人口增長的一部分,在遷移實證模型中引入人口規模會帶來計量上的共同偏差(fields,1979)。而且,由于遷移存量實際上是人口規模的一部分,如果在實證模型中同時引入這兩個變量,將帶來嚴重的多重共線問題,大大降低回歸參數估計的效率。因此,通常做法是在實證模型中不引入人口變量。
在回歸方程的函數形式選擇上,費爾茨(fields,1979)認為,遷移決策本質上是在相互排斥的替代方案之間的一種選擇,非對稱模型比對稱模型對人口遷移具有更強的解釋能力。此外,雙對數線性回歸方程還能夠消除奇異值和異方差對估計效率的影響,滿足理論上就業機會與工資之間的乘積要求,以及提高回歸方程的擬合程度等。他選擇了滯后解釋變量辦法來消除解釋變量的內生性問題。我們也采用了所有解釋變量數據均為1995年數據的辦法來解決遷移模型的內生性問題。
本文數據來自2000年第五次全國人口普查長表資料(10%樣本)和微觀數據(長表1%樣本),1995年全國1%人口抽樣調查資料及國家統計局《中國統計年鑒(1996)》。在數據處理上,正式出版的第五次人口普查長表資料沒有農村向城市跨省遷移勞動力數量及其失業率數據,我們利用第五次全國人口普查的微觀數據計算了這些數據。用于回歸分析變量的統計值見表3.
表3用于回歸分析變量的統計值
注:*根據微觀數據計算。
遷移率的計算,我們采用格林伍得(greenwood,1969)的定義,用1995年11月1日至2000年10月30日從省遷到省的人口數,除以1995年11月1日以前住在省的人口數。根據長表計算得到的遷移率,包括了所有年齡段跨省農村到城市、城市到城市、農村到農村、城市到農村的四種類型遷移人口;用微觀數據計算15~64歲農村勞動力向城市的遷移率。按照這種方法計算得到的兩個遷移率的平均值都不高(見表3)。
遷移距離為省會之間鐵路公里數。中國地域遼闊,鐵路是中國跨省遷移的主要交通方式。這點可以從每年春節農民工返鄉造成的鐵路擁擠狀況中得到印證。遷移距離不僅反應了用于直接交通費用的高低,而且在一定程度上代表了遷移所帶來的心理成本大小。隨著遷移距離增加,遷移帶來的不確定性和遷移風險也會上升,遷移成本隨之增加(schultz,1982;greenwood,1975)。這在勞動力市場不發達的情況下尤其如此。
直接用城市工工資收入和農村人均純收入來作為工資率的變量顯然不合適。隨著收入多元化,相當于實際收入的部分并沒有反映到名義收入之中,城鄉收入在可比性上也存在一定問題(solinger,1995;jefferson,1992)。奧尼爾(o''''neill,1970)建議采用消費指標來克服收入指標作為工資率變量上的不足。我們利用各省城鄉人口作為權重,對城鄉居民人均消費支出進行加權平均,作為各省的工資率變量,預期工資率對遷移流向存在兩種不同的效應。其中,遷入地為正向效應,而遷出地為負向效應。
1995年全國1%抽樣調查和第五次人口普查都對城鄉勞動力的就業狀況進行了統計。1995年調查問卷中有三項指標用來測度勞動力在調查前一周是否處于失業狀態:第一項是從未工作正在找工作,第二項是失去工作正在找工作,第三項是企業停產等待安置的勞動力。2000年人口普查只包括前兩項。據此可以計算得到1995年和2000年城鄉勞動力的失業率,分別為2.2%和3.6%.由于城鄉勞動力的失業率包括了農村勞動力,這低估了城市勞動力市場的就業狀況。《中國2000年人口普查資料》公布了分城市、鎮和農村的經濟活動人口資料,據此計算的城市、鎮和農村的失業率分別為9.4%、6.2%、1.2%.利用2000年微觀數據計算的城市本地勞動力、城市向城市遷移勞動力、農村向城市遷移勞動力的失業率,分別為9.1%、7.9%和3.6%.如果在遷移模型中忽略了遷移存量,將導致高估其他解釋變量對遷移的影響(greenwood,1969)。按照格林伍得的方法,遷移存量應該是以1995年為時點,計算出生在省且居住在省的所有人口。由于中國人口普查資料只提供了出生后一直住在本地和1995年11月1日之前遷入本地等資料,因此,我們采用1995年11月1日之前遷入本地人口指標作為遷移存量的變量。本文中長表的遷移存量包括所有人口,微觀數據的遷移存量只包括15~64歲的人口。我們預期遷移存量對人口遷移有正向效應。
在分析地區人均收入差異和經濟增長中,貿易開放程度通常被看做是影響地區收入增長的重要因素(barro和sala-i-martin,1995;cai等,2002)。貿易開放程度越高,參與國際市場一體化程度也越高。但是,扭曲的貿易和發展戰略也同樣起到擴大出口,提高gdp中的貿易份額比重。相比之下,外商直接投資是國外投資者的選擇。從長期來看,為了獲得最大利潤和規避風險,國外企業在其投資過程中要對各地的產品和要素市場發育情況、體制與政策的透明度等因素進行綜合考慮,并最終做出投資選擇。外資企業進入之后,它利用勞動力市場來解決用人需求,這與國有企業的人事制度形成鮮明對比。因此,我們選擇了外商直接投資作為市場化程度的變量,來分析它們對人口遷移的影響。改革以來,雖然所有省份的外商直接投資數量都在增加,但東部地區與中西部地區之間的差異在不斷擴大。中國人口遷移流向分布主要集中在東部地區,這與東部地區對市場化改革程度較高是分不開的。四、回歸結果與討論
方程1~3是利用第五次人口普查長表資料得到的回歸結果,方程4、5是利用第五次全國人口普查微觀數據得到的回歸結果。由于海南、重慶、與其他省會之間距離未能得到,在回歸中剔除了這3個地區,長表資料中實際用于回歸的樣本數量為756個。在微觀數據中,由于有些省份的遷移率或農村向城市遷移勞動力數量為零,取對數后,這些數據變成缺省值,所以用于回歸的樣本數量為506個。
從表4回歸結果看,利用長表資料得到的回歸方程,解釋了大約60%的所有人口跨省遷移的行為;用微觀數據得到的回歸方程,解釋了大約30%的跨省農村勞動力向城市遷移的行為。表4的非對稱雙對數遷移模型估計結果也表明,遷入地社會經濟變量對人口遷移的影響大于遷出地這些變量所發揮的作用。
回歸方程1~5中大多數解釋變量的回歸系數t值,如遷移距離、人均消費水平、失業率、遷移存量等,都達到了1%或5%的顯著性水平,并且作用方向上與前面的理論預期結果也基本一致。
表4中回歸方程1和2的區別是采用了不同的失業率數據,前者是1995年的失業率,后者是2000年的失業率。使用1995年失業率數據雖然有助于克服內生性問題,但方程1中遷出地失業率回歸系數的絕對值大于遷入地失業率回歸系數的絕對值,這個結果可能與現實情況并不吻合。
1995~2000年,中國城市就業環境發生了急劇變化。伴隨著國有企業改革和城市社會福利體制改革,企業大量富余人員被釋放出來,城市失業率迅速上升。為了解決本地城市職工就業問題,不少地方政府采取了城市就業保護政策,這勢必對以就業為目的的勞動力流動產生較大影響。遷移者是理性的,如果目的地的就業機會較小,遷移者將選擇不流動,以減少遷移風險和成本。這樣,遷入地的就業機會就顯得更為重要。
表4遷移決定因素回歸結果
注:(1)采用異方差檢驗方法(breusch-pagan/cook-weisberg)發現,表中回歸方程的依次為:7.85、1.54、1.38、2.80、4.85.我們對回歸方程1、5采用robust估計來消除異方差的影響。(2)方程1和5的括號內為robustt值,方程2~4括號內為t值,*代表5%顯著性水平,**代表1%顯著性水平。
考慮到2000年失業率真實地反映了就業環境的變化,我們以回歸方程2為基準,分析不同因素對遷移的影響,并進行比較。在其他條件不變的情況下,遷移距離上升1%,遷移率下降1.08%.受遷移距離的影響,2000年跨省遷移人口比例不到30%,絕大多數遷移人口選擇了省內流動。遷移距離在空間位置上是固定的,但改善交通運輸條件和制定合理的交通價格有利于減少遷移者的遷移成本,促進勞動力流動。
在做遷移決策時,潛在的遷移者不僅要考慮兩地之間直接的收入差距,而且還要考慮到就業機會大小。在回歸方程2中,遷入地人均消費水平回歸系數在絕對值上是遷出地的近4倍,但遷入地失業率回歸系數在絕對值上是遷出地的3倍以上。遷入地失業率對遷移決策較大的邊際影響與遷移者面臨的選擇有關。本地勞動力市場狀況是既定的,遷移者對它別無選擇。相反,遷移者對遷入地勞動力市場是可以進行選擇的,失業率越高的地區,遷入數量就會下降。
目的地的就業信息提供和幫助,對遷移決策有重要作用。遷移存量的回歸系數也證實了這一點。社會網絡等非正規信息渠道雖然在遷移中發揮著重要作用,但隨著人口流動規模擴大,加快勞動力市場信息體系建設就顯得非常重要。
將外商直接投資變量引入回歸方程2,就得到回歸方程3.引入這個變量之后,遷移距離和失業率等解釋變量的回歸系數及其顯著性變化不大,而人均消費水平的回歸系數及其顯著性發生較大改變。從絕對值來看,方程3中的人均消費水平回歸系數小于回歸方程2中的回歸系數估計值,遷出地人均消費水平的回歸系數顯著性有所下降,主要是人均消費水平與外商直接投資之間存在較高相關關系導致的結果(注:人均消費水平與外商直接投資的相關系數為0.56.)??缡∪丝谶w移比例主要分布在東部地區,它與外商直接投資之間存在較強的相關關系(注:外商直接投資與遷移存量之間的相關系數為0.76.),引入外商直接投資變量之后,遷移存量的回歸系數數值下降約50%.為了觀察城市勞動力市場對農村勞動力遷移決策的影響,我們利用微觀數據做進一步分析?;貧w方程4引入了農村遷移勞動力的失業率,回歸結果進一步支持上述發現,即遷入地的就業機會對遷移者來說更為重要?;貧w方程5引入了城市勞動力失業率。結果表明,城市失業率對于農村勞動力跨省遷移率有顯著性影響,其回歸系數在絕對值上不僅大于回歸方程4中失業率的回歸系數,而且大于回歸方程2中的回歸系數,這說明城市勞動力市場就業形勢確實對農村勞動力的遷移決策有重要作用。改善城市就業環境將有利于促進農村勞動力流向城市,起到加速城市化的作用。
五、結論
20世紀80年代以來在中國出現的大規模人口遷移現象,不僅具有發展中國家從落后的農業經濟向工業經濟轉變的一般特征,還具有從計劃經濟向市場經濟轉變的特殊性。將二者結合在一起,既有助于考察中國獨特的制度特征對人口遷移的影響,又能夠通過對中國案例研究來拓展遷移理論。
經濟發展水平和市場發育程度在地區之間的不平衡,決定了人口遷移的基本方向不僅是從農村向城市的遷移,而且是從中西部地區向東部地區的遷移。既然中國經濟的進一步增長仍然有賴于從生產要素市場發育從而勞動力流動中獲得資源重新配置效率(注:約翰森(johnson,1999)認為,在今后30年,如果遷移障礙被逐漸拆除,同時城鄉收入水平在人力資本可比的條件下達到幾乎相等的話,勞動力部門間轉移可以對年經濟增長率貢獻2~3個百分點。),加快中西部地區市場制度的建設,特別是清除阻礙勞動力市場發育的各種制度,可以引導和規范人口遷移,使其不僅具有微觀理性,而且具有更加理性的宏觀后果。市場化改革措施(如擴大外商直接投資和對外貿易等)所帶來的經濟發展將有助于獲得“一石二鳥”的功效,也就是講,它為勞動力流動不斷營造同樣的發展環境,并在創造就業機會的同時,推進城鄉戶籍制度改革。
「作者簡介蔡昉中國社會科學院人口與勞動經濟研究所所長、研究員;王德文中國社會科學院人口與勞動經濟研究所,副研究員。
「參考文獻
1.中國社會科學院人口研究所(1988):《中國74城鎮遷移抽樣調查(1986)》,《中國人口科學》編輯部。
2.國家統計局(1988):《1987年全國1%人口抽樣調查資料》,中國統計出版社。
3.國家統計局(1997):《1995年全國1%人口抽樣調查資料》,中國統計出版社。
4.國務院人口普查辦公室(1993):《中國1990年人口普查資料》,中國統計出版社。
5.國務院人口普查辦公室(2002):《中國2000年人口普查資料》,中國統計出版社。
6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.
7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.
8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.
9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.
10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.
11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.
12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.
13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.
14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.
15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.
16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.
17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.
18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.
19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.
20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.
21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.
22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.
23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.
24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.
25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.
1.1數據采集系統
大數據時代,大數據有著來源復雜、體量巨大、價值潛伏等特點,這使得大數據分析必然要依托計算機技術予以實現.因此從兩個方向上加強數據采集統建設,一是側重于數據的處理與表示,強調采集、存取、加工和可視化數據的方法;二是研究數據的統計規律,側重于對微觀數據本質特征的提取和模式發現,在兩個方向上的協同、均衡推進,以此來保障大數據平臺應用的穩健成長和可持續發展.廣電的網絡和用戶是其核心資產,而其中流動的數據(包括用戶基礎數據、網絡數據、網管/日志數據、用戶位置數據、終端信息等)是核心數據資產.對于廣電運營商來說,最有價值的數據來自基礎網絡,對于基礎網絡數據的挖掘和分析是運營商大數據挖掘的最重要方向.因此其數據采集的目標包括機頂盒數據、CRM數據、帳務數據、客服數據、運維數據、媒資數據、GIS數據、財務數據和其他手工錄入、表格數據.采集頻率要求可以實現實時采集和定時批量采集.采集這類數據帶來一個問題就是各類數據雜亂無章,會導致數據質量問題越來越嚴重,通過引進實時質量監控和清洗技術,建設強大的分布式計算和集群能力,提高數據監控和數據采集性能,利用分布式處理技術,實現數據抽取、數據清洗以及相應的數據質量檢查工作,保證采集到高質量的數據,將廣電大數據中心建設成一個覆蓋廣電系統全部數據的存儲中心,具備采集各類結構化、非結構化海量數據的處理能力.
1.2數據分析中心
廣電企業每時每刻都在產生大量的數據,需要對這些數據歸集、提煉,廣電企業大數據平臺建設的意義在于有效掌握規模龐大的數據信息,對這些數據信息進行智能處理,從中分析和挖掘出有價值的信息.在廣電大數據分析中需要對直播節目分析、互動業務分析、互聯網流量分析、互聯網內容分析、廣電客戶分析、市場收益分析、智能內容推送和廣告分析等,通過這類數據分析,能夠實時了解廣電運營商的經營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數據進行分析處理.一是采用在線分析方法技術,使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的.這些信息是從原始數據直接轉換過來的,他們以用戶容易理解的方式反映企業的真實情況.在線分析策略是將關系型的或普通的數據進行多維數據存貯,以便于進行分析,從而達到在線分析處理的目的.這種多維數據存儲可以被看作一個超立方體,沿著各個維方向存貯數據,它允許分析人員沿事物的軸線方便地分析數據,分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數據挖掘是從海量、不完全的、有噪聲的數據中挖據出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則.這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等方面提供依據.
1.3數據應用中心
在大數據分析平臺應用過程中,數據本身并不是數據分析和數據挖掘的重點,重點在于如何應用這些技術去解決企業在運營中實際的商業問題.通過對數據分析和挖掘,了解企業運行過程存在問題,預判企業中各類業務發展走向.對數據分析與挖掘結果來說主要有兩個方面,一是將分析結果給客戶使用,另一個是將分析結果提供給內部用戶使用,因此在大數據分析平臺設計中,將數據應用劃分為三個應用中心:
1)推薦中心
推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯網、消費等行為,將使用用戶分群,總結群體特征,向不同群體推薦個性化的電視節目、廣告和增值應用服務.從而提升用戶的使用體驗,提升用戶的滿意度和粘度.
2)決策中心
決策中心面向廣電企業內部決策者、管理者、經營分析人員,通過對企業經營數據的KPI、運營監控、經營盤點,使企業決策者掌握企業運營狀況及發展趨勢;智能報告協助分析人員自動定位經營中的問題;即席查詢在預定義的語義層基礎上,實現靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進行深入挖掘,輔助專業分析人員的工作;統計報表滿足各部門常規統計需求.
3)服務中心
服務中心面向廣電的合作伙伴,比如:電視臺、廣告商、服務和內容提供商、相關政府職能部門等.通過對使用用戶收視行為的實時分析,將電視欄目實時收視率提供給電視臺,電視臺根據收視率進行在線的問卷調查,提高電視臺的影響力,幫助其增強欄目的評價體系.為廣告商提供精準的廣告投放策略,實時準確的廣告投放評估,幫助廣告商提升廣告到達率、準確度和營銷效果.為服務和內容提供商的電影、電視和增值應用等產品提升收視率和使用頻率,并進行評估,為其提供受眾喜好特征,幫助其推出有針對性的產品.通過用戶收視數據、節目反饋等信息,將相關輿情向相關政府部門匯報.
1.4系統管理
系統管理是大數據分析平臺一個輔助功能模塊,主要是為了系統管理員對大數據平臺進行有效的監控和管理,提升大數據分析平臺性能使用,包含有如下幾個模塊:權限管理、數據質量管理、元數據管理、調度管理、系統監控等.
2數據應用分析
移動互聯網的發展為傳統行業帶來了新的思考,如何在互聯網時代更好地實現以客戶為中心的服務理念,借助大數據分析平臺、海量的客戶非結構化的行為數據和傳統的結構化數據,可以有效提升廣電個性化、人性化的服務水平.大數據分析平臺通過整合廣電網絡中多個數據源,并按照主題進行劃分,在定義主題的過程中,提供廣電業務概念的規范定義.數據模型不偏重于面向某個應用,而是站在企業角度統攬全局,提供可擴展的模型設計,偏范式化的設計使平臺在最大程度上保持一致和靈活擴展性.依托某廣電網絡公司業務開展情況,搭建數據分析平臺,具有如圖2所示的主題結構,共計8大類53小類,從廣電網絡運營的各個方面進行了數據分析.
2.1直播節目分析主題
直播電視節目作為廣電運營模式中一直沿用的產品類型,對于廣電用戶的影響和廣電運營商運營模式起著至關重要的作用.實時直播節目分析,用戶可以實時查看每個時間點上每個節目收視率,以此為據來指導產品定制、節目選擇、用戶推廣等方面的商業應用,對直播節目的多維度分析,運營商可深入分析直播節目收視特性及受眾影響規律,以指導運營優化,提高節目的收視率和營收.
2.2多媒體業務分析主題
廣電行業的雙向網絡改造不僅將視頻點播、通信及娛樂業務成為可能,同時配備增值業務,如廣告、支付、股票、游戲、付費節目等服務.可以明顯看到哪類業務最受歡迎,哪類業務的增長趨勢良好,哪類業務應用下滑得較快,哪類業務不受用戶歡迎,從這樣的分析結果中,可以為廣電網絡以后的業務引進中提供指導,避免引進的業務不受用戶歡迎,同時也可以預見性的引進一些代表將來趨勢性的業務,提前做好業務儲備工作.互動業務的互動特性為廣電運營商增加客戶粘度、制定產品投放策略、獲取最大化收益及市場價值提供了前所未有的空間,通過對互動業務的應用分析,可以分析出用戶的行為趨勢.利用這樣的分析結果改善廣電業務引進,提高用戶的粘度和ARPU值.
2.3互聯網應用分析主題
廣電作為政府宣傳的喉舌,一個主要的特點就是可管可控,相對此而言,互聯網網絡一個重要特點就是用戶各類行為的不可控性.在三網融合的新環境下,廣電網絡一個重大改變就是引進了互聯網業務,同時通過多屏互動技術使廣電終端類型日益復雜,如何對廣電網絡引進的互聯網業務和終端進行有效的管控,成為擺在廣電網絡運營商面前一個重要課題.運營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進而來引導用戶輿論與行為,實現對廣電網絡的可管可控的最終目的.同時廣電網絡也可以利用互聯網數據從如下兩方面做了分析,運營流量及應用優化,節省網絡帶寬,減少運營費,同時用以提高用戶體驗度,增加用戶粘性;充分利用線上、線下同步運營模式,深入挖掘線上討論內容,為線下運營提供指導.
2.4廣電客戶分析主題
在三網融合的環境下,廣電網絡在逐漸擺脫事業單位模式下經營模式,向“市場驅動”、“客戶驅動”經營模式的轉變,“以客戶為中心”的理念和策略不可或缺,而廣電網絡擁有的客戶群和常規用戶分析的客戶群體有著本質區別,以往分析往往針對個體用戶進行分析,廣電網絡面向的用戶通常是以家庭為單位的,這給廣電網絡用戶行為分析帶來不可預料的困難.通過針對用戶群體不同年齡、不同時間段的收視行為和上網行為分析,可以區分某一時間段內該家庭用戶內個人的行為,可以清晰看到各類用戶在各個階段的變化情況,以及這個變化給廣電網絡運營帶來的變化.從用戶信息出發,以用戶應用行為為主線,深入挖掘用戶關系,為廣電用戶關系管理提供有效基礎數據,提高用戶滿意度、忠誠度,提高廣電網絡市場運作的主動性.
2.5市場收益分析主題
三網融合后,廣電網絡作為一個市場主體,需要適應日趨激烈的市場競爭環境,提升廣電運營商的企業核心競爭力,應充分利用業務支撐系統產生的大量寶貴的數據資源,建立廣電企業收益分析系統,實現對收益數據的智能化加工和處理,為市場運營工作提供及時、準確、科學的決策依據.利用先進的OLAP技術和數據挖掘技術,幫助企業的經營決策層了解企業經營的現狀,發現企業運營的優勢和劣勢,預測未來趨勢;幫助細分市場和客戶,指導營銷、客服部門進行有針對性的營銷和高效的客戶關系管理;對決策的執行情況和結果進行客觀準確的評估,深受用戶的青睞.如圖7所示的收益分析結果,可以清晰看出企業各類業務在營收中所占比例,可以明確了解哪類業務是企業的優質業務,哪類業務需要進一步加強開拓市場,同時也可以預測哪類業務會有更大的推廣空間,為企業持續開展業務提供指導.
2.6智能內容推送主題
深層次挖掘用戶潛在的需求,以用戶的需求為導向,向用戶推送有針對性的內容.廣電運營商通過對用戶差異性的運營策略,激發用戶參與的熱情,讓用戶有持續的良好體驗,提升對用戶的吸引力和黏著度.信息精準、智能推送的關鍵在于把握住用戶的行為習慣,同時讓每一個用戶都可以按自己需求方便、快捷地調整、歸類相關信息.大數據分析平臺基于用戶行為收集分析系統,挖掘出用戶潛在需求,充分了解了用戶的真實意愿,將有助于廣電運營商建立以客戶為中心的服務理念,提升社會影響力.
2.1數據抽取Agent
數據抽取Agent(DA)主要實現對網上電子數據交換的單證進行監控性或合法性的格式檢查,并從不同的單證中自動地抽取出所需的數據項,提交給交互協調Agent,以便進行分析和統計。其對單證格式檢查的要求,以及數據抽取的要求統一由交互協調Agent管理。Agent實時監測網上電子交換系統單證的收發,當用戶收到或發送單證時,它就會自動提取單證中的數據,根據單證的種類、知識庫中處理要求,進行數據處理和存儲,并發送給交互協調Agent分析統計或報警。
2.2計算統計Agent
計算統計Agent(TA)主要對抽取出的單證數據按類別、時間、對象等多角度,采用馬爾可夫、多元回歸、指數等多種方法進行分析統計。因此,需要建立模型庫、知識庫對不同的單證進行不同要求的處理。計算統計Agent的組織結構圖如圖1所示。
TA會根據由交互協調Agent設定好的要求,當收到的相應單證數達到一定數目或者是積累了到預定的時間時,自動會進行分析和統計,如銷售單處理中的本月單證數目,本月銷售額、最大額銷售情況、下月的銷售量預測、最優庫存量等。
2.3交互協調Agent
交互協調Agent(CA)是系統的關鍵,它既是與用戶溝通的橋梁,又是與各Agent交互協調工作的核心,其主要任務是實現問題求解的任務分配、調度和協作交互。為實現CA的交互協調和交互流程的一致,存放CA與其他Agent間的任務請求和分配信息;存放問題求解過程中的協作要求和參數信息;存放其他Agent的處理描述性信息,供CA分配任務時使用。
2.4Agent之間的通信與協作
在系統中,Agent之間的通訊是基于消息的通訊機制,利用消息完成傳遞服務請求及協調Agent之間的同步。DA和TA根據消息通訊來獲取環境信息、任務、結果反饋信息;DA的每一個監控和執行任務以及TA的每一個計算統計任務都可以表示為一個任務提交者CA向承擔者DA和TA發送任務消息;監控和數據抽取任務的實施或暫停是由CA向DA發送任務消息,其監控和數據抽取的結果則通過向CA回送消息予以體現;同樣,計算統計的實施過程是TA接收到消息后產生狀態變化的過程,其計算分析結果通過向CA回送消息予以體現,并由此來實現多Agent間的共享和合作運行。
3網絡單證數據數據分析系統
3.1系統結構
網絡單證數據數據分析系統是嵌入在原有的網上電子數據交換系統之上,主要由交互協作Agent、數據抽取Agent和計算統計Agent構成,還包括了與原系統的接口。網絡單證數據數據分析系統結構圖2所示。
從圖2可知,CA控制協調DA和TD,以及控制數據接口和人機接口,而DA與數據接口僅有數據傳遞的連接關系,數據傳遞與否受CA的控制;數據接口是原網上電子數據交換系統與本系統的數據交換通道,只面向數據共享的要求;人機接口是為用戶進行任務設置而設計的,一旦任務設置后,系統可自動按設置值運行,無需外界干預。
3.2EDIDA的工作流程
通過人機接口,由用戶向CA進行任務設置;
CA對設置的任務進行分解;
各Agent獨立地進行工作,求解相應的問題;
由CA協調DA、TA的在求解中的問題請求,按上述的交互協作流程來完成任務;
CA會按要求的格式傳遞給設置的服務器,進行記錄和提示;
在CA獲得TA的統計分析結果后,按要求的傳遞給設置的服務器進行記錄、輸出、保存、打印。
CA對整個執行過程記錄存儲,以優化模型和知識的選擇和比較對比;
3.3網上手機訂貨數據的分析
在原有的網上電子數據交換系統中,有關于商家和供應商間網上手機訂單處理。為此,將EDIDA嵌入后進行Motorola手機訂單的數據處理,包括訂單中訂貨數量的監控、2007年7月的訂貨數量的預測。
對訂單中訂貨數量的監控,采用的方法是:訂貨量大于30部時,產生5秒的告警聲并記錄該單證號;對于2007年7月訂貨數量的預測,采用的方法是:選用最小二乘法模型ZXRC、指數加權移動平均模型YDJQ、三項和比例模型SXBL這三個模型來預測2007年7月的訂貨數量,并由CA根據評選規則來確定最后預測值,預測結果如表1所示。
表中“*”號是指訂貨量大于30部的報警次數,具體的訂貨量大于30部各訂單號則保存在CA的數據庫中。預測結果的最終選定由CA根據知識庫中規則來確定,評選的規則有:平均法,即對每個結果進行算術平均,把平均結果作為最后結果。去掉最大和最小法,再對剩下的結果進行算術平均。取中間值法,即最靠近中間的值,若中間值有兩個,則取其平均值為最后結果。使用頻率最高法,即根據使用成功次數,選擇成功最多的模型結果為最終結果。最大原則,即選取最大預測值為最終結果。最小原則,即選取最小預測值為最終結果。
本次預測采用平均法,即預測值=(146+135+151)/3,最終的預測結果為2007年7月Motorola手機的訂貨量為144部,與當年實際Motorola手機訂貨量147部非常相近,并給出了季度指數。
4結語
本文采用Agent技術,提出了對網上電子數據交換系統中XML單證的監控和統計分析方法和實現技術,初步探索了Agent在網絡監控和預測領域中應用,并結合實際進行了驗證。今后的研究將考慮用單個Agent來實現系統的功能,并加入黑匣子技術,面向網上的應用深入開展研究。
參考文獻
[1]A.Rao,M.Georgeff.BDIagents:Fromtheorytopractice.[J].InProceedingsoftheFirst
InternationalConferenceonMulti-AgentSystems,1995:312-319.
[2]M.J.Wooldridge,N.R.Jennings.Intelligentagents:Theoryandpractice[J].TheKnowledgeEngineeringReview,1995,10(2):115-152.
[3]張寅生.智能Agent與Agent系統[J].計算機系統應用.1998,(7).
野外人工模擬降雨試驗要在前期土壤水分不飽和的狀態下進行,因此每次模擬降雨試驗只能在同一徑流小區進行一次降雨過程。為獲取更多的野外模擬降雨產匯流及水土流失對比數據,計劃在每個項目區的典型坡度———5°~8°、8°~15°、15°~25°分別建設坡地徑流小區。徑流小區的布設與等高線垂直,根據相關規范和實際條件,徑流小區投影面積一般為60m2,即20m(順坡投影長度)×3m(寬與等高線平行)。云縣石佛山坡耕地水土流失綜合治理試點工程水土保持監測項目于2010年12月初完成8°、12°、15°三塊坡地小區的建設,2011年6月下旬第一次模擬降雨試驗后,為方便對比分析,根據工程進展情況在12°坡地小區旁增設一塊梯地小區。
1.2人工模擬降雨系統
此次人工模擬降雨試驗采用西安理工大學研制的人工模擬降雨試驗系統(圖1)。它基于工控組態軟件,應用現有的人工模擬降雨試驗裝置,將試驗過程的常用設備和工控軟件結合在一起,增加了自動控制環節,通過對控制系統進行改造,解決了手動調節雨強不方便的問題,實現了對不同時段、不同雨強、不同分布的人工模擬降雨系統的手動和自動雙控制,采用監控組態系統更好地滿足了人工模擬降雨試驗的需求。該人工模擬降雨系統可建于自然坡面上,高6m,降雨試驗區長20m、寬3m,有效降雨面積60m2。降雨系統布設在降雨裝置支架上,噴頭選用與天然降雨雨滴譜最為接近的X型下噴式噴頭,由4組不同噴嘴孔徑組合而成。為兼顧模擬降雨的均勻性與搭建支架的經濟性和安全性,將系統在野外難以架設的固定式方鋼支架改為鋼管腳手架。頂寬超出徑流小區寬度方向兩邊各0.3m,頂端橫桿按照水管和噴頭分布架設,壓力控制裝置設4個出水管,每管對應同一噴嘴孔徑的噴頭,共設置4組24個不同噴嘴孔徑噴頭,支架內部無任何遮擋。壓力控制裝置可自動、手動控制出水管的全開、全關或部分開啟。本系統可模擬降雨強度變化范圍4~200mm/h,降雨雨強最小分辨值1.3mm/h,降雨強度控制精度0.66mm/h,降雨均勻度>0.95。系統采用先進的閉環自動控制理論和技術,是一種應用交流變頻調速器控制的人工模擬降雨自動控制設備,以降雨過程的最終實際降雨參數控制和驅動系統的各個降雨部件,克服了從水源到噴頭之間諸多環節對降雨的隨機影響。實驗室測試結果表明,該設備的主要性能指標優于國內外其他人工模擬降雨系統,是進行土壤產匯流和侵蝕規律研究的重要試驗設備。
1.3人工模擬降雨雨強
石佛山小流域位于云南省臨滄市云縣幸福鎮幸福村水土保持監測項目區。模擬降雨設計頻率及雨強參照幸福雨量站。該站距項目區直線距離2km,1983年建站,有1983—2010年共28年的完整降雨資料,降雨資料質量可靠,能滿足設計暴雨頻率分析要求。通過幸福雨量站1h短歷時暴雨頻率計算,石佛山小流域100年一遇1h降雨量為84.8mm,50年一遇1h降雨量為77.0mm,30年一遇1h降雨量為72.1mm。人
工模擬降雨采用100年一遇1h降雨過程。
2人工模擬降雨監測結果
2.1JDZ02型自記雨量器記錄結果
人工模擬降雨試驗于2011年1月開始,至2012年9月結束,跨2年歷時40天,試驗時間分別為枯水期兩次(第一次、第三次)、主汛期兩次(第二次、第四次)。在不同坡度的徑流小區分別進行15場次的人工模擬降雨試驗。
2.2普通雨量器監測結果
徑流小區人工模擬降雨面降雨量采用普通雨量器監測,用算術平均法計算平均面降雨量。用普通雨量器觀測的15場次人工模擬降雨面降雨量計算結果見表3。
2.3人工模擬降雨產流產沙量監測
人工模擬降雨雨強采用100年一遇1h降雨雨強。在模擬降雨試驗前采用移動墑情監測儀和稱重法在各小區距地表10、20、30cm土層剖面處取土樣分別測定前期土壤含水率,并取平均值。產流產沙量的監測是在有徑流產生時,每5min取1個水樣,采用加權平均法計算平均含沙量,并用容積法記錄產流量。監測結果。
3試驗結果分析
3.1人工模擬降雨試驗降雨監測結果分析
云南省人工模擬降雨試驗是全國第一次大規模使用人工模擬降雨系統在野外研究土壤產匯流和侵蝕規律的試驗。實驗室內的環境與野外環境差距較大,在野外試驗雖然是按100年一遇的標準進行人工降雨,但是由于受風速、風向影響較大,加之降雨雨滴與實際還有一定差距,所以部分降雨隨風飄落到小區之外,落到小區地面的降雨標準也因此降低??紤]到上述情況,試驗都選在無風或輕微風和微風的環境下進行。將徑流小區內安裝的JDZ02型自記雨量器記錄的降雨雨強與設計降雨雨強進行相關性分析,相關系數都在0.6以上,說明人工模擬降雨過程與設計降雨過程之間存在強相關。根據統計學原理,使用Brown-Forsythe檢驗法檢驗設計降雨過程與12場次JDZ02型自記雨量器記錄降雨過程的差異性,在顯著性水平α=0.05下檢驗結果為各組之間差異不顯著。對比設計雨量與JDZ02型自記雨量器記錄結果,有7場次降雨接近或超過設計雨強,說明在徑流小區局部,人工模擬降雨雨強是達到設計要求的。對徑流小區12場次面降雨量監測結果進行分析,小區內模擬降雨重現期達到10年一遇以上的有7場,以下的有5場,最高重現期為13年一遇,最低為2年一遇。小區內降雨極不均勻,單個普通雨量器收集的降雨量有的大于設計雨強,有的小于設計雨強,特別是小區兩側降雨量與設計雨量誤差最大,達到82.5mm。受風速、風向、試驗支架架設高度和植被的影響,用加權平均法計算出徑流小區內21只普通雨量器的實測面平均雨量均小于設計雨量,相對誤差在-62.7%~-27.0%之間,未達到設計要求。
3.2徑流小區產流產沙情況分析
(1)8°徑流小區。由表4知,第一次模擬降雨試驗,坡地小區土壤含水率接近飽和、植被覆蓋率為0,降雨4min后開始產流,歷時1h,產流量1.402m3,產沙量15.6kg。第二次試驗在主汛期進行,土壤含水率接近飽和,小區內種植玉米,植被覆蓋率為100%,降雨2min后開始產流,歷時62min,產流2145m3,產沙量10.2kg。第三次試驗,小區土壤含水率12.16%,植被為雜草和伐倒的玉米植株,植被覆蓋率為70%,降雨9min后開始產流,歷時40min,產流量0.064m3,產沙量0.015kg。該次模擬降雨面平均雨量為44.1mm,僅占設計雨量的48.5%,加之前期土壤含水率低,因此產流量和產沙量都較小。第四次試驗,小區內種植的玉米已進入成熟期,植株較高,植被覆蓋率為100%。試驗時為減小風力對人工模擬降雨的影響,將降雨架高度由6m減至4m。降雨27min后開始產流,歷時12min,產流量0.082m3,產沙量0.082kg。該次降雨面平均雨量為59.9mm,占到設計雨量的70.6%,但是由于小區前期土壤含水率低,僅為9.04%,故產流量和產沙量都較小。
(2)12°徑流小區。第一次試驗,由于模擬降雨面平均雨量小(31.6mm),雖然前期土壤含水率高達1503%,但該次降雨條件下該小區未產流。第二次試驗,小區前期土壤含水率已接近飽和,植被覆蓋率達100%,降雨2min后開始產流,歷時58min,產流量1.513m3,產沙量20.9kg。第三次試驗,小區前期土壤含水率11.41%、植被覆蓋率70%,降雨11min后開始產流,歷時42min,產流量0.156m3,產沙量0.044kg。該次模擬降雨面平均雨量較大,占到設計雨量的71.3%,但是由于前期土壤含水率低,故產流量和產沙量都較小。第四次試驗,小區植被覆蓋率100%,降雨31min后開始產流,產流時間5min,產流量0.010m3,產沙量0.004kg。該次模擬降雨面平均雨量達到50.9mm,占到設計雨量的60.0%,但是受土壤含水率僅為10.59%的影響,產流量和產沙量都較小。
(3)15°徑流小區。由表4可知,第一次試驗,小區前期土壤含水率為16.05%、植被覆蓋率為0,降雨30min后開始產流,歷時10min,產流量0.0165m3,產沙量0.133kg。第二次試驗,土壤含水率已接近飽和,達20.65%,小區植被覆蓋率60%,降雨7min后開始產流,產流53min,產流量0.629m3,產沙量10.6kg。第三次試驗在冬季進行,小區植被覆蓋率為80%,由于前期土壤含水率低(10.41%)、面平均雨量偏小(43.3mm),因此該次降雨在該小區未產流。第四次試驗,小區植被覆蓋率100%,人工模擬降雨60min未產流,為檢驗產流情況,在12:15將人工模擬降雨裝置閘門全開,以最大降雨強度連續降雨5min,于降雨64min后開始產流,產流5min,產流量0.022m3,產沙量0.036kg。該次模擬降雨歷時65min,面平均雨量達到61.1mm,占到設計雨量的72.1%,受前期土壤含水率(10.74%)較低、植被覆蓋率較高影響,該小區產流量和產沙量都較小。(4)梯地徑流小區。由表4可知,梯地徑流小區第一次試驗在主汛期進行,前期土壤含水率為17.46%,植被覆蓋率為20%,降雨2min后開始產流,產流48min,產流量1.146m3,產沙量1.93kg。第二次試驗在冬季進行,小區前期土壤含水率8.09%,植被覆蓋率90%,模擬降雨面平均雨量為58.5mm,由于前期土壤含水率過低,該次降雨在該小區未產流。第三次試驗在9月份進行,前期土壤含水率為8.48%,植被覆蓋率為100%,模擬降雨面平均雨量為54.1mm。該次試驗該小區未產流,其主要原因也是梯地小區前期土壤含水率過低。
4結語
2數據挖掘技術應用于電信用戶數據研究
2.1固網用戶數據的組成和結構
對于企業來說,大量的用戶數據不僅有利于客戶關系管理(CRM),同時也是獲得用戶知識的源泉。從用戶知識發現的過程中可以看到,用戶數據的質量會對知識發現的結果產生直接的影響,所以用戶數據準備也是一項很重要的步驟。從商業系統中提取出高質量的用戶數據就成為一項最主要的工作。固網企業的用戶數據包括用戶基本信息、用戶賬單信息以及客服信息。數據倉庫就是根據這種方式來組織的。
2.2知識發現的方法和過程
用戶知識發現概括如下:根據提出的商業目標,分析大量的用戶數據,找出隱藏的和未知的規律或者豐富已知的規律,進而提出模型;最后要將數據挖掘和分析的結果轉化成有商業意義的方法,然后采取進一步的行動。用戶知識發現必須遵循以下幾個步驟:商業理解,數據理解,數據準備,分類模型,評估應用。
2.3數據挖掘建立用戶分類模型
近年來,“以客戶為中心”的電信市場開始強調為不同用戶提供個性化服務,其前提條件就是用戶分類。這也說明了過去的消費行為也預示了未來的消費傾向。
(1)商業理解
對用戶的理解不僅是理解電信市場的開始,也是理解客戶關系管理的開始。在電信企業中對用戶的理解包括:用戶種類,不同類中用戶的本質屬性區別,用戶偏好,不同類別之間的用戶如何通信等。
(2)用戶數據準備
對用戶分類的研究主要是從用戶屬性中得到用戶特征和行為習慣。主要數據來源于用戶賬單信息,同時也需要從商業系統中得到一些用戶的基本屬性信息。
(3)用戶分類模型
本文使用聚類分析對用戶進行細分以建立分類模型。聚類分析是把大量數據點的集合根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組,使得每個類中的數據之間最大限度地相似、而不同類中的數據之間最大限度地不同。
3固網漏話用戶數據分析
3.1關于固網漏話用戶數據分析的商業理解
通過各種渠道調查,對固網漏話用戶數據分析的目標可以概括為以下幾點:
(1)對用戶通話次數、時間段等分析,找出特征,以此來尋找目標用戶;
(2)對用戶開通漏話保護業務前后的ARPU值分析比較,分析收益的對比;
(3)對目標用戶數據分析,從用戶分類的角度來管理,設計針對性的服務,提升用戶滿意度。
3.2系統用戶數據準備
數據準備的過程:明確目標;制定計劃;分析變量的獲取;數據收集和獲??;數據集成。根據當前客戶關系管理基本狀況和數據挖掘的目的,涉及到的人口屬性變量有:性別、年齡、住址、用戶職業、婚否、學歷、薪資等。用戶分類結束之后,再使用描述變量來進行分析說明。本文選用某市電信公司運營支持系統和經營分析系統的數據,從中選取了基本客戶基本信息表、客戶詳細話表、賬單及繳費信息表、產品信息表、業務使用清單等原始數據。數據挖掘工具選擇SPSSClementine。在使用該工具進行挖掘之前,需要對數據進行清洗:
(1)刪掉不滿足要求的數據:選擇普通的用戶;選擇狀態正常的用戶;選擇入網時間較長的用戶,使數據有完整的用戶周期;
(2)去掉異常數據:比如用于測試的號碼;
(3)去掉極端值:不具備普遍性的極值容易產生噪聲。
3.3固網漏話用戶數據分析結果
考慮到不同分類建立的有效性和簡便性,以及固話用戶和數據源的特點,本文采用常見的K-means算法,其高可靠性、高精準性以及低復雜度使其成為主流的聚類算法。本文選用SPSSClementine作為數據挖掘工具進行K-means聚類分析。獲取原始數據并進行預處理之后,選擇參與聚類的細分變量,輸入簇的個數k,選擇k=7,然后點擊“聚類”按鈕,使用K-means算法對固網漏話用戶數據進行聚類。經過正常值選擇、極值處理等一系列的數據清洗工作,最后用于研究的記錄有251284條。
3.4分析結果和解釋
93%的遇忙話務都出現在8∶00~18∶00的工作時段,這說明該時段遇忙話務較多,話務量流失嚴重,特別需要遇忙話務的解決方法。而這一時間段遇忙話務量最多的就是政企用戶,這些話務量流失對政企用戶將造成巨大的損失:30000政企用戶一個月遇忙話務損失達到260萬次,本網超過120萬次,每個月預計損失20萬;以電信中等發達省份為例:符合條件的政企高端用戶約為60萬;每年度損失的潛在業務收入為50000萬。經過分析,得到該市各地區已開通和未開通漏話保護業務的用戶分布,如圖4所示。C區屬于政務新區,未開通漏話業務的用戶較多,而F區屬于工業園區,企業較多,很多用戶已開通漏話保護業務,但是還有大量用戶未開通該業務,所以C區和F區應該作為該業務的重點推廣地區。綜上分析,固網漏話業務是一個非常有潛力的業務,解決漏話問題是提高用戶滿意度和忠誠度的重要途徑。根據上文的分析,在8∶00~18∶00時間段,用戶遇忙話務量非常多,在這段時間內,企業需要更多的漏話接入服務器,而在其他時間段可以減少接入服務器以節約成本。而在不同的地區,用戶數量和精準用戶的數量也不同,應該選擇精準用戶較為集中的地區優先推廣漏話保護業務。由于精準高端用戶帶來的收益遠遠超過普通用戶,所以要對經過篩選的精準用戶采取針對性措施,比如在C區和F區大力宣傳,以各種形式讓精準客戶看到該業務帶來的收益,還可以電話推廣為精準用戶提供信息。
2煤礦安全生產大數據分析系統
2.1大數據分析的概念大數據分析
是指數據量急劇積累迅速超出主流軟件工具和人類思維處理的極限,大數據與傳統數據比較起來,有四大特征:數據體量巨大(Volume)、數據類型繁多(Variety)、數據價值密度低(Value)、更新速度快時效高(Velocity)。大數據分析需要全新的數據處理理念和分析工具,洞察發現海量高速增長信息中潛藏的價值[4]。從理念上,大數據分析與傳統數據分析有三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。針對大數據,既有的技術架構和分析工具已經無法滿足要求,需要全新的數據分析方法和技術,這其中包括:(1)大數據分析可視化方法;(2)大數據挖掘算法;(3)預測性分析能力;(4)語義處理能力;(5)數據質量和數據管理技術。
2.2大數據分析系統的建設
根據大數據處理和分析的理念,煤礦安全大數據分析系統的建設目標包括:數據綜合集成、安全知識集成、三維虛擬可視化展示、煤礦安全動態分析診斷。具體建設內容包括:(1)基于物聯網/云計算技術的煤礦安全綜合數據庫。建設煤礦安全大數據分析診斷系統,首先要利用物聯網和云計算技術實現全面綜合的數據集成,將基礎空間和屬性數據、在線監測的實時性數據、專業業務系統的事務性數據綜合集成起來,構建煤礦安全綜合數據庫。(2)基于專家系統的煤礦安全專家知識庫。針對知識集成的目標,整理規范規程體系中的經驗或者理論知識(煤礦安全規程、煤礦作業規程、三違行為知識、隱患界定知識、評估模型、設備操作規程知識、工種操作規程知識),構建煤礦安全動態分析診斷的專家知識庫。(3)建設三維虛擬礦井可視化平臺。針對信息和知識三維虛擬礦井可視化展示分析,主要的建設內容是基于高精度地質模型理論研究開發三維虛擬礦井平臺,實現地層建模、鉆孔建模、斷層建模、工作面建模和巷道建模等工作。然后,基于三維虛擬礦井平臺,實現數據和知識可視化、煤礦安全生產活動可視化、分析和決策過程可視化。(4)研發煤礦安全動態分析系統。針對基于專家知識庫的煤礦安全生產分析決策,需要利用煤礦安全綜合數據庫中的基礎數據、實時監測數據以及事務性數據,根據煤礦安全專家知識庫進行煤礦安全生產狀況評估、推理和演繹,動態分析診斷煤礦安全生產的現狀與趨勢、預測未來,并針對煤礦應急現象做出科學合理的響應對策。
1.引言
目前發展大數據產業已經上升為國家戰略,大數據的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數據不僅為政府治理開辟了新思路,還是企業創新的重要源泉和高??蒲械闹匾?。大數據交易平臺是整個大數據產業的基礎與核心,它使得數據資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數據。這樣不僅提高了數據資源的利用效率,更重要的是,當一個組織擁有的數據資源不斷豐富和立體化,有助于其通過數據分析發現更多的潛在規律,從而對內提高自身的效率,對外促進整個社會的不斷進步。
在現有的大數據交易平臺上,數據供應方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發現合適的交易對象,則進行大數據資源的買賣,交易平臺只作為信息中介存在。這類大數據交易的本質,其實是單獨的大數據資源交易,現有平臺可以統稱為第一代大數據交易平臺。第一代大數據交易平臺在供需平衡、數據定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設計了一種全新的第二代大數據交易平臺,命名為:融合數據分析服務的大數據交易平臺,該平臺將數據資源交易與數據分析服務進行深度融合,實現了數據與服務的一體化交易。本研究不僅為當下正在建設的各類大數據交易平臺提供有益的借鑒,也豐富了大數據交易的基礎理論體系。
2.相關研究
目前大數據交易的相關研究中,比較有代表性的有:
(1)大數據的財產屬性和所有權。王玉林等[6]對大數據的財產屬性展開研究,認為大數據的法律屬性會直接影響大數據產業的發展,而大數據交易實踐本身就反映出大數據具有財產屬性。但大數據與傳統的財產權客體存在較大不同,它符合信息財產的特征,是信息財產權的客體,應受到相關法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權范圍內數據的所有權,剖析了個人擁有的數據權以及數據的財產權。
(2)大數據的定價問題。劉朝陽[8]對大數據的定價問題展開研究,首先分析了大數據的基本特征、價值特征等定價基礎。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數據的定價策略,并對大數據定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數據交易過程中,由于缺乏足夠的歷史參考,其數據資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數據交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產的期權價值角度來評估大數據資源的價值,并指出數據在不斷變化和更新,加上數據的非獨占性等情況的出現,數據資產的價值可能會下降,最后綜合這些因素構建了一個評估模型來計算數據資產的價值。
(3)大數據交易的安全與隱私保護。史宇航[11]認為非法的數據交易會對個人數據等高價值信息的安全造成影響,對非法數據交易的購買方和協助方都應進行處罰。提出應先明確數據的法律屬性,再以數據交易所為平臺進行交易,并對數據交易所的法律地位進行了分析。殷建立等[12]為應對大數據時代數據采集、交易等過程中的安全問題,綜合考慮技術、政策和管理平臺等方面的因素,構建了一種個人數據溯源管理體系,該體系可在數據應用時實現個人數據的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數據環境下強大的數據需求會導致個人數據的非法交易,為應對這種情況,應該建立個人數據交易許可機制,通過發放交易許可證、拍賣授予等措施實現隱私保護。
(4)大數據交易的發展現狀與問題。楊琪等[14]認為我國的大數據交易還處于行業發展的早期,大量數據源未被激活,原因是大數據產業價值鏈的各個專業環節發展滯后,并且對數據交易中的安全問題和隱私泄露等有較大的擔憂。應該對數據產品進行改造,使其更商品化,并且通過政府開放公共數據等措施逐漸消除數據流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數據交易的發展特點、交易類型等現狀,接著指出目前大數據交易存在法律法規相對滯后、行業標準不完善、交易平臺定位不明確、數據質量不高等問題,最后提出應加快相關法律和標準建設,并推動數據開放,加強交易方式的創新。
除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數據研究在行業應用和科學研究方面的重要作用,這從客觀上反映了大數據流通的必要性。涂永前等[17]認為大數據時代企業管理和運用數據資源的相關成本會成為企業的主要交易成本,這會改變企業的組織結構,并導致企業邊界的變化,企業會進行多方向的擴張,這為促進大數據產業發展的相關法律的制定提供了理論支持??偟膩砜?,由于大數據交易本身屬于較新的領域,因此相關研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數據交易平臺是實現大數據交易的重要載體,是大數據資源流通轉換的主要節點,交易平臺本身需要隨著整個大數據產業的發展,不斷的改進和升級,而現有研究中恰恰缺少對大數據交易平臺本身進行創新的研究。由此,本文針對現有大數據交易平臺的不足,結合實際設計了一種全新的融合數據分析服務的大數據交易平臺,為實踐和科研提供借鑒和參考。
3.現有大數據交易平臺的不足
大數據本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設計很自然會參照傳統的商品交易模式,即:交易雙方先供求信息,再經過討價還價,達到一個均衡的價格則成交,賣方將大數據資源經過脫敏處理后,交付給買方。目前無論是政府主導的大數據交易所,還是企業或者高校創建的大數據交易平臺,都是采用類似的交易模式,這也是第一代大數據交易平臺的突出特點。實際上大數據與傳統商品有很大的區別,照搬傳統商品的交易模式會出現很多問題。本文將從供需平衡、數據定價和時效性三個方面分析現有大數據交易平臺的不足。
3.1 數據供需的錯配
現有大數據交易平臺的第一點不足就是數據供需的錯配,即:供應方提供的數據資源往往不是需求方所需要的,而需求方需要的數據在交易平臺上找不到,即使有相近的數據資源,也存在很大的數據缺失或冗余,買回去也無法使用。對數據供應方來說,由于無法準確預知數據買方多樣性的需求,它只能從自身角度出發,將可以公開的、并且自認為有價值的數據資源放到平臺上待售。對需求各異的買方來說,供應方提供的標準數據很難與自己的應用方向精準匹配,這也是目前大數據交易還不夠活躍的原因。當然,當供需雙方建立初步聯系以后,供應方甚至可以為需求方個性化定制大數據資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數據供應方無法提供多維的數據資源,只有多維的數據資源才具有較高的分析價值。
3.2 大數據資源定價困難
大數據資源定價困難是現有大數據交易平臺的第二點不足。大數據資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現。而大數據本身的價值無法直接衡量,需求方購買它的目的是作為數據分析的信息源,但是否能發現潛在的規律還未可知。因此無法在購買前,準確判斷出待售數據資源的價值大小。此外,需求方在不確定某大數據資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數據供應方的交易積極性,加大了供需雙方達成交易的難度。
3.3 數據的時效性不強
現有大數據交易平臺的第三點不足,就是數據資源的時效性不強。目前很多大數據交易平臺上待售的數據資源都以歷史數據為主,這是因為數據資源在交易前需要經歷脫敏處理,將涉及政府信息安全、企業商業機密和個人隱私等敏感信息進行變換和替代。此外,供應方還需要對原始數據進行初步的清洗,整理成一定的數據格式集中存貯和交付,方便需求方進行數據分析。由于一般的數據供應方并不具備對大數據進行實時脫敏和清洗的能力,只能將采集到的數據資源,經過一段時間的離線處理后,再放到交易平臺上,所以只能供應歷史數據。隨著社會節奏的不斷加快,歷史數據很可能并不能反映當下的真實情況,越來越多的數據分析都需要用到實時數據作為信息源,這是未來大數據交易必須克服的一個短板。
4.融合數據分析服務的大數據交易平臺設計
本文提出將數據分析服務融合到目前的大數據交易中,以此來克服現有交易平臺的不足,本節將首先對數據分析服務進行概念界定,再依次介紹平臺設計的總體思路和核心模塊的設計,具體如下。
4.1 數據分析服務的概念界定
數據分析是指運用各類數據處理模型和信息技術手段,對數據資源進行深度的挖掘,從而發現其中蘊含的規律,作為管理決策的依據。數據分析本身是一種能力,如果一個組織將其數據分析能力提供給其他組織或個人,并收取一定的費用,這就是數據分析服務。在大數據環境下,數據資源不僅體量巨大而且種類多,對數據分析能力的要求不斷提高。在這種情況下,只有少數組織具備獨立處理大數據的能力,其他的組織比如大量的中小企業,都需要從組織外部尋求專業的數據分析服務,來滿足自身的需要。因此,數據分析服務和大數據資源一樣存在巨大的市場需求。
4.2 平臺設計的總體思路
本文將提出的融合數據分析服務的大數據交易平臺,定位為第二代大數據交易平臺,它將大數據資源交易與數據分析服務兩者進行深度融合,在交易平臺上實現數據與服務的一體化交易。大數據交易平臺的角色也從原來的數據資源買賣的信息中介,轉變為大數據綜合服務商。在融合后的大數據交易平臺上,數據需求方不再提交數據資源的需求信息,而是直接提出自己的應用方向和想要得到的結果,交易平臺再根據需求方的應用方向,反向匹配數據資源和數據分析服務。這個匹配的過程不是單一的數據集或服務的查找,而是對全平臺的數據資源進行有效整合,形成高價值的多維數據,再結合復合型的數據分析技術,得到最終的分析結果,最后將分析結果與基礎數據一同交付給需求方。交付基礎數據的目的,一是方便需求方進行分析結果的對照,為決策提供更精準的參考。二是需求方可以根據基礎數據進行衍生挖掘,進一步提高數據的利用效率。平臺設計的總體思路繪制成圖1。
圖1 平臺設計的總體思路
4.3 核心模塊的設計
融合數據分析服務的大數據交易平臺共劃分為四大模塊,具體如圖2所示。
圖2 融合數據分析服務的大數據交易平臺的主要模塊
系統管理模塊具體又分為用戶管理、系統維護和安全管理。安全管理是系統管理模塊的重點,主要包含三個方面的功能:第一,負責整個交易平臺的系統安全,通過對交易平臺進行實時監控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數據供應方提交的數據資源進行審核,如果發現是非法數據,則阻止其交易,并及時將有關情況反饋給相關的政府監管部門,由它們進行調查處理。第三,檢查所有數據是否經過脫敏處理。如果發現部分數據存在未脫敏或者脫敏不合格的情況,交易平臺將負責對該數據資源進行脫敏處理,從而保護數據中的隱私不被泄露。
大數據資源池模塊、數據分析服務模塊和協同模塊是交易平臺的三大核心模塊,是數據與服務兩者融合并實現一體化交易的關鍵,本文接下來將對這三個核心模塊的功能進行詳細設計。
4.3.1 大數據資源池模塊
大數據資源池模塊主要包含三個方面的功能:數據資源格式的整理、數據的多維度整合、大數據資源的云存貯。具體如下。
(1)數據資源格式的整理。由于大數據交易平臺上的數據資源來自不同的數據供應方,因此其數據資源的格式會有較大的差異。如果不經過格式整理就直接進行數據分析,很可能會因部分數據無法準確讀取,而影響數據處理的效率,嚴重者還會導致數據分析中斷。數據資源格式整理的主要任務是將同一類型數據的格式進行統一,對部分缺失的數據屬性進行補充,對錯誤的數據格式進行修正。
(2)數據的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數據供應方無法提供高價值的多維數據。所謂多維數據是包含用戶或者行業多個背景和情境的大數據資源,這些多維數據使用戶或行業多個側面的信息產生了關聯,有利于發現深層次的潛在規律。融合數據分析服務的大數據交易平臺應該作為數據整合的主體,將單個數據供應方提供的零散的數據資源,進行多維度的整合,當缺少某一個維度的數據時,再向相應的數據供應方進行定向的采集,最后得到相對完整的多維數據,具有很高的分析價值。
(3)大數據資源的云存貯。大數據資源經過格式整理和多維度整合以后,已經可以作為數據分析服務的信息源。下一步就是將這些數據資源進行統一的云存貯,以便數據分析服務調用。以往部分大數據資源由于體量巨大或實時更新的需要,無法上傳到交易平臺上,或者只提供部分調用接口。融合數據分析服務的大數據交易平臺通過建立云存貯中心,將整合后的多維數據進行統一存放和調用,有助于提高數據資源的存取效率。
4.3.2 數據分析服務模塊
數據分析服務模塊首先根據數據需求方的應用方向,匹配出合適的多維數據資源,再選擇相應的數據分析模型分配所需的計算能力,最后將得到的分析結果反饋給需求方。本文將數據分析服務劃分為三個大類:基礎性分析服務、高級分析服務、深度定制的分析服務。具體如下。
(1)基礎性分析服務。基礎性分析服務是指那些常規的數據統計,比如:總體中不同對象的占比分析,基于不同屬性的關聯分析或相關性分析等。這些分析服務耗時較短,分析技術較為簡單,只要數據資源本身完備,就可以迅速得到結果。基礎性分析服務由大數據交易平臺本身來提供,可以面對不同的需求方,實現快速交付。
(2)高級分析服務。高級分析服務是指那些較為復雜的數據分析服務,比如:精準的趨勢預測、全面的用戶興趣畫像、非結構化的信息挖掘等。這些分析服務需要大量專業的數據處理技術,比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數據交易平臺對接第三方的數據分析服務商,由它們來提供高級分析服務。大數據交易平臺在同一數據分析領域,應引入多家數據分析服務商,通過動態的競爭,來保證服務的質量。
(3)深度定制的分析服務。大數據分析目前還處在快速發展階段,很多前瞻性的技術還在試驗當中,應該說數據分析技術的發展相對于旺盛的現實需求來說是滯后的。當需要用的某一數據分析技術,在目前的市場上還找不到現成的提供方時,就需要大數據交易平臺為其進行深度的定制,交易平臺通過多方位的研發能力評估,尋找合適的技術主體來進行專門的技術攻關。
4.3.3 協同模塊
協同模塊主要包含兩個方面的功能:數據分析服務之間的技術協同、交易各方的管理協同。具體如下。
(1)數據分析服務之間的技術協同。在面臨較為復雜的數據分析任務時,可能需要用到多個領域的數據分析技術,這時單個的數據分析服務商可能無法獨立完成。因為不同的行業領域,都有其行業技術的獨特性,需要長時間的專業積累。在這種情況下,就需要多個數據分析服務商相互合作才能完成。數據分析服務之間的技術協同,就是通過一定的技術標準和操作規范,讓多個數據分析技術提供方,能夠在完成同一任務時,在技術上不沖突,能夠相互并行的完成對數據資源的處理,按時按質的交付最終的分析結果。
(2)交易各方的管理協同。在融合數據分析服務的大數據交易平臺上,交易的參與者一共有四類,分別是數據資源的供應方、數據分析服務商、需求方和交易平臺自身。數據需求方在提交自己的應用方向和預期結果的同時,提交自己的交易預算。交易平臺根據需求方提交的應用方向和預期結果,對數據資源和數據分析服務進行反向的選擇。如果數據分析任務中只用到了基礎性分析服務,則整個交易為平臺方、需求方、數據資源供應方的三方交易。如果某數據分析任務,平臺自身無法完成,需要用到第三方的數據分析服務商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現參與各方的利益共享。交易各方的具體利益分配如圖3所示。
圖3 交易各方的利益分配
需求方希望在獲得預期結果的同時,其支付的成本在可接受的范圍內。交易平臺在對數據和服務進行反向匹配后,會出現兩種不同的情況:第一種情況是在原交易預算下,可以達到需求方預期的結果,則可成交。第二種情況是,原交易預算較低,在該預算下無法達到需求方要求的結果,這時交易平臺會和需求方溝通,提出新的報價,需求方經過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數據是整合后的多維數據,因此原始數據資源供應方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數支付。同一數據資源對于不同的需求者來說,其價值是不一樣的,融合數據分析服務的大數據交易平臺根據最終的一體化交易成交價,反向對數據資源進行定價,相對于現有的大數據交易平臺來說,是一種進步。交易平臺的深度參與,會使數據交易的頻率加快,原始數據資源供應方會獲得更多的收益。數據分析服務商根據具體的數據分析任務,直接參與由平臺發起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。
5.融合數據分析服務的大數據交易平臺的優勢
本文3.1到3.3中指出現有大數據交易平臺存在數據供需錯配、大數據資源定價困難、數據的時效性不強三大不足。融合數據分析服務的大數據交易平臺作為改進后的第二代大數據交易平臺,可以很好地克服上述三點不足。除了這三個方面的優勢以外,由于融合后可實現數據與服務的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。
5.1 直接面向應用,從根本上避免了數據供需的錯配
在融合數據分析服務的大數據交易平臺上,需求方對交易平臺直接提出應用方向和預期結果。交易平臺對全平臺的數據進行多維度整合,如果缺失某個維度的數據,可以進行定向的采集和補充,最后形成高價值的多維數據。這些多維數據才是真正具有分析價值的數據資源,這是單個數據供應方無法提供的。在得到多維數據后,結合平臺自身和第三方數據服務商的分析能力,得到最終的分析結果。交易平臺最后交付給需求方的是數據分析結果和基礎數據,這種直接面向最終應用的大數據交易方式,從根本上避免了數據供需的錯配。
5.2 融合后定價更有根據
在現有的大數據平臺上,數據需求方是將數據資源買回去以后自己分析,而在購買數據資源之前,不能預知數據分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關鍵點。在融合數據分析服務的大數據交易平臺上,需求方不再直接對數據資源付費,而是對最終的數據分析結果付費,并且數據分析結果是根據需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預期結果對自身的重要性或收益的改進程度,給出適當的交易預算。交易平臺以該預算為參照,對數據和服務進行選擇,若出現原預算約束下無法實現預期結果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現有的大數據交易平臺來說,融合后定價更有依據。
5.3 融合后可提供實時數據
在融合數據分析服務的大數據交易平臺上,數據資源采用云存貯的模式,由平臺進行統一管理,這提高了數據資源的安全性。在數據安全有保障的前提下,由交易平臺出面和數據資源供應方進行實時數據的對接,將實時數據納入大數據資源池中。對于單個的數據資源供應方來說,實時的數據脫敏難度太大。但大數據交易平臺不一樣,它可以利用規模優勢,組建強大的計算能力,對大數據資源進行實時的脫敏和清洗,極大地提高了數據資源的時效性。
5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力
融合后可實現數據和服務的一體化交易,讓很多自身不具備數據分析能力的組織和個人,也能方便地利用大數據,特別是大量的中小企業,這將大大增加交易對象的覆蓋范圍。
交易對象的增多會促進交易頻率的增長,從而為數據資源供應方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應更多的數據資源,從而提升交易的活力,整個大數據交易行業就形成了正向循環的良好發展態勢。
6結語
本文對大數據交易平臺本身進行了改進與創新,設計了一種全新的第二代大數據交易平臺,即:融合數據分析服務的大數據交易平臺。該交易平臺可以直接面向需求方的應用方向,實現數據和服務的一體化交易,不僅從根本上避免了數據供需的錯配,還使大數據交易的定價更有依據,平臺的深度參也讓提供實時數據成為可能,這些將從整體上提升大數據交易的效率。融合后數據和服務的一體化交易降低了大數據應用的技術門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續關注大數據交易平臺的創新研究,為實際應用和學術科研提供更多有益的參考。
參考文獻
[1]趙強,單煒.大數據政府創新:基于數據流的公共價值創造[J].中國科技論壇,2014(12):23-27.
[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數據治國時代的來臨[M].北京:中信出版社,2014.
[3]李文蓮,夏健明.基于“大數據”的商業模式創新[J].中國工業經濟,2013(5):83-95.
[4]侯錫林,李天柱,馬佳,等.大數據環境下企業創新機會研究[J].科技進步與對策,2014,31(24):82-86.
[5]張峰,張迪.論大數據時代科研方法新特征及其影響[J].科學學研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大數據的財產屬性研究[J]。圖書與情報,2016(1):29-35,43.
[7]齊愛民,盤佳.數據權、數據主權的確立與大數據保護的基本原則[J].蘇州大學學報:哲學社會科學版,2015(1):64-70.
[8]劉朝陽.大數據定價問題分析[J].圖書情報知識,2016(1):57-64.
[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數據交易價格研究[J].中國冶金教育,2015(6):86-91.
[10]翟麗麗,王佳妮,何曉燕.移動云計算聯盟企業數據資產評估方法研究[J].價格理論與實踐,2016(2):153-156.
[11]史宇航.個人數據交易的法律規制[J].情報理論與實踐,2016,39(5):34-39.
[12]殷建立,王忠.大數據環境下個人數據溯源管理體系研究[J].情報科學,2016,34(2):139-143.
[13]王忠.大數據時代個人數據交易許可機制研究[J].理論月刊,2015(6):131-135.
2電力在線監測過程中異常數據的分析和解讀
根據《國家電網報》的報道可以看到,在2014年,在南方某地區電力工作人員通過監測發現轄區內的一個電度表出現了電壓不穩的情況,這種情況的出現,就淺析“量價費損”在線監測過程中異常數據分析及處理楊娟國網山東鄄城縣供電公司274600說明此電表所管轄的區域內有違規用電戶,或者是記電表出現了問題。通過工作人員的連夜分析,發現是記電表的內部芯片出現了問題,正是因為這個問題才導致了整個電力系統的不穩。工作人員將所有記電表的內置芯片全部更換,發現電力系統開始正常運行,芯片更換后,追補到了六千余瓦電量,取得了階段性內的成功。這就說明,通過監測發現了數據異常后,需要及時的分析才能排除可能,從而“對癥下藥”。
3如何處理電力監測中的異常問題
隨著科技和時代的發展“,量價費損”在線系統在國家電網公司逐步實施使用,此種工具有著不同功能和作用,使用得當可以為企業增加經濟效益,如果使用不得當那么就會引起一系列的問題。國家電網公司在2013年上線試點了電力在線監測系統,對多個城市開展全面性的試點監測。主要工作原理是通過第三方平臺,對區域內的用電量、電價、電力傳輸線路等細節進行監測,如果在監測過程中發現了任何異常問題,就自動采用“閉環協調運作”的形式,可以讓工作人員在第一時間了解問題,從而解決問題。這個監測工具可以深入到用電系統的方方面面,將以往遺漏的地方全都納入監測之中。通過監測工具形成了按時匯報,定點處理的營銷機制,從根本上為復雜多樣的電力系統監測提供了高效優良手段。
3.1“量價費損”在線監測工具的運行機制
此監測工具主要是進行電力預警,將有可能出現的問題以形象直觀的方式及時反饋。一般來說,監測工具是使用多種類型的監測盤構成的,不同的監測盤負責監測電力系統的不同方面。監測盤可以通過人工定時的方式自動刷新,沒更新一次數據就是一次新的監測。通過監測盤,可以展現出電費、電價、電力使用情況等方方面面的數據,各種數據指標都是各電力工作人員需要著重構建用電系統的依據。其中不同顏色表示風險預警的不同狀態,如果是紅色,那么就說明電力系統存在高危風險,此時應該特別注意,全力排查有關問題。監測盤的指針如果落到了黃色區域,那就說明高危風險出現的幾率增加,此時應該防患于未然,如果指針在綠色區域,就說明一切指標和數據處于一個安全的狀態內,所有用電系統一切正常。
3.2“量價費損”監測過程中的問題預測
在電力監測過程中,除了有不同顏色的標注之外,還有彈出窗口作為提醒。這區別于不同的顏色風險區域,可以以更加醒目的方式提醒有關人員,引起全部人員的注意力。在電力監測過程中會發現,電費問題一直是一個難以解決的重要難題。因為用電戶繁多,沒法及時將電費收回,影響了電力公司的正常運轉。而在監測工具中,新增了智能運算這一個過程,可以通過有關程序,計算出有關的電費和電價,從而對相應的用電客戶做出提醒,降低電力系統的風險,這種省時省力的方式受到了良好的效果。
3.3“量價費損”在線監測的優點
在線監測工具在用電系統中的廣泛應用,使得各大城市可以在宏觀上把握各大電網的運行狀態。對于供電企業的決策處理水平有了一個很大的提高。供電企業的數據分析擺脫了低效的機制,從而構建了一個全新的用電管理系統。對于廣大市民來說,此種監測工具成為了溝通用電戶和電力公司的橋梁,在二者之間建立起一個良好的信譽體系,促進了節約用電的意識,規范了用電機制和模式。可以保證日常生活中電費的順利上繳和回收。此種用電監測工具能在源頭上防止不正確的用電行為,保證了供電企業的經濟效益。可以確保供電企業的資金合理運轉,杜絕了以往用電過多、蓄意浪費等不良行為。如果有蓄意欠費用戶,也可以通過監測第一時間發現,從而避免了供電企業的經濟損失。根據調查表明,在監測工具使用后,違章用電客戶比之前減少了百分之六十,大大增強了電力資源的利用率。
BI商業智能軟件一般都會提供若干數據整合、數據查詢、分析與評價、數據可視化及數據分享的手段,但是在BI項目的構建與實施過程中,如果不按照一定的應用組織思路、數據分析模式及分析流程使用這些工具或手段,呈現給最終用戶的將是獨立的工具集和離散的分析內容,BI系統的整體應用效果將大打折扣。同時,最終用戶也了解數據分析模式及數據分析流程方面的一些常用理論和方法,以便形成自己的分析內容組織思路,從而有效開展數據決策分析工作。這方面目前已有多種卓有成效的理論及實踐體系,本文基于既往經歷的典型BI/DW項目實施經驗及對BI軟件規劃研發和實施經驗,給出一種BI系統中的數據分析內容及分析流程組織思路。
1.整體應用模式
在商業智能項目(DW/BI項目)中,通過梳理和優化現有的指標、報表體系和分析體系,同時整合主要的業務系統數據(業務核心支撐系統、財務系統、HR系統、手工維護的數據如行業數據、競爭對手數據等),從而建立面向總部和子公司的業務及IT等部門,集中使用、管理和維護的BI商業智能系統,以強化信息共享、業務分析、輔助管理決策工作。
在系統構建思路(系統整體應用模式)方面,面向數據分析的BI商業智能系統構建工作應達到如下目標:
2.數據分析模式
在數據分析的原理及模式方面,BI商業智能系統可采取PDCA管理循環理論的分析問題的模式,PDCA管理循環理論起初應用于質量檢查與保障優化領域,后來在精細化管理及數據分析與決策領域卓有成效。
應用在商業智能項目(BI/DW類)中時,PDCA管理循環理論的P、D、C、A四個英文字母所代表的意義如下:
1)P(Plan)——計劃
包括方針和目標的確定以及活動計劃的制定,包括業務發展目標(goal),中期計劃(plan),年度、季度及月度預算等(budget)。
計劃環節的內容觸發了BI商業智能系統應當具有導入并集成計劃與預算等相關數據的能力這一要求,而計劃及預算的制定工作,一般則是通過在專項的計劃與預算管理系統中進行。也有個別BI廠商基于自定義的填報方案為客戶提供計劃和預算的下發與上報等管理功能。
2)D(DO)——執行
執行就是具體運作,實現計劃中的內容。在BI商業智能系統需要對及時、準確的反應業務的現狀提供必要的、充分的手段,包括圍繞業務整體狀況及各個業務面構建的Dashboard、報表、查詢、預警及其他數據分析及可視化手段。
有比較才能明了現狀,有參照才能進行比較。因此BI商業智能系統還應該提供來自內部、外部的參照體系,比如計劃數據、歷史數據、標桿數據、競爭數據等,以便對業務現狀的健康程度有足夠的參照依據。
3)C(Check)——檢查
就是要檢查并總結執行計劃的結果,分清哪些對了,哪些錯了,明確效果,找出問題。
在BI商業智能系統中,應提供相應的對比和評價手段,如各類計劃的達成情況分析、標桿分析、綜合績效評價、EVA評價等手段,以便對一個業務周期的效果進行分析與評價。
該部分的分析粒度應有所提高(如沿著時間、人員等維度),分析的范圍相應縮窄,結合管理及業務現狀有針對性對總體及關鍵業務環節設立專項檢查與評價手段,檢查評價的內容一般集中在業務效率及財務表現等方面。
4)A(Action)——處理
對上文Check環節檢查的結果進行處理,管理人員通過仔細分析內在原因之后對檢車結果認可、否定或調整改進相關參數及結果。并利用有效的結果針對性的開展相關商務政策及管理措施等。
比如,在既往實施的多個經銷商網絡管理商業智能項目中,Action環節落實為相應銷售政策、獎罰措施及總部向各經銷商、商的利潤返還計劃,同時也落實為對下一輪業務目標計劃數據的調整。
3.數據分析流程
1引言
本課題來源于中央廣播電視大學教務管理系統的后續開發。隨著中央電大在開放式教育思想指導下的教學改革的展開,系統業務量急劇猛增,原有的教學管理系統已經逐漸的滿足不了應用需求。所以新一代教學管理系統正在開發中,同時由于教育業務本身的連貫性,導致了新舊系統并行的局面出現。但是由于新舊系統間缺少關聯和通信以及必要的規范,導致信息“孤島”現象嚴重,而舊系統又恰恰是電大不可放棄的重要投資。同時由于各個系統集成度不足,運行業務的數據庫和應用程序也是在不同時期部署的,它們來自不同的供應商,使用各不相同的定制技術。從而面臨著如何構建一個強壯的、可靠的,將新舊系統中的分散功能組織成可共用的標準服務來滿足業務要求的平臺,成為我們需要研究的難點。
通過實踐我們可以發現,應用程序始終都與數據有關,企業級的服務程序更是如此。今天,企業應用程序開發中有高達70%的時間都是用于訪問不同的數據。因此,對企業信息和數據按業務邏輯進行梳理和抽取,形成企業數據的統一表現實體,該實體可以在全企業范圍內得到一致性的使用,是邁向面向服務的體系架構的第一步。因此我們提出了主題數據平臺的概念。
2主題數據平臺結構
主題數據平臺結構見圖1。主題數據平臺由:主題數據服務層、數據處理構件、數據處理管道、適配器構件組成。
圖1數據主題平臺的設計構架
主題數據服務層:是底層接口與上層應用的中間層,用于屏蔽底層接口,向上提供統一的服務。有兩種角色:一種角色是數據中轉站,用于保存臨時數據,并等數據傳輸完整之后,進一步對數據進行分析和處理;另一種角色是主題數據服務層角色,用于保存數據處理的最終結果:主題數據。
數據處理構件:是數據處理的基礎構件,每一個數據處理構件都封裝了一部分相對獨立的數據處理邏輯,包括刪除不需要的數據、補充缺少的數據、對數據進行簡單的四則運算、代碼轉換和按主題建立新的數據結構等功能。
數據處理管道:是由多個數據處理構件組成,它合理的組合和安排這些數據處理構件,從而完成復雜的數據處理邏輯。
適配器構件:用于實現異構數據庫與數據處理管道的無縫連接,從而能夠方便的從異構數據庫中抽取或插入數據。
3基于局域網的主題數據平臺的實現方案
基于局域網的主題數據平臺的實現方案見圖2。
圖2基于局域網的數據主題平臺的實現方案
由于局域網有著:網絡傳輸速度快、網絡故障率低、即時性強、服務器固定等優點。所以我們采用:DTS技術、Nmake技術、臨時庫等技術來解決基于局域網的主題數據平臺的實現問題。
3.1DTS技術的應用
采用DTS技術可以實現在局域網中從異構的數據庫中提取或插入數據,并能對數據進行簡單的邏輯操作。它可以把相對獨立的數據處理邏輯封裝在對應的DTS包中,從而把公用的數據處理邏輯從數據處理業務中提煉了出來,以備復用。并提供了工作流支持,保證了DTS包中數據處理業務的事務性和完整性。
⑴適配器構件
適配器構件只是一個數據處理通道和異構數據源的連接器,它負責從異構數據源中抽取或者插入數據并將數據轉移到數據處理通道中。每一個數據源對應一個或多個適配器構件,每個適配器構件包含在對應的DTS包中。整個DTS包中包含一個原數據源、一個目標數據源和一個數據對應轉換任務。將整個數據轉換邏輯封裝為一個構件,有利于適配器構件的復用。
⑵數據處理構件
數據處理構件封裝了數據處理邏輯,這些處理邏輯由數據業務驅動,包括刪除不需要的數據、從不同的數據來源補齊缺少的數據、對數據進行簡單的四則運算、不同信息系統之間的代碼轉換等功能。數據處理邏輯按其獨立性和公用性被封裝在不同的DTS包中,增強了數據處理構件的可變性和復用性。DTS包提供了驗證機制這既可以保證數據處理邏輯的正確性,又可以保證數據處理邏輯的事務性。DTS包內包含工作流,可以針對不同的情況做出不同的處理,極大地提高了數據處理構件的復用性,并可對業務性錯誤做出必要的處理。
3.2Nmake技術的應用
Microsoft程序維護實用工具Nmake是一個32位基于說明文件中包含的命令生成項目的工具。NMake具有豐富的選項,可以完成復雜的處理操作,并有樹狀文件任務處理結構,并且易于編寫,結構清晰,對于實現復雜的數據處理業務提供了很大的方便。采用Nmake技術可以有效的將結構松散的、相對獨立的數據處理構件聚合起來,從而能夠處理復雜的數據處理業務。
數據處理管道
數據處理管道是將數據處理構件有機的組合起來并封裝好,對主題數據服務層提供統一的訪問接口,從而把數據服務邏輯與數據處理邏輯分割開來。數據處理管道可以極大地提高數據處理構件的復用率,并把復雜的數據處理邏輯從數據處理構件中抽離了出來,當數據處理業務變動的時候不需要修改構件只要按著業務需求,重新組織構件即可解決問題。Nmake可以按著業務需求輕松地把數據處理構件組合起來形成帶有業務邏輯關系的數據處理管道,并且Nmake提供了業務流功能,針對不同的業務需求可以提供不同的業務流支持,從而極大的提高業務本身的靈活性。當業務需求變動時,Nmake可以通過重新組合數據處理構件來完成業務,而不需修改或者重新編寫數據處理構件,從而提高數據處理構件的可復用性。
4基于互聯網的主題數據平臺的解決方案
基于互聯網的主題數據平臺面臨的主要問題是如何通過遠程數據傳輸將互聯網的異地、異構的數據源中的數據傳輸到主題數據服務層中。數據一旦進入主題數據平臺的主題數據服務層,就可以使用和基于局域網的解決方案相同的技術對數據進行整理。通過遠程數據傳輸將互聯網的異構數據傳輸到主題數據服務層之后的功能與基于局域網的數據轉換接口的功能相同。
中央廣播電視大學遠程開放教育的教務管理系統是一個跨越44個省面向全國的開放式教育體系結構。該系統包含四級平臺、五種角色,由于其獨特性中央電大教務管理系統基于互聯網的主題數據平臺的搭建有如下4方面需求:
1)中央電大各個系統之間、中央電大教務管理系統各級平臺之間需要能進行靈活的數據交換。
2)每次交換數據的數據量可能達到GB級。
3)部分數據交換有實時性要求,在規定時間內客戶端必須收到響應,不能因為數據傳輸而推遲業務進度。
4)需要在網絡狀況不穩定的情況下完成數據交換,因為中央電大教務系統是跨越44個省的開放式教育系統,所以中央電大需要同44所省電大交換數據,在這種情況下網絡狀況不可預知、穩定性難以保證,但傳輸仍然需要進行。
4.1SOAP協議與Hessian協議的比較
目前,Web服務技術是解決異構平臺系統的集成及互操作問題的主流技術[1]。它所基于的XML已經是Internet上交換數據的實際標準,基于通用的進程間通信協議和網絡傳輸協議屏蔽平臺的差異,可以將各種異構環境下的通信及調用請求均統一為標準的Web服務格式[3]。
但是由于SOAP協議的結構問題會使封裝的數據膨脹數倍。當傳輸數據量比較小時,問題不是那么明顯,但是當進行大數據量傳輸時就會導致Web服務的傳輸性能在實際運用中降低了很多。這對于經常有大數據量數據交換的應用系統來說是不適用的。
CauchoTechnology公司制定的HBWSP(HessianBinaryWebServiceProtocol)[2]在這方面的有所突破。Hessian協議和webservice常用的SOAP協議類似,也是將協議報文封裝在HTTP封包中,通過HTTP信道進行傳輸的。因此Hessian協議具有與SOAP協議同樣的優點,即傳輸不受防火墻的限制(防火墻通常不限制HTTP信道)。Hessian協議的優勢在于:它把本地格式的數據編碼為二進制數據,僅用一個字符作為結構化標記,HBWSP封裝后的數據增量明顯小于SOAP封裝后的數據增量。并且相對于SOAP,Hessian協議的外部數據表示有3個顯著的優勢:
1)采用簡單的結構化標記。簡單的結構化標記減少了編碼、解碼操作對內存的占用量。編碼時,只需寫少量的數據,就可以標記結構;解碼時,只需讀少量的數據就可以確定結構。而且,簡單的結構化標記減少了編碼后的數據增量。
2)采用定長的字節記錄值。用定長的字節記錄值,解碼時,就可以使用位操作從固定長度的位獲得值。這樣不僅操作簡單,而且可以獲得較高的性能。
3)采用引用取代重復遇到的對象。使用引用取代重復遇到的對象可以避免對重復對象的編碼,而且也減少了編碼后的數據量。
因此使用Hessian協議傳輸數據量比SOAP協議要小得多。實踐證明,傳輸同樣的對象Hessian協議傳輸的數據量比SOAP協議低一個數量級。因此Hessian協議比SOAP協議更適用于分布式應用系統間大數據量的數據交換。
4.2Hessian協議的實現構架
Hessian協議的實現構架如圖3所示:為了實現Hessian構架,設計了下列組件:編碼組件、解碼組件、通信組件、報告故障組件、組件、調用服務過程組件。
圖3Hessian協議的實現構架
首先客戶端發出本地請求,組件響應請求依據服務接口,生成客戶端存根,并調用編碼組件對本地請求進行基于HessianBinaryWebServiceProtocol標準的二進制編碼。然后調用通信組件將請求發送給服務器端。服務器端通信組件接收到請求后把請求轉發給調用服務過程組件,調用服務過程組件會首先調用解碼組件,得到過程標識,將過程標識轉給服務器端存根,并依據部署文件和客戶端的請求加載服務過程的實現類。然后根據過程標識、過程參數調用服務過程。最后調用編碼組件將響應結果進行編碼并通過通信組件返回給客戶端。
當數據傳輸、通信發生錯誤的時候就需要啟用報告故障組件,它可以以異常的形式,報告發送端、接收端、或者網絡連接發生的故障,并把錯誤記錄以日志的方式記錄下來保存在文件中,以備日后查閱。
4.3實現結構
針對教務管理系統互聯網傳輸存在的一系列問題,基于互聯網的主體數據平臺采用基于HBWSP的輕量級跨平臺通信技術實現數據交換,如圖4所示。在客戶端,應用服務器從主題數據服務層中抽取數據,并按著HBWSP的外部數據表示對本地格式數據進行編碼。然后通過internet網進行傳輸,在服務器端,數據交換的服務負責按照HBWSP的外部數據表示對接收到的數據進行解碼,然后再對數據進行分析、處理后把數據插入到服務器端的主題數據服務層中。
圖4非持久同步方式的數據交換解決方案
該解決方案的主要特點包括:
1)采用了HBWSP的二進制編碼方式解決了異地、異構平臺系統的通信問題,并使數據交互具有了一定的實時性。
2)由于HBWSP簡潔的編碼方式以及編碼、解碼性能高等特點使數據交換具有交換GB級數據的能力。
3)采用了HBWSP的二進制編碼方式有助于縮短整個數據交換所需要的時間。其編碼性能高的特點,有助于提高編碼速度,減少發送方編碼本地數據的時間。其解碼性能高的特點,可以減少接收方解碼、重構本地數據的時間。從而減少了數據交換的響應時間。
4)采用了HBWSP的二進制編碼方式和數據分批傳送技術有助于充分利用網絡狀況良好的時段??梢栽诰W絡狀況良好的時段盡可能多的完成數據交換。
5)采用了斷點續傳技術,保證了當網絡斷連或響應超時導致正在進行的數據交換被中斷,在故障修復后仍然可以從中斷處開始,繼續完成上次沒有完成的數據交換的能力。斷點的粒度可以調節,可以是一條數據,也可以是多條數據。
6)采用了事務保護機制,把每批要傳輸的數據定義為一個事務,本批要傳輸的數據的事務完整性不依賴于已經完成的各批數據,本批數據傳輸發生錯誤也不會對已經完成的各批數據造成影響。采用這種方法,可以在數據交換過程被中斷的情況下保證數據交換事務的完整性。
5總結和展望
本文在SOA理論的基礎上提出了一個主題數據平臺的概念,力圖把異地、異構的數據綜合起來,組成一個強壯的、高可靠性的、可共用的標準數據服務平臺。從而解決中央電大新舊教學管理系統數據“孤島”的問題。我們再進一步針對現實環境:局域網和互聯網兩種情況進行了分析,并給出了實現框架和技術細節。
但是如何在信息暴露的基礎上,對業務應用進行進一步的梳理、劃分、整合,從而封裝成用戶可以隨意組合、使用的標準服務,從而實現真正的SOA,是需要我們進一步研究的內容。
參考文獻
二、數據挖掘技術在財務分析中的應用
財務分析的主要目的是改善經營管理,提高企業的經濟效益,其主要目的是保證會計信息資料的正確可靠性,以保證企業財產的安全性、完整性。比如某生態園林企業需要投入大量資金完善生產基礎設施,并保證現場作業的有序,如有必要還要投資于企業產品周邊附屬產業的發展,因此財務決策的重要性不言而喻,而在財務決策中應用數據挖掘技術十分必要。財務分析中應用數據挖掘的基本流程包括問題識別、數據準備、數據開采及結果表達與解釋等四個步驟,圖1可將財務分析數據挖掘的過程直觀的表達出來:
(一)問題識別
典型的財務決策包括投資決策、籌資決策、成本決策、銷售決策等,企業要進行財務分析前必須識別決策問題,明確需要達到的決策目標等,再將決策目標轉換為數據挖掘的目標,最后進行準確的數據定義。如企業需要投資企業產品周邊附屬產業,則需要利用數據挖掘技術明確以下問題:
(1)企業經營中可隨時支配的資金額度,需要財務人員建立數據庫模型,將可用于投資的資金情況準確、詳細的計算出來;
(2)編制投資方案,即與本企業實際情況相結合,考慮具體投資計劃,并對投資方案的可操作性進行分析,比如上述園林生態企業需要投資進口園林機械的項目,就需要在投資前對該項目的大小做出合理評估,了解該品牌園林機械在國際市場的占有份額、品質、成本及銷售價格等信息;
(3)投資收益分析,投資的主要目的是獲得更高收益,因此在數據挖掘過程中,問題識別時必須做出可靠的收益預算。
(二)數據準備
在完成問題識別后,需要根據不同的需求、從相關數據庫信息中選擇適用的數據信息,即進行數據準備,該過程需要收集大量與企業財務分析相關的數據信息,以保證數據挖掘的真實性、客觀性,比如花卉市場分布信息、裝飾裝潢市場信息、園林設計與市場銷售等信息。通常情況下,數據準備又可分為數據集成、數據選擇及數據預處理等三個步驟,其中數據集成是把多數據庫運行環境中的數據進行合并處理,去除信息噪聲,剔除虛假數據;而數據選擇則是分辨需要分析的數據集合,進一步縮小數據處理的范圍,提高數據質量,從而保證數據挖掘的有效性;數據預處理的主要目的是解決數據挖掘工具局限性的問題。
(三)數據挖掘
當上述準備工作完成后即可進行深入的數據挖掘處理,挖掘過程中需要注意,必須以財務分析核心思想為指導,明確數據挖掘的目的性,數據挖掘的主要內容包括:選擇合適的挖掘工具、具體的挖掘操作及證實發現的知識等,其中選擇合適的挖掘工具至關重要,限于篇幅此處對神經網絡及決策樹兩種方法進行簡單介紹。神經網絡是以自學習數學模型為基礎的,利用該方法可以很容易的解決具有上百個參數的問題,為高復雜度的問題提供一種相對簡單的方法;視經網絡既可以表現為有指導的學習,也可以是無指導聚類,不過輸入神經網絡中的值均為數值型的。實際應用中通常采用該方法進行財務預警分析。決策樹法是現階段應用最廣泛的歸納推理算法之一,其提供了一種展示在何種條件下會獲得對應值的規則的方法,是一種簡單的知識表示方法,在數據挖掘過程中,決策樹法主要用于數據挖掘的分類。
(四)結果表達
結果表達即是在處理數據庫信息的基礎上客觀的表達出數據挖掘的結果,以為企業財務分析提供可靠依據??梢哉f結果表達是數據挖掘的成果展示,其所表達的是最有價值的信息,如結果表達所提供的信息達不到決策的要求,則可重復挖掘過程,直至決策者滿意為止。