時間:2023-03-14 15:20:31
序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇大數據解決方案范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!
中圖分類號:TP309 文獻標識碼:A 文章編號:1009-3044(2013)27-6217-03
1 認識大數據
相信大家都還記得2013年5月10日淘寶十周年晚會上,阿里巴巴集團董事局主席馬云在其卸任集團CEO職位的演講中說到:“大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了?!?/p>
什么是大數據?
早在1980年,當時著名的未來學家阿爾文·托夫勒便在其著作《第三次浪潮》中熱情洋溢地將大數據贊頌為“第三次浪潮的華彩樂章”。不過直到時光抵達2009年,“大數據”才開始成為互聯網信息技術行業的流行詞匯。
環顧四周,我們都已經切身感受到了當今的信息量正在以前所未有的速度膨脹。當我們的普通民眾在上世紀90年代剛剛接觸個人計算機的時候,1MB的磁盤,1GB的硬盤已經是不錯的配置。然而現在呢?GB、TB都已經無法滿足我們丈量數據大小的需要,PB、EB、ZB已經義無反顧地承擔起了丈量數據的大任。
隨著互聯網自媒體的普及,每天都有數以億計的人在發微博、寫微信、更新個人主頁、使用社交網站、發表個人評論……全球互聯網上每天會有220萬TB的新數據產生,90%的數據都是在過去的24個月內創造出來的,如今,這個比例還在不斷上升。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,他們對大數據的表述是:大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。他們對大數據的特性進行了歸納,提出了4V特點,即Volume(數據量大)、Velocity(要求實時性強)、Variety(數據的種類多樣)、Value(數據是有價值的)。
而《互聯網周刊》則認為“大數據”的概念遠不止大量的數據和處理大量數據的技術,或者所謂的“4V特點”之類的簡單概念。大數據是涵蓋了人們在大規模數據的基礎上所能做到的事務,而這些事務在小規模數據的基礎上是無法實現的。換句話說,大數據讓我們能夠以一種前所未有的方式,通過對海量數據進行分析,獲得具有巨大價值的產品和服務,或者深刻的洞見,進而最終形成變革世界的力量。
2 大數據應用的現狀分析
最早提出世界已經迎來“大數據”時代的機構則是全球知名的咨詢公司——麥肯錫。麥肯錫在其研究報告中指出:數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
大家都或多或少地意識到應該能從這些海量的數據中獲取些什么,然而究竟我們能獲取到什么呢?
一個被廣為傳播的典型案例是:在2012年初美國的一家Target超市,一位憤怒的父親突然闖進來對店鋪經理咆哮道:“你們竟然給我17歲的女兒發嬰兒尿片和童車的優惠券,她才17歲??!”經理下意識地認為是店里出了問題,也許是誤發了優惠券,于是立即向這位父親道歉。然而經理卻沒有意識到,其實這是公司正在運行的一套大數據系統得出的分析結論。
Target會從其會員的購買記錄中去了解該顧客的性格、類別等一些列業務活動。上面的例子正是Target為適齡女性創建的一套懷孕期變化分析模型,如果相關客戶第一次購買了嬰兒用品,系統將會在接下去的幾年中根據嬰兒的生長周期向顧客推薦相關的產品,從而培養和提高客戶的忠誠度。
果然,一個月后,該名憤怒的父親打電話給商鋪道歉,因為Target發來的嬰兒用品優惠券不是誤會,他的女兒確實懷孕了。
利用數據挖掘用戶的行為習慣和喜好,在凌亂紛繁的數據背后發掘出更符合用戶興趣和習慣的信息、產品和服務,并對這些目標化的信息、產品和服務進行針對性地調整和優化,這便是大數據能帶給商家最誘人的價值之一。
隨著社交網絡在人們生產生活中地位的快速提升,大量UGC(User Generated Content用戶自生成的內容)進入互聯網,上述價值的實現也變得越來越明顯。
事實上,全球IT業巨頭都已經意識到數據的重要意義和“大數據”時代的到來。包括IBM、EMC、惠普、微軟在內的全球知名跨國公司都陸續通過收購與“大數據”相關的廠商來實現技術整合。
目前典型的大數據應用領域有:
商業智能。例如:用戶行為分析,即結合用戶資料、產品、服務、計費、財務等信息進行綜合分析,得出細致、精確的結果,實現對用戶個性化的策略控制,這在營銷網絡的流量經營分析中占有越來越舉足輕重的地位。個性化推薦,即在各類增值業務中,根據用戶喜好推薦各類業務或應用,這已成為運營商和門戶提供商服務用戶的一個最有效方式之一,比如應用商店的軟件推薦、IPTV視頻節目的點播推薦、購物或旅游網站的猜你喜歡等。
公共服務。一方面,公共機構可以利用大數據技術把積累的海量歷史數據進行挖掘利用,從而提供更為廣泛和深度的公共服務,如實時路況和交通引導;另一方面,公共機構也可以通過對某些領域的大數據實時分析,提高危機的預判能力,如疾病預防、環境保護等,為實現更好、更科學的危機響應提供技術基礎。
政府決策。通過對數據的挖掘,從而有效提高政府決策的科學性和時效性。例如:日本大地震發生后僅僅9分鐘,美國國家海洋和大氣管理局(NOAA)就了詳細的海嘯預警。并且隨即NOAA通過對海洋傳感器獲得的實時數據進行了計算機模擬,制定出詳細的應急方案,并將制作的海嘯影響模型實時在了YouTube等網站上。
3 大數據解決方案的現狀分析
以往談及大的數據通常用來形容一個公司創造的大量非結構化和半結構化的數據。如今把“大數據”作為一個專有名詞提及,通常指的是解決問題的一種方法,即通過收集和整理生產生活中方方面面的數據,然后對其進行整理、挖掘、分析、處理,進而從中獲得有用的價值信息。這種衍化出的新的商業模式即為通常意義上的大數據解決方案。
雖然通常意義上的大數據解決方案描述了一種通常的行為,但要實現這種通常的行為,往往會遇到諸多技術和硬件上的問題。一個顯而易見的問題就是:大數據包絡萬象,而且像音頻、文本信息、視頻、圖片等非結構化數據正以突飛猛進的速度增長,加上移動互聯網的普及所帶來的如位置、生活信息等富含價值的數據,現有的,或者傳統的對數據的處理手段和硬件配置已越來越跟不上數據發展的步伐。
于是革命爆發了!
哈佛大學社會學教授加里·金就說道:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!?/p>
數據需要存儲,存儲需要設備,存儲設備的容量和可擴展性以及讀取的速度成為了一大問題(容量問題);大數據不是一日而成的,往往都需要一定周期的積累,在數據的積累過程中,以前的數據和現在的數據在存儲上應該是能保持一致的,無論設備升級與否,而且這些數據要長期有效,這是一個持久的問題(積累問題);與持久相對應的,互聯網是變化的、經濟活動是變化的、整個世界都是變化的,針對某些實時問題,如交易、金融等,用已經過去的數據顯然是不合適的,這也是一大問題(延遲問題);大數據包絡萬象,有些是可以隨意獲得、和消除的,有些,如金融數據、醫療信息、政府情報等,則是需要按不同級別進行保護和加密的,特別是在需要交叉數據參考的應用中,不同部分的數據有著不同的安全需要,這又是一大問題(安全問題);為了滿足上述問題,我們顯然可以通過不斷加大投入,購買更多的存儲設備、雇傭跟多的工作人員、建設更多的數據中心和分析中心,但這一切都是由成本的,特別是對于以盈利為目的的商業機構而言,成本和收益永遠都是最優先考慮的問題之一(成本問題);當然還有很多其他的問題,這里就不一一羅列了。
驅動商業機構解決上述問題的動力肯定是商業利益。以全球知名的IT制造與服務和咨詢提供商IBM為例,其全球CEO調研顯示,唯有在數據獲取、將數據轉換為洞察力、再將洞察力轉化為行動力等方面表現優秀的企業,才能有持續的績效表現??冃怀稣邚暮A繑祿型诰虺鲇袃r信息的能力是績效不佳者的2倍。
IBM認為由于當今企業、市場、社會、政府之間的聯系變得越來越緊密,傳統的數據分析正日益呈現出“大數據”時代的新特點,即容量要求更高、速度要求更快、數據類型多樣和數據來源復雜4個方面。結合多家領先市場咨詢機構的調研數據顯示:
2010-2015年,“大數據”市場年均符合增長率為39.4%,將是整個信息與通信技術市場增速的7倍;管理及維護數據的成本將是購買存儲設備所需成本的4倍;全球數據量的年均復合增長速度為59%;未來需要分析的信息源中,混合類型數據所占比重將高達85%;數據分析直接受到服務器性能制約的數據量將占到總體的87%;僅2012年一年,服務器在整體“大數據”市場投資中就將占去14%的比重。
這就意味著傳統計算的低效正在為企業發展帶來阻礙,企業感到當前的IT系統變得更加復雜且難以管理。數據顯示:企業用于運營和維護IT系統的費用已經超過整體預算的70%,并且這一比例仍在持續增長;企業有三分之二的IT項目及解決方案部署超出了原定計劃;IT架構的復雜度將以當前速度每兩年就增加一倍。
于是出乎絕大多數人意料的事情發生了:IT部門,這個曾經作為企業現代化和創新化能力標志的部門,正越來越成為企業新創新的阻力而非動力。
怎么辦?
很多人立即想到了另外一個熱詞:“云計算”。
IBM全球高級副總裁Rod Adkins認為,當前全球IT領域有了令人振奮的發展趨勢和挑戰,現在每天有大量數據和信息生成,這為大數據分析提供了機會;數據中心的挑戰也為IT提供了新機會,比如云計算,能降低數據中心成本。
EMC資深產品經理李君鵬認為,大數據本身就是一個問題集,云技術是目前解決大數據問題集最重要有效的手段。云計算提供了基礎架構平臺,大數據應用在這個平臺上運行。目前公認處理大數據集最有效手段的分布式處理,也是云計算思想的一種具體體現。Teradata技術總監Stephen Brobst則表示,公有云架構對數據倉庫沒有影響,因為企業的CIO不會無緣無故把財務數據或者客戶數據放到云上,那樣很危險。然而,是私有云架構確實有影響:第一,通過私有云,可以鞏固數據集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數據集成,實現業務價值。
于是有人就此理解為:大數據的最佳解決方案是采用云計算和分布式處理,利用互聯網將運算能力、存儲能力都做分布式的處理,認為這樣做就可以最大程度上地降低成本、增加擴展性和靈活性。
然而事實真的如此嗎?
讓我們來分析一下最近IBM公司在國內針對百萬人口的城市級信息中心制定的解決方案:
面對數量龐大且增長迅速的各類交通信息:120萬輛機動車電子卡、4萬輛機動車的實時GPS定位、200萬筆公交IC卡數據、518個高清卡口的113億張圖片等,該市信息中心的領導意識到,當前多個項目能源消耗大、占地要求非常高、并且原有的網絡設備難以滿足新增的需求,網絡設備經常更換,并且這些相互獨立的數據庫、服務器和存儲,以及不同的訪問權限和沒有統一的管理界面,讓本就壓力巨大的數據中心的效率大打折扣,同時也極大浪費了寶貴的人力、能源和其他各種資源。
IBM給出的解決方案是:
首先,在基礎平臺上摒棄了分布式的服務器架構,而是采用大型服務器在基礎架構上對處理能力、I/O吞吐和主存儲進行了整合,這樣做的最大亮點是,將原有成百計的分布式服務器整合到了個位數,極大地節省了空間和能源,做到綠色環保;因為不用考慮各分布式服務器之間的互通互聯和各服務器之間的狀態及負載均衡與調配,節省了相當數量的管理人員;另外大型服務器自身端到端的管理功能和適用于異構工作負載且基于策略的框架,有效幫助信息中心實現中心控制,實現極高的性能。
其次,在整合的基礎平臺之上,采用“云計算”框架虛擬化設計,實現了智能交通和政務網站的整合。這一方案讓用戶在使用上可以享受與分布式架構相同甚至更加優越的性能。由基礎平臺通過虛擬化形成的任意數量的虛機,在統一云管理軟件URM的配置下,能夠提供統一的管理視圖和管理機制,簡化在多套異構業務系統環境下系統的運營和維護工作。
而在本方案中的存儲部分則采用了運行穩定、性能領先、技術成熟的SAN網絡架構,具有很好的穩定性,能為前端各應用提供可靠的數據存儲平臺,并且整個SAN網絡中的部件都配置了雙冗余組件,保證任一部件的損壞不會影響整個系統的運行,而關鍵數據庫的數據都通過合理的備份策略,定期備份在了物理磁帶上,保證關鍵數據的絕對安全。
總結下來,整合的基礎平臺,“云計算”框架的虛擬化設計,和定制化的高速存儲,打造出了最穩定、最可靠、最安全、最綠色的運行環境,讓政府的大數據應用完美落地。
可見,大數據的解決方案不同于純粹云計算的解決方案,雖然云計算帶來了看上去更便宜的處理能力和存儲能力,但對于往往都有相當數量級規模的大數據應用而言,在基礎架構上巧妙地整合和部分的集中,反而能更好地解決安全性、可靠性、穩定性和綠色環保的需要。
4 結束語
大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無法解決的問題,海量的數據需要足夠存儲來容納它,快速、低廉、綠色的數據中心將成為這一切的關鍵。
然而大數據并不意味著整合的、集中式的服務器架構已走向了末路,相反,大數據所帶來的規模效應,使得我們越來越需要更加高效可靠的大型整合的混合負載服務器,巧妙地整合和適當的集中,將成為大數據解決方案里重要的一種思想和方向,特別是針對關鍵行業的核心數據,高安全、高可靠、高穩定將始終是使用者的首要考慮。
參考文獻:
在技術方面,內存計算技術的成熟,使得企業實時分析海量數據成為可能。Hadoop技術的完善,為非結構化數據分析提供了可能。
在大數據解決方案方面,不能不提軟硬件一體機。這兩年,具有簡化IT、降低IT運維成本優勢的軟硬件一體機越來越受到供應商和用戶的青睞。值得一提的是,當前的軟硬件一體機中,很多都是大數據解決方案:最早推出軟硬件一體機的甲骨文公司的第一款軟硬件一體機產品Exadata數據庫一體機就與大數據相關,甲骨文后來推出的Exalytics商業智能一體機和大數據一體機都是用于數據分析的;被SAP視為革命性的產品SAP HANA屬于內存計算一體機,其最大的優勢在于可實現海量數據的實時分析;IBM今年推出的PureSystem系列一體機中,就有PureData;微軟與惠普聯合推出的BI一體機,也是用于數據分析的……
盡管市場已經非?;馃?,但是當前大數據市場應該尚屬于啟動階段,因為大部分用戶對大數據僅僅有想法而沒有真正的行動,而他們對于大數據分析的需求是顯而易見的。相關的解決方案也有待完善,特別是針對非結構化數據分析的解決方案。
IBM PureData
作為IBM PureSystems專家集成系統家族的新成員,PureData能夠幫助企業在幾分鐘內完成對PB數量級大數據的管理和分析,高效獲取洞察力,從而實現企業市場、銷售等各部門業務目標的快速推進,并幫助各行各業的企業解決幾大難題:如何利用更簡便、經濟的方式分析業務數據,了解客戶購買行為,減少客戶流失,開展需要大量數據支持的市場推廣活動以及實時發現欺詐行為。
不同于其他數據系統,PureData能夠將系統安裝和配置的時間從24天減至24小時,將復雜的分析時間從數小時驟降至數分鐘,并實現在單個系統上管理100多個數據庫的卓越性能。通過PureData系統,企業得以在傳統IT環境或云環境中為業務用戶提供高性能的數據服務,在不到10天的時間里完成Web應用的部署,而同樣的任務過去至少需要6個月才能完成。
針對特定工作負載,PureData共有三個型號,分別是PureData System for Transactions(PureData事務系統或PureData交易系統)、PureData System for Analytics(PureData分析系統)和PureData System for Operational Analytics(PureData運營分析系統)。
目前,60多家ISV(獨立軟件供應商)已經表示將全力支持PureData。PureData將為這種開放的合作模式提供新的平臺,激勵更多合作伙伴開發適用于PureData的解決方案。同時,IBM還將在這些解決方案和應用的基礎上推出數種新模式,涵蓋社交業務、資產管理和業務流程管理,全面簡化軟硬件資源的配置和管理,為20多個行業應用領域提供支持。
IBM大數據平臺
IBM充分發揮其整合的優勢,結合信息管理、業務分析等領先的軟件提出了“大數據平臺”架構,為各行業企業選擇和構建大數據解決方案提供了全面的技術支持。IBM大數據平臺突破了傳統數據倉庫和數據管理理念,能夠為企業組織提供實時分析信息流和因特網范圍信息源的能力,讓這些企業實現更為經濟、高效的大數據管理,并為在此之上的業務分析奠定堅實的基礎。
IBM大數據平臺的四大核心能力包括Hadoop系統、流計算、數據倉庫和信息整合與治理:
·IBM在Hadoop系統領域的代表產品是InfoSphere BigInsights。IBM將其在數據管理上的豐富經驗與Hadoop開源平臺高效整合,使得BigInsights相比普通的Hadoop開源工具的可用性、可管理性、安全性得以大大提高,成為最主要的靜態大數據分析工具和平臺;
·IBM在流計算領域的代表產品是InfoSphere Streams,它是目前業界獨有的流數據處理技術。InfoSphere Streams能夠在諸如氣象信息、通信信息、金融交易數據的管理中動態捕捉信息,進行實時分析,為靜態數據的處理提供有效補充。
·IBM在數據倉庫領域的代表產品是在線交易型數據倉庫InfoSphere Warehouse和分析型數據倉庫Netezza。Netezza可將大量數據整合到統一平臺上,計算能力高達TB級。
·信息整合與治理是IBM在業界獨有的方法論和技術,其代表產品是Optim和Guardium。近期推出的Guardium 9能夠將如DB2這樣的傳統關系型數據倉庫和基于Hadoop的分布式存儲系統進行統一管理,并提供完整的數據生命周期管控。
微軟SQL Server 2012
微軟SQL Server 在市場上有著良好的口碑,是全球使用較為廣泛的數據庫與商業智能產品。微軟SQL Server提供了對混合IT環境的支持,全面支持私有云和公有云,并可實現平滑遷移,滿足企業實現數據庫以及應用擴展的需要。
作為云就緒信息平臺,SQL Server能夠滿足企業關鍵業務應用環境所提出的高穩定性、高性能、高安全和易管理等需求,同時提供全面的商業智能及數據倉庫解決方案,幫助企業更好地挖掘數據背后的知識,提供強大的工具實現并展現數據分析結果,且能根據企業需要實施個性化的云以及大數據解決方案。
作為微軟的信息平臺產品,SQL Server在數據處理與分析市場一直處于領導地位。SQL Server是全面的數據庫、數據倉庫、商業智能解決方案。它不僅提供全面的滿足OLTP處理的功能,而且提供多種組件以滿足不同規模客戶的多種需求。它是第一個帶有商業智能全套組件的數據庫產品,在數據分析,特別是OLAP領域有著極好的口碑。
針對大數據,SQL Server具有自己本地以及云端解決方案,與微軟強大的商業智能組件以及前端展現方式相結合。
國泰君安證券股份有限公司已經借助微軟SQL Server 2012提升了數據分析能力,實現了對用戶的精準服務與趨勢跟蹤。國泰君安是目前國內規模最大、營業范圍最寬、機構分布最廣的證券公司之一。基于以往使用 SQL Server 產品的良好經驗,以及客戶數據建模、多維分析與鉆取、動態報表分析與展現等領域的應用需求,國泰君安選用微軟 SQL Server 2012來搭建新一代的零售客戶BI分析系統。國泰君安充分利用新一代 SQL Server提供的對大數據量的數據分析及計算能力,結合Power View及PowerPivot 的易用性,更高效、更自主地發現業務數據的變化及趨勢,提高針對零售客戶的業務洞察力,優化以客戶為中心的證券服務。
SAP實時數據平臺
SAP實時數據平臺是一套緊密集成并優化,專為應對當今企業數據管理的最新挑戰的領先技術平臺。
憑借革命性的創新產品SAP HANA與業界領先的Sybase數據管理產品,SAP實時數據平臺這套全方位集成、實時處理的平臺,在包括數據交易、遷移、存儲、處理和分析等在內的信息生命周期的不同階段,不僅能夠幫助企業用戶管理海量數據存儲,即時處理高速流量數據,實現智能數據流動,數據可視化消費,而且還可以幫助用戶大大降低基礎架構的復雜性,在滿足應用基本的設計和藍圖管理需求的同時,為下一代大數據應用和分析提供卓越性能,持續保證對云計算和移動應用的平臺支持,從而有效降低成本。
值得一提的是,所有這些平臺功能的交付,都將在盡可能不影響客戶現有應用的前提下進行。
作為SAP實時數據平臺的核心,SAP HANA獨具創新性,并已得到市場的充分驗證。SAP HANA不僅能幫助客戶以快10萬倍的速度獲取和傳遞信息,還將為企業信息系統提供強勁動力,通過技術創新促進業務發展,最終幫助企業以全新的思路拓展業務,達成卓越績效。
Teradata Aster大數據綜合分析平臺
Teradata Aster大數據綜合分析平臺是業內首款集成Teradata Aster以及Apache Hadoop的大數據解決方案,整合了MapReduce和Hadoop的技術優勢。
作為卓越的企業級平臺,Teradata Aster大數據綜合分析平臺使用了業內獨有的SQL-MapReduce接口語言,以及全面的MapReduce 分析功能庫。該分析庫內嵌50多項預建的MapReduce功能,提供開箱即用的圖形、文本、行為、營銷分析,以及更多分析功能。
作為一個真正采用混合架構的平臺,Teradata Aster大數據綜合分析平臺包含Aster Database、Aster SQL-MapReduce和Apache Hadoop。由于深度集成了Aster與Apache Hadoop平臺,用戶無需接受復雜的培訓即可通過SQL-H連接器和SQL-MapReduce使用標準SQL訪問Aster和Hadoop數據進行分析平臺。
與市場上其他典型平臺相比,該平臺的數據吞吐量及分析速度可分別提高19倍及35倍。
Oracle Exadata X3 Database In-Memory Machine
Oracle Exadata X3 Database In-Memory Machine是Oracle Exadata數據庫云服務器的最新升級產品。
Oracle Exadata X3 Database In-Memory Machine是甲骨文云平臺的關鍵組件。Oracle Exadata X3-2和X3-8 Database In-Memory Machine均可在閃存和隨機存儲器(RAM)中存儲多達數百TB的壓縮用戶數據,幾乎可以消除由磁盤驅動器減速而產生的讀\寫功能運維費用,從而使Exadata X3系統成為應對云計算中不同類型和不斷變化的工作負載的理想數據庫平臺。
行業概述
近年來互聯網發生了巨大的變化,移動互聯網、社交網絡、電子商務大大擴展了互聯網的疆界和應用領域?;ヂ摼W行業在大數據技術浪潮中的異軍突起,也將為整個信息技術產業帶來新的機遇。一方面,大數據會催生對IT產品與解決方案更多的需求,將涵蓋從硬件、軟件到信息服務等多個層面;另一方面,越來越多的互聯網公司正在通過云交付的模式,將自身對于大數據集的存儲、計算與分析能力開放給第三方,使得數據即服務(Data as a Service)成為影響產業格局的新一代業務模式?!?/p>
方案架構
曙光互聯網大數據平臺解決方案從邏輯上分為硬件層、存儲層、計算層和其上支持的各種業務模型。其中硬件平臺統一為整合計算和存儲能力的存儲服務器,服務器之間通過以太網互相連接。這種不再需要門類繁多的存儲設備和服務器類型的設計可以大大簡化管理和建設的復雜程度。存儲層存儲上層業務中的結構化數據和非結構化數據。結構化數據保存在關系數據庫中,網頁信息等非結構化數據已Key-Value的形式保存在NoSql存儲系統中。計算層負責將存儲層中管理的數據轉化為上層應用所需要的數據集,包括數據存儲、關鍵字快速檢索等。業務層則可以利用大數據平臺提供的存儲和計算資源,這些資源都可以以資源池的方式呈現,以多租戶的形式提供給上層的應用。
曙光互聯網大數據平臺邏輯結構示意圖如下所示:
首先,科學出現了新的形態?,F代科學之父伽利略是個里程碑式的人物,正是伽利略明確地將實物實驗和數學推理方法引入到了科學研究之中,科學才得以系統而迅速地發展。從那時起,科學家們開始以實物實驗和數學推理的方式認識自然世界,科學因此形成了兩種形態,其一是實物實驗形態,其二是數學推理形態。隨著科學發展到今天的大數據時代,一些科學家和工程師離不開借助計算機手段研究事物,科學出現了基于計算機的第三種形態——計算形態。各個學科的邊界變得模糊,科學研究的范式有了新的變化。以前學科分化越來越精細,但是科學發展到今天,信息科學、納米技術、生物科學和生命科學、認知和神經科學被公認為最具革命性的學科領域,這四種科技的整合,將對人類社會產生深刻的影響,并可能再次改變我們人類的物種。學科在高度分化的基礎之上開始走向學科之間的滲透和融合,特別是開始走向自然與人的融合?;谟嬎銠C的整合是當今科學發展與突破的必由之路。但是如何整合卻是仁者見仁智者見智之事。
其次,技術的高速發展帶來了日益嚴重的社會問題。比如生命科學中的克隆技術直接挑戰人類社會傳統的倫理問題;對于自然界的無節制索取,帶來了日益嚴重的能源危機和生態環境惡化危機等。此外,物質生活的豐富與網絡的言論自由帶來了日益高漲的民主與平等的社會訴求。這些問題可能直接源自高速發展的科技,以致于我們的精神與理解出現相對滯后。諸多危機與問題要得到根治,除了需要加快人類智慧文明發展,還需要科技與科學教育的進一步高度發展,此所謂解鈴還須系鈴人。科學史上,科學家們為人類積累了豐富的化解人類危機的智慧與知識。
最后,一方面“科教興國”得到普遍共識,人們開始懂得在科學教育之信息化方面投入大量的人力和物力;另一方面人們對技術的發展給生存環境構成影響認識不足,主要表現在看不到現代教育技術的革命性影響潛力,或者在現代教育技術面前感到茫然。這種狀況除了造成設備因為閑置而帶來的嚴重浪費現象之外,還限制了我們破解當今科技與科學教育難題的思考與方法。
為了解決諸多危機與沖突,需要探討各種可行而有效的解決方案。通過分析大數據時代的科學教育的現狀不難發現,如果只是從局部進行個別改動,問題難以有效地得到解決,當今的科學教育問題要想從根本上得以解決,必須運用系統觀念,從整體上改變或者構建科學教育體系,換句話講,需要從整合的角度才能提出可行的解決方案。
數字科學家計劃
針對大數據時代人類面臨的諸多危機,人們提出了一些對策與良方,其中影響最大的是國際21世紀教育委員會在向聯合國教科文組織(UNIESCO)提出的21世紀教育的四大支柱策略:(1)學會認知(Learning to know):培養學生學會運用認知工具求知,學會發現問題,學會探究知識,學會構建知識。即培養學生認知方法,引導學生通過發現、探究和意義構建的途徑獲取知識,培養學生的繼續學習能力。(2)學會做事(Learning to do) :既要學會實踐,也要學會創造。重視建造可供學生參與的環境,激發學生興趣,使學習者通過環境的交互作用,通過實踐,通過做事獲得知識和能力。(3)學會合作(Learning to together) :要培養學生學會與他人共同生活,就要學會合作生活,合作學習,從過去的集中教學方式到個別學習方式,到現在提倡的協作學習。(4)學會生存(Learning to be) :學會生活、學會做人、學會自身的發展。既要傳授知識,還要注重能力和高尚情操的培養。
在科學教育領域之中形成了一種強調親自動手學習科學的潮流。在美國、法國、英國、加拿大等國的國家科學課程改革方案中,科學探究被列為課程目標和課程體系的關鍵而基本的要素?!皩W習必須是主動的”已成為國際上基本的教育理念。其中影響較大的有“做中學”、“Hands-on”(動手做)、“Minds-on”(動腦做)、“STEM”(科學、技術、工程、數學)等科學教育實踐。這些科學教育實踐旨在使學生以科學的方法學習知識,強調學習方法、思維方法、學習態度的培養。
這些先進的科學教育理念與實踐推動了科學教育的創新與實踐。但是實踐表明,一個好的理念要想轉化為教學行為,往往需要一個較長時期的培訓與轉化過程,這個過程是艱難的,特別是對于教師和學生需要具有一定的專業理解能力。能否綜合上述先進的科學教育理念,提出一種直觀、易懂而且有效的科學教育模式的推廣方案呢?數字科學家計劃(E-Scientist Project, ESP)給出了一種大數據時代下科學教育模式的推廣方案。
所謂數字科學家計劃,就是一種大數據環境下以提高每一位學生科學素養水平為宗旨,以探究式教學為鮮明特征,以科學思想、科學方法和數據挖掘方法為核心,播種未來科學家種子的教學模式的推廣方案。
數字科學家計劃主要有兩方面特征,其一,數字科學家是一種科學教育模式符號,以“科學家”符號將抽象的科學教育理念人物化和直觀化,即準確地表述了現代的科學教育理念,也便于師生理解與實施。榜樣的力量是無窮的,雖然科學不能解決人類所有的問題,但是科學家們為我們積累的知識、思想、方法、科學精神在過去和將來都是破解社會難題的重要途徑;其二,強調發揮大數據環境下第三種科學形態的育人功能,這是當今科技與科學教育創新的重要切入點。
數字科學家的教學模式是在WebQuest(基于網絡的主題探究)模式的基礎上改造而成的。主要有以下五個模塊:(1)核心問題:WebQuest的核心是設置一個開放性的問題。這個問題設定了WebQuest的清晰目標,鼓勵學生回顧原先掌握的知識,激發學習者進一步探索的動機。(2)任務指南:提供一個“腳手架”,引導學生設計、經歷和體驗專家的思維過程?!澳_手架”將令人望而生畏的探究項目打碎成若干個片段,引導學生研究較為復雜的科學問題。(3)海量資源:創建一些到其他互聯網站點的鏈接來共享網絡資源。通過運用多樣化的互聯網資源,可以為不同學習水平或不同學習方式的學生提供信息資源。(4)實施“做中學”:要提供高層次的思維指南,體現“做中學”的教學理念,保證動腦和動手的教學方式落到實處。(5)交流與評價:WebQuest一般用量規提供了自我評估的標準,提示學生已經學到了什么,并鼓勵把這種探究的經驗擴展到其他領域。評價人員可以是教師,也可以是家長和同學。
數字科學家計劃產生于筆者主持的北京市教育科學“十一五”規劃課題《數字科學家計劃:基于數據探究理論的物理選修課程建設與研究》(2010年立項),已經在北京景山學校、北京一零一中學、北京師范大學亞太實驗學校等學校展開實驗。該項目在課題階段探討了校本特色選修課程的建設,但是隨著課題研究的深入開展,數字科學家計劃已經不再局限于校本選修課程,開始運用到正規的物理課堂教學;也不僅局限在物理學科教學,已經開始運用到小學高年級的科學課程與教學;還不僅局限在學??茖W教學,已經開始運用于北京市東城區青少年科技館的科普性質科學課程,并配合教學,于2013年11月成功地舉辦了北京市東城區“數碼探科學”大賽。大賽令人耳目一新,引起了學者和教師的廣泛關注。著名教育家顧明遠先生在頒獎會上講到,這次大賽讓人們看到了大數據環境下的教學實踐,學生們在數碼探究中有模有樣,學到了科學思想、科學方法,體驗到了數碼探究的樂趣。
經過三年的探索與實踐,數字科學家計劃已經從課題研究轉向項目推廣的初期階段。初步建設了數字科學家網站,形成了一種大數據環境下的科學教育模式,也形成數字科學家課程的教師培訓經驗,還形成低、中、高端數字環境裝備下課程實施經驗,已經具備了在更大范圍試驗與推廣的條件。
數據探究理論——數字科學家計劃的基石
探討破解大數據時代的科學教育難題的途徑涉及大而復雜的社會問題,僅憑經驗而沒有理論的指導是難以理解與完成的。但是數字科學家計劃已經形成了一些基本的概念與教學原理。這些基本概念與教學原理構成了所謂的數據探究理論。數據探究理論是數字科學家計劃的基石。
信息(Information)是數據探究理論的邏輯起點。何謂信息?這是一個復雜而神奇的概念,學者們有著不同的見解,美國數學家和控制論創始者維納不得已這樣定義信息:信息就是信息,既非物質,也非能量。筆者考慮到人的因素,對信息進行了如下的定義:信息既不是物質,也不是能量,而是物質的波-粒二像性與人相互作用的存在形式。
數據(Data)是數據探究理論的另一個重要概念。數據是載荷或記錄信息而留下的明確印跡。數據可以是數字、文字、圖像、錄像,也可以是計算機代碼等。對數據背景的解讀是獲取意義的一種途徑。數據背景是接收者針對特定數據的意義準備,即當接收者了解數據序列的規律,并知道每個數據或數據組合的指向性目標和含義時,便可以獲得數據所載荷的意義。觀察數據或者數據挖掘就是對數據背景的解讀過程。數字科學家計劃的核心環節在于信息觀測、數據挖掘和數據價值與交流。
探究式教學是一種以科學探究為基本特征的教學模式,其實質是引導學生通過類似科學家的探索過程理解科學概念和科學本質。依據科學的三種形態,將探究式教學分成實物實驗探究、數學推理探究和數據探究。所謂數據探究是一種基于計算機的探究式教學,是提高學生數據素養水平的必要途徑。數據探究與其說是一種適應大數據時代的手段和途徑,不如說是大數據時代的一種生活理念和生活態度。
數據探究在教師觀、學生觀、學習觀和評價觀上均具有新的內涵。簡單介紹如下:(1)教師是數據探究的促進者與合作者。(2)學生是具有創造能力的學習主體。數據探究應該把學生置于一個有社會意義的團體中,培養“共生性”與“交互性”,體驗創造的意義和價值。還應該體現STS教育,強調人對自然、社會、人生的責任和義務。(3)數據探究是一個建構的、社會化的綜合體驗過程。學習者總是依據已有經驗、心理結構和信念來選擇一些信息或者數據,從中經過數據挖掘得到推論,并根據推論來構建關于世界的認識。(4)評價是開放、多元的反饋過程。數據探究評價認為學習是一種建構獨特意義的過程,注重對于探究過程的評價,關注評價的開放性與多元性。
首先,科學出現了新的形態?,F代科學之父伽利略是個里程碑式的人物,正是伽利略明確地將實物實驗和數學推理方法引入到了科學研究之中,科學才得以系統而迅速地發展。從那時起,科學家們開始以實物實驗和數學推理的方式認識自然世界,科學因此形成了兩種形態,其一是實物實驗形態,其二是數學推理形態。隨著科學發展到今天的大數據時代,一些科學家和工程師離不開借助計算機手段研究事物,科學出現了基于計算機的第三種形態——計算形態。各個學科的邊界變得模糊,科學研究的范式有了新的變化。以前學科分化越來越精細,但是科學發展到今天,信息科學、納米技術、生物科學和生命科學、認知和神經科學被公認為最具革命性的學科領域,這四種科技的整合,將對人類社會產生深刻的影響,并可能再次改變我們人類的物種。學科在高度分化的基礎之上開始走向學科之間的滲透和融合,特別是開始走向自然與人的融合?;谟嬎銠C的整合是當今科學發展與突破的必由之路。但是如何整合卻是仁者見仁智者見智之事。
其次,技術的高速發展帶來了日益嚴重的社會問題。比如生命科學中的克隆技術直接挑戰人類社會傳統的倫理問題;對于自然界的無節制索取,帶來了日益嚴重的能源危機和生態環境惡化危機等。此外,物質生活的豐富與網絡的言論自由帶來了日益高漲的民主與平等的社會訴求。這些問題可能直接源自高速發展的科技,以致于我們的精神與理解出現相對滯后。諸多危機與問題要得到根治,除了需要加快人類智慧文明發展,還需要科技與科學教育的進一步高度發展,此所謂解鈴還須系鈴人。科學史上,科學家們為人類積累了豐富的化解人類危機的智慧與知識。
最后,一方面“科教興國”得到普遍共識,人們開始懂得在科學教育之信息化方面投入大量的人力和物力;另一方面人們對技術的發展給生存環境構成影響認識不足,主要表現在看不到現代教育技術的革命性影響潛力,或者在現代教育技術面前感到茫然。這種狀況除了造成設備因為閑置而帶來的嚴重浪費現象之外,還限制了我們破解當今科技與科學教育難題的思考與方法。
為了解決諸多危機與沖突,需要探討各種可行而有效的解決方案。通過分析大數據時代的科學教育的現狀不難發現,如果只是從局部進行個別改動,問題難以有效地得到解決,當今的科學教育問題要想從根本上得以解決,必須運用系統觀念,從整體上改變或者構建科學教育體系,換句話講,需要從整合的角度才能提出可行的解決方案。
數字科學家計劃
針對大數據時代人類面臨的諸多危機,人們提出了一些對策與良方,其中影響最大的是國際21世紀教育委員會在向聯合國教科文組織(UNIESCO)提出的21世紀教育的四大支柱策略:(1)學會認知(Learning to know):培養學生學會運用認知工具求知,學會發現問題,學會探究知識,學會構建知識。即培養學生認知方法,引導學生通過發現、探究和意義構建的途徑獲取知識,培養學生的繼續學習能力。(2)學會做事(Learning to do) :既要學會實踐,也要學會創造。重視建造可供學生參與的環境,激發學生興趣,使學習者通過環境的交互作用,通過實踐,通過做事獲得知識和能力。(3)學會合作(Learning to together) :要培養學生學會與他人共同生活,就要學會合作生活,合作學習,從過去的集中教學方式到個別學習方式,到現在提倡的協作學習。(4)學會生存(Learning to be) :學會生活、學會做人、學會自身的發展。既要傳授知識,還要注重能力和高尚情操的培養。
在科學教育領域之中形成了一種強調親自動手學習科學的潮流。在美國、法國、英國、加拿大等國的國家科學課程改革方案中,科學探究被列為課程目標和課程體系的關鍵而基本的要素?!皩W習必須是主動的”已成為國際上基本的教育理念。其中影響較大的有“做中學”、“Hands-on”(動手做)、“Minds-on”(動腦做)、“STEM”(科學、技術、工程、數學)等科學教育實踐。這些科學教育實踐旨在使學生以科學的方法學習知識,強調學習方法、思維方法、學習態度的培養。
這些先進的科學教育理念與實踐推動了科學教育的創新與實踐。但是實踐表明,一個好的理念要想轉化為教學行為,往往需要一個較長時期的培訓與轉化過程,這個過程是艱難的,特別是對于教師和學生需要具有一定的專業理解能力。能否綜合上述先進的科學教育理念,提出一種直觀、易懂而且有效的科學教育模式的推廣方案呢?數字科學家計劃(E-scientist Project, ESP)給出了一種大數據時代下科學教育模式的推廣方案。
所謂數字科學家計劃,就是一種大數據環境下以提高每一位學生科學素養水平為宗旨,以探究式教學為鮮明特征,以科學思想、科學方法和數據挖掘方法為核心,播種未來科學家種子的教學模式的推廣方案。
數字科學家計劃主要有兩方面特征,其一,數字科學家是一種科學教育模式符號,以“科學家”符號將抽象的科學教育理念人物化和直觀化,即準確地表述了現代的科學教育理念,也便于師生理解與實施。榜樣的力量是無窮的,雖然科學不能解決人類所有的問題,但是科學家們為我們積累的知識、思想、方法、科學精神在過去和將來都是破解社會難題的重要途徑;其二,強調發揮大數據環境下第三種科學形態的育人功能,這是當今科技與科學教育創新的重要切入點。
數字科學家的教學模式是在WebQuest(基于網絡的主題探究)模式的基礎上改造而成的。主要有以下五個模塊:(1)核心問題:WebQuest的核心是設置一個開放性的問題。這個問題設定了WebQuest的清晰目標,鼓勵學生回顧原先掌握的知識,激發學習者進一步探索的動機。(2)任務指南:提供一個“腳手架”,引導學生設計、經歷和體驗專家的思維過程?!澳_手架”將令人望而生畏的探究項目打碎成若干個片段,引導學生研究較為復雜的科學問題。(3)海量資源:創建一些到其他互聯網站點的鏈接來共享網絡資源。通過運用多樣化的互聯網資源,可以為不同學習水平或不同學習方式的學生提供信息資源。(4)實施“做中學”:要提供高層次的思維指南,體現“做中學”的教學理念,保證動腦和動手的教學方式落到實處。(5)交流與評價:WebQuest一般用量規提供了自我評估的標準,提示學生已經學到了什么,并鼓勵把這種探究的經驗擴展到其他領域。評價人員可以是教師,也可以是家長和同學。
數字科學家計劃產生于筆者主持的北京市教育科學“十一五”規劃課題《數字科學家計劃:基于數據探究理論的物理選修課程建設與研究》(2010年立項),已經在北京景山學校、北京一零一中學、北京師范大學亞太實驗學校等學校展開實驗。該項目在課題階段探討了校本特色選修課程的建設,但是隨著課題研究的深入開展,數字科學家計劃已經不再局限于校本選修課程,開始運用到正規的物理課堂教學;也不僅局限在物理學科教學,已經開始運用到小學高年級的科學課程與教學;還不僅局限在學校科學教學,已經開始運用于北京市東城區青少年科技館的科普性質科學課程,并配合教學,于2013年11月成功地舉辦了北京市東城區“數碼探科學”大賽。大賽令人耳目一新,引起了學者和教師的廣泛關注。著名教育家顧明遠先生在頒獎會上講到,這次大賽讓人們看到了大數據環境下的教學實踐,學生們在數碼探究中有模有樣,學到了科學思想、科學方法,體驗到了數碼探究的樂趣。
經過三年的探索與實踐,數字科學家計劃已經從課題研究轉向項目推廣的初期階段。初步建設了數字科學家網站,形成了一種大數據環境下的科學教育模式,也形成數字科學家課程的教師培訓經驗,還形成低、中、高端數字環境裝備下課程實施經驗,已經具備了在更大范圍試驗與推廣的條件。
數據探究理論——數字科學家計劃的基石
探討破解大數據時代的科學教育難題的途徑涉及大而復雜的社會問題,僅憑經驗而沒有理論的指導是難以理解與完成的。但是數字科學家計劃已經形成了一些基本的概念與教學原理。這些基本概念與教學原理構成了所謂的數據探究理論。數據探究理論是數字科學家計劃的基石。
信息(Information)是數據探究理論的邏輯起點。何謂信息?這是一個復雜而神奇的概念,學者們有著不同的見解,美國數學家和控制論創始者維納不得已這樣定義信息:信息就是信息,既非物質,也非能量。筆者考慮到人的因素,對信息進行了如下的定義:信息既不是物質,也不是能量,而是物質的波-粒二像性與人相互作用的存在形式。
數據(Data)是數據探究理論的另一個重要概念。數據是載荷或記錄信息而留下的明確印跡。數據可以是數字、文字、圖像、錄像,也可以是計算機代碼等。對數據背景的解讀是獲取意義的一種途徑。數據背景是接收者針對特定數據的意義準備,即當接收者了解數據序列的規律,并知道每個數據或數據組合的指向性目標和含義時,便可以獲得數據所載荷的意義。觀察數據或者數據挖掘就是對數據背景的解讀過程。數字科學家計劃的核心環節在于信息觀測、數據挖掘和數據價值與交流。
李成剛說,我國已經從網絡安全兼管、輿情監控與引導入手,利用大數據實施網絡治理,開展網絡空間內容監管和應急相應平臺建設?!耙⒆阒腔鄢鞘薪ㄔO,推進大數據安全應用。建設對‘防御、監測、評估、治理、運營’五位一體網絡安全治理能力?!?/p>
發展大數據
要同步構建安全體系
360公司創始人兼總裁、360企業安全集團董事長齊向東表示,大數據技術是一把雙刃劍,在鼓勵發展的同時,一定要同步構建大數據安全體系,要用大數據方法來解決大數據安全難題。
近來,大數據安全事件呈高發之勢。日前,廣東警方破獲一起高科技經濟犯罪案件,17歲的“黑客”攻破了多個商業銀行網站,竊取了儲戶的身份證號、銀行卡號、支付密碼等數據,帶領一批人在網上大肆盜刷別人的信用卡,涉案金額近15億元,涉及銀行49家。
類似的案例不勝枚舉。齊向東表示,當前,接入互聯網的設備越多,網絡攻擊的發生機率就越高,網絡攻擊首先瞄準大數據,攻擊造成大數據丟失、情報泄密和破壞網絡安全運行。大數據技術是一把雙刃劍,既可以造福社會、造福人民,又可以被一些人用來損害社會公共利益和民眾利益。如果不能很好地解決安全問題,就會影響發展。因此,各級政府在鼓勵發展大數據的同時,要同步考慮構建大數據安全體系。
傳統安全思路
無法保障大數據安全
2016年年初,在全球最大規模的企業信息安全領域的會議RSA大會上,與會人員有一個基本共識,傳統的防護思路已經無法保障網絡安全,用大數據的方法做安全是不爭的事實。
傳統網絡安全的防護思路是劃分邊界,將內網外網分開、業務網和公眾網分離,用終端設備將潛在風險隔離。通過在每個邊界設立網關設備和網絡流量設備,來守住“邊界”,以期解決安全問題。
但隨著移動互聯網、云服務的出現,移動終端在4G信號、WiFi信號、電纜之間穿梭,網絡邊界實際上已經消亡了。
但網絡攻擊者以“分鐘級”千變萬化。齊向東說:“360安全中心每天發現木馬樣本近千萬個,每天發現的各種軟硬件漏洞、網站漏洞超過120個,每一個木馬每一個漏洞,都可能攻破預先部署的安全設備和安全軟件。”他認為,現在要保障大數據安全,最重要的是要“看得見、管得住”。通俗的說,就是要能在被攻擊的時候,能夠看見在被誰攻擊、如何被攻擊;還要能在被攻擊的時候,管住核心數據資產的安全,黑客就算進得來,但是帶不走。
數據驅動安全
臺達電子作為一家在世界各地都有銷售網點、生產設備及研發中心的企業,需要擁有高度計算機化的系統以有效處理全球業務。為保護企業資源規劃(ERP)、電子郵件服務器、網頁服務器和其他各種應用程序服務器等各種重要系統及 IT 應用,數據中心基礎設施的可靠度是優先的考慮因素。
此外,可能更重要的是,臺達電子決心基于“Smarter, Greener, Together 共創智能綠生活”的理念,打造一個年平均電源使用效率(PUE)低于 1.43 的新機房,以符合Green Grid聯盟所定義機房效率的黃金級標準。
新建成的數據中心占地約230平方米,分為冷通道封閉區A/B和熱通道封閉區C/D,共有63套機柜,計劃在5年內達到240kW~280kW 的IT設備容量。另有獨立房間儲放兩套UPS及多組電池柜。用于顯示臺達InfraSuite Manager數據中心基礎設施管理系統、IT設備使用率和實時視訊監控的2x3 LCD 液晶面板電視墻,可實時、充分地對數據中心能耗進行監控并管理機房設備。
針對新數據中心的改造,臺達電子從空調系統、電源、機柜、環境管理系統四大方面入手,具體方案包括:
一、空調系統
諸多因素使得兩個舊機房每年耗費大量電力。舊數據中心的PUE值高達 2.01,即每 1kW 的 IT 設備功率消耗,需要等量的非 IT 功率消耗來冷卻。新的數據中心為大幅度提高能效達成 PUE 1.43 以下的目標,臺達電子采取下列六大對策:
1.冷/熱通道封閉及 RowCool 系列機柜式精密空調的應用
冷/熱通道封閉設計方案,可避免冷熱空氣混合,提高冷卻效率。搭配貼近熱源的臺達RowCool系列機柜式精密空調的應用,可以有效移除熱點,避免IT設備過熱導致宕機。
2.冷凍水式空調系統
相較于傳統氣冷式空調系統,冷凍水式空調系統可節能三成,以 40RT(冷凍噸)的系統為例,能耗可從 1.25kW/RT 降到0.89kW/RT。
3.變頻 HVAC(高壓直流)系統
RowCool系列機柜式精密空調的連續可調式風扇轉速和水量控制有助于大幅度節能,風扇速度降低一成,估計可節能27%。RowCool 系統中直流風扇及室外機組皆采用變頻技術。冷卻水塔的風扇采用可變氣流量控制,冰水主機和冷凝水泵浦則采用可變水流量控制。
4.自然冷卻Free Cooling(空氣側及水側)
在臺北市的天候狀況下,一年里有46%的時間可采用自然冷卻。溫度低于25℃時,空氣側自然冷卻自動啟動,將外部冷空氣導入機房,并將 RowCool機組、泵浦、冷卻水塔及冰水機組關機。溫度低于15℃時,水側熱交換器及冷卻水塔自然冷卻系統啟動,機房冰水機組則關機降低能耗。
5.數據中心與大樓冰水主機智能同步
臺達電子的臺北總部大樓獲認證為“鉆石級綠建筑”,能耗較一般辦公大樓低58%。大樓本身配備兩套冰水主機系統:
數據中心冰水機組日間關機,使用大樓高效率冰水主機。夜間數據中心冰水主機開機,為數據中心提供冷氣。數據中心空調系統與大樓空調系統智能同步,將節能效果發揮到極致。
6.最佳機房溫度設定
按國際標準的建議值,數據中心溫度變化范圍在18~27℃及20~25℃之間。數據中心溫度一般雖然設定在符合建議范圍的18~20℃之間,但仍有改善空間。
粗略估計,數據中心溫度每升高一度可帶來2%~3%的節能。依此規則,如把冷信道的溫度從18~20℃ 提高到 25℃,數據中心可節能10%~14%。此外,RowCool系列機柜式精密空調的入水溫度也可提高進一步節能,通常的做法是將冰水入水溫度設定在7℃,如果提高到 13℃,數據中心可節能20%。
除空調系統外,臺達數據中心整體基礎設施解決方案還應用到高效率電源系統、模塊化機柜及數據中心環境管理系統,使整個數據中心各方面都達到綠色節能。
二、UPS電源系統
數據中心對可靠度、效率及擴充性的要求,對UPS電源系統是極大的挑戰。新數據中心所采用的臺達Modulon DPH 系列 UPS,是新一代全模塊化、可熱插入、AC-AC 效率達96% 的高性能UPS,其熱插入電源模塊可支持數據中心從中長期的無縫升級。臺達電子的 PDC 及 PDU 也采用模塊化設計,例如,其輸出斷路器可熱插入、兩組配電盤各可擴充達 42 組斷路器。PDC 及 PDU具備優異的電源保護及監控能力,其彈性及擴充性可配合實際的配電需求。
三、機柜及配件
氣流管理對于配備中高功率密度機柜的機房極為重要。臺達電子的臺北總部新機房長期規劃機柜功率密度可達10kVA~15kVA。模塊化機柜的開孔率達70%以上,可滿足高密度IT機房的需求。機柜具有高承載力,靜態承重達1420kg或動態承重達1000kg,不占太多寶貴的機房空間。
四、環境管理系統
臺達數據中心管理系統(DCIM)系統的 InfraSuite Manager,整合各種設施及 IT 設備于單一平臺。環境監測器(EnviroProbe)搭配中央監測站(EnviroStation)可以對能源、電力系統、空調、環境、保全、資產、服務器監控等各種裝置,進行無縫、實時及完整的管理。PUE歷史紀錄可協助 IT 管理人員,分析及了解機房電源使用的效率。
總之,這座采用多種綠色空調、電源、機柜解決方案的節能數據中心已經改造完成并正式投入使用,可望達成以下節能效益:
Sybase公司是數據管理、分析、移動訊息和企業移動領域的市場領導者,目前3.4萬個企業客戶及財富百強中的91個客戶信賴并使用Sybase產品。從1984年涉足企業級軟件至今,公司共獲得148個數據管理與移動方面的專利,目前尚有185個專利在申請中。公司目前有4000多名雇員分布在60個國家。2007年,Sybase公司收入超過10億美元,2008年繼續增長了10%。在2008年的年度報告中,Sybase持有6.4億美元的現金。
Sybase贏得了遍及世界各地的忠誠客戶群,公司在金融服務、通信、制造和政府部門等主要垂直市場處于領先地位。全球排名前25家銀行中的24家、全球排名前50家銀行及證券機構的46家,都信賴并使用Sybase技術來進行當天的風險分析。每天,Sybase處理著幾十萬條從華爾街到東京、從香港到倫敦的實時金融交易數據。
通信行業也正在大量使用Sybase的移動服務,通過700多家移動運營商連接30多億個用戶,每年發送的信息達2000多億條。利用Sybase公司的數據管理解決方案,處理著數十億條的通話記錄事務。在政府機構,職能部門利用Sybase解決方案移動化了供應管理系統,秒間訪問數百萬條記錄,進行復雜分析,并安全管理關鍵數據資產。
在零售市場,百貨商場使用Sybase企業移動解決方案來改善顧客的購物體驗、管理收銀系統,并在企業的后端與商場零售點之間提供數據的實時同步。
在信息領域, Sybase是全球領先的信息管理、分析和移動化的軟件公司,無論這些信息是在何種系統、網絡和設備上。
Sybase在中國
Sybase于1991年12月進入中國,并于1993年成立賽貝斯軟件(中國) 有限公司。秉承“用戶第一,市場第二;服務第一,銷售第二”的市場發展策略,Sybase與用戶共擔風險,共同前進,穩步發展。如今,Sybase在中國的員工總數已近500人,成為Sybase全球發展最快的海外分支機構之一。為了更好地給國內用戶提供一流的技術支持和服務,Sybase已在上海、廣州、成都等地設立了分公司,在北京、上海、西安建立研發中心,合作伙伴遍布全國各地。
依靠先進而實用的技術和完善的服務,Sybase不斷在中國贏得新的客戶,這些客戶遍及金融行業、電信行業、政府、交通及能源工業等行業,數量將近2000家。
經過十余載在中國市場不懈的耕耘和努力,Sybase的技術與服務贏得了業界的贊譽和用戶的認可,于2007年8月榮膺中國電子信息產業發展研究院、中國信息化推進聯盟頒發的中國“IT服務十年成就獎”。Sybase的技術與服務在中國軟件市場的雙重優勢地位得到了進一步鞏固和印證。
完善的解決方案
1. 數據管理
許多公司花費數百萬美元管理關鍵信息。隨著企業信息量增加,成本和復雜性也開始飚升。更重要的是,許多公司信息是通過硬連線方式接入信息孤島的。信息被囚困于這樣的孤島上,很難在動態的業務流程中被訪問和利用。Sybase公司的信息管理產品能夠幫助用戶管理復雜的信息,并沖破此類內部障礙,從而保證信息在利用及相關性方面的一致性,并可隨時提供經濟價值。
從推出第一個C/S架構上的分布式數據庫服務器開始,大到數據倉庫引擎,小到移動數據庫,Sybase憑借領先的技術優勢,結合用戶的應用模式和需求,推出了適合各種各樣的數據管理的解決方案,主要包括Sybase Adaptive Server Enterprise、Sybase ASE 集群版、Replication Server 、Sybase Mirror Activator以及Sybase Real-Time Data Services等。
Sybase的數據管理以“Always Available”(永遠可用)信息體系結構為基礎,通過可靠、安全和高效的工具,能夠幫助企業更好地管理信息,更能夠幫助企業從阻礙生產力和效率的傳統技術的羈絆中解放信息。
2. 商務智能
Sybase商業智能(BusinessIntelligence)致力于為 新一代商業智能提供核心的解決方案。SybaseBI部門所提供的軟件產品與專業服務將數據轉化為信息、知識與智慧,以使企業提高市場份額、減少客戶流失、向已有客戶進行衍生銷售等。BI部門與其他領先的商業智能供應商締結合作伙伴關系,為各類行業市場提供完整的商業智能解決方案,包括金融服務、信用卡市場、保險、銀行、通信以及互聯網等。
Sybase IQ是全球領先的、基于列的分析服務器,它提供了最智能的方法,使企業能夠通過分析,把原始數據變成可付諸行動的措施,從而增加收入、擴大客戶群和提高利潤。Sybase IQ是唯一能夠基于企業的全部信息,按照任意條件,面向所有用戶,提供更快速、更準確分析的分析服務器。憑借基于列的核心架構和創新功能,Sybase IQ從多個層面提供了靈活性和可擴展性,能夠為最大的數據集、最為復雜的分析任務以及快速增長的BI用戶群,提供非凡的查詢性能。
Sybase RAP(風險分析平臺)是為資本市場公司設計的新一代數據服務技術平臺,既可以管理海量數據,又提供實時數據分析所需的速度。它可使資本市場公司及時全面地洞察市場風云,作出更好的低風險的交易和組合投資決策。美國航空、德意志銀行等不同客戶都已成功地將數據轉換為利潤,它們共同的特點就是使用Sybase信息流動解決方案。
Sybase 列式數據庫機(Analytic Appliance)是一個集成的解決方案,專門用于高性能和 TB數量級的分析。Sybase列式數據庫機結合各類領先的技術,包括 Sybase IQ、Sybase PowerDesigner、IBM Power Systems 和 MicroStrategy。它除了擁有所有量身定制的數據倉庫功能外,還具有簡單、快捷和經濟實惠的特點。
3. 移動商務
顯而易見,移動時代已經來臨了。然而,許多企業仍在苦苦尋覓如何以最佳方式面向移動性重構自身。您所需要的移動解決方案應當能夠隨時隨地將您的企業系統擴展至移動用戶,以保持競爭優勢。Sybase及其iAnywhere子公司在移動數據庫和 移動中間件市場上占有最大的市場份額,而且,我們的移動服務擁有數十億以上的注冊用戶,目前位居全球規模最大的移動應用之列。
Sybase Unwired Platform 是 Sybase 新一代支持企業實現應用程序移動化的體系架構。它提供一系列全面的服務,幫助企業將適當的數據和業務流程移動化到任何移動設備上。Sybase Unwired Platform利用一個綜合平臺,將 4GL 工具和標準開發環境集成而支持的快速開發、異構設備部署和市場領先的設備管理技術結合起來,從而滿足企業的所有移動應用需求。而且,它通過推動企業戰略化的移動部署,而非采用小規?;蚓植恳苿討玫姆椒?從而極大地降低了企業的總擁有成本。
iAnywhere Mobile Office強大而靈活的解決方案能安全地將電子郵件和業務流程擴展至移動工作人員的手中。她將對眾多基礎架構的支持、高度的設備安全性、可用性和高性能集成在一起。
SQL Anywhere所提供的數據管理和數據交換技術,使企業能快速開發和部署基于數據庫的應用。為企業量身訂制的SQL Anywhere數據庫大可支持到數千用戶在64位的服務器上使用,小可部署到精致的手持設備上。SQL Anywhere的數據交換技術將企業應用和企業系統的信息拓展到運行著前端關鍵業務的數據庫中。
大數據不一定是復雜的分析
許多人一提到大數據,首先想到的是復雜的數據分析。這讓有些希望采用大數據分析工具的用戶產生了畏難情緒,也讓有些用戶產生了誤解,認為大數據分析只是那些擁有復雜業務流程和海量數據的大企業的事。市場研究機構麥肯錫的研究人員表示:“要創造新的重大價值,并不一定要采用復雜的大數據分析方法,有時只要能保證數據的可用性或對數據應用進行基本的分析,就能獲得所需的重要價值?!?/p>
不同的企業或一個企業內部不同的部門對數據分析和數據價值的理解都不相同。企業處于不同的信息化發展階段,也會設定不同的數據分析目標,采用不同的數據分析工具。正是基于此,戴爾率先提出了大數據成熟度模型。戴爾公司全球企業級解決方案副總裁Cheryl Cook表示:“這一模型已經得到了業內許多分析機構的認可。所有行業以及所有數據應用都適用于此模型。”
如下圖所示,大數據成熟度模型分成五個階段。第一個階段,數據處于混亂狀態,數據存儲無章可循,數據難以訪問,企業的信息系統處于高風險狀態。第二個階段,實現數據的保留。在這個階段,企業被動地對數據進行存儲。數據雖然經過一定的處理,但還不具有高質量,數據的訪問也會受到一定限制。第三個階段,實現存儲的優化。在這個階段,通過對存儲系統的進一步優化以及基于策略的控制與管理,用戶可以逐步發現數據的價值。第四個階段,實現簡單的分析。在存儲優化的基礎上,用戶可以進行數據建模和簡單的數據分析,對歸檔數據進行搜索等。第五個階段,實現復雜的分析。在這個階段,大數據分析工具將得到充分應用,用戶可以進行比較復雜的建模、分析和決策。經過上述五個階段,曾經雜亂無章的數據也將經歷從數據到信息再到知識的轉變過程,最終成為企業決策的重要依據。
這個大數據成熟度模型可以解答人們對于大數據應用的幾個疑惑。第一,用戶使用大數據分析工具,并不意味著一定要進行復雜的分析。舉例來說,處于存儲優化階段的用戶就可以實現無障礙的數據訪問,并能獲得所需的數據價值。第二,大數據的應用要經歷一個逐步完善的過程,必須循序漸進,先做好數據存儲和優化,然后再進行數據分析。第三,大數據解決方案通常包括兩個部分:一是大數據保留解決方案,二是大數據分析解決方案。將兩類解決方案有機地結合在一起,才能有效降低大數據分析應用的成本,更好地挖掘數據的價值。Cheryl Cook表示,戴爾可以提供上述兩種解決方案。一方面,戴爾可以提供針對結構化和非結構化數據的大數據保留解決方案,主要包括存儲虛擬化與整合、應用程序優化、數據保護、災難恢復以及數據保留與管理解決方案;另一方面,戴爾還能提供支持Hadoop、Cloudera等開源軟件的大數據分析解決方案。
記者曾與包括大慶油田、太平洋保險公司等在內的一些用戶進行過交流。它們目前都沒有計劃部署大數據應用?!皬娜蚍秶鷣砜?,大數據應用還處于起步階段?!贝鳡杹喬叭毡镜貐^商用事業部企業解決方案副總裁Philip A. Davis表示,“與云計算興起時一樣,可能要經過兩三年的市場培育,用戶才能逐漸接受大數據應用?!?/p>
中國東方航空股份有限公司信息部總經理嚴振紅介紹說:“在大數據的概念出現以前,我們就在做客戶數據、經營數據的分析工作。但是客戶數據庫、經營數據庫等都是相互獨立的,數據不能共享。現在,我們要做的是將這些系統的數據整合起來,統一進行分析?!?/p>
Hadoop不是萬能的
簡單來說,Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。Hadoop最獨特的優勢在于為用戶提供了一個分布式的、高容錯的文件系統和加速數據處理的辦法。隨著Web 2.0、社交網站的大規模興起,人們需要一個高效的處理非結構化數據的平臺。Hadoop正好可以滿足人們的需求。有些人甚至在Hadoop和大數據之間劃上了等號。Hadoop能夠解決大數據應用的所有難題嗎?
“Hadoop是一個復雜的工具套件。如果沒有廠商或專業技術人員的幫助,用戶自己部署Hadoop是一件十分困難的事。目前,Hadoop的應用并不普及?;ヂ摼W用戶是最早采用Hadoop平臺的。”Philip A.Davis表示,“如果想讓大數據解決方案充分發揮其作用,就必須搭建一個高效的信息基礎架構,實現信息基礎架構的自動化、智能化,同時提高其可管理性?!?/p>
Hadoop的應用是有一定技術門檻的。如今,許多IT廠商都推出了基于Hadoop的解決方案包,其目的是幫助用戶簡化Hadoop的部署與應用。Philip A.Davis表示:“戴爾提供的基于Hadoop的大數據分析方案可以將Hadoop的部署周期從原來的兩個月縮短至兩天?!?/p>
VMware全球高級副總裁范承工也認為,由于缺少精通Hadoop技術的專業人才,Hadoop的部署對于用戶來說是一件費時費力的事。如今,VMware可以將Hadoop部署在虛擬化架構之上,將部署工作從半自動化變為全自動化,從而減少了人工干預,使得Hadoop的部署變得更加簡單,也不容易出錯。
“很多中國企業的CIO認為,大數據解決方案是有價值的,但實施起來確實有許多困難?!贝鳡柸蚋笨偛?、中國區大型企業及公共事業部總經理容永康舉例說,“國內懂得在Hadoop上進行開發的專業技術人員非常少。一些金融行業的用戶很想現在就部署大數據解決方案,但是苦于找不到既懂Hadoop技術,又懂得金融業務的專業人才?!?/p>
Informatica首席技術官James Markarian表示:“在IT環境中,Hadoop不可能作為一個孤島存在。為了讓Hadoop跨越不同平臺,用戶需要將Hadoop作為其IT大環境中的一部分來管理,并通過Hadoop重復使用他們的開發技巧、資產及數據,同時還要統籌管理全部數據?!?/p>
在美國市場上,70%的大數據應用處理的還是結構化的數據。從技術的角度看,雖然Hadoop也能處理結構化的數據,但是目前基于Hadoop的大數據分析解決方案主要還是用于處理非結構化的數據。因此,用戶處理結構化數據和非結構化數據通常是用兩套不同的分析工具。這種混合的大數據處理模式是一種普遍現象。
從未來的發展看,非結構化數據的快速增長是大數據分析的主要驅動因素。從這個角度講,Hadoop的應用前景還是十分廣闊的。
在云計算、大數據時代,企業更需要以互聯網的思維方式構建面向未來的分布式應用,這就需要一個全新的技術架構。從這個角度說,FusionCube融合一體機解決方案與面向大數據應用的SAP HANA相得益彰。
“SAP HANA是一個能夠充分挖掘和體現大數據價值的解決方案。與傳統的數據分析、商業智能解決方案不同,SAP HANA提供了一整套模型和工具,可以通過對大數據的分析預測未來的業務發展,給企業帶來新的商機。”任志鵬分析說,“針對SAP HANA,華為提供了一個創新的技術平臺FusionCube,將計算、存儲、網絡有機地結合在一起,并融合了華為分布式存儲引擎以及云管理軟件,使得大數據的實時分析與處理可以達到更高的水平?!痹赥PC-H測試中,華為FusionCube 刷新了基于Sybase IQ的集群性能世界記錄,充分展示了其融合架構帶來的性能優勢。
大規模定制是云計算、大數據時代的一個典型特征。許多企業客戶都需要廠商提供基于其個性化需求定制的解決方案。今天,針對不同企業的不同需求,華為提供了支持單節點HANA的RH5885方案和多節點HANA的FusionCube方案。任志鵬介紹說:“SAP HANA對基礎設施有很嚴格的要求。華為FusionCube for HANA一體機具備更快的同步寫性能、更低延時和更高的讀寫帶寬,以及很好的線性擴展能力。FusionCube可實現一站式交付、家電化安裝,并能按需靈活擴展應用,運維非常簡單?!?/p>
華為FusionCube for HANA一體機已經在許多行業得到了應用。以金融行業為例,FusionCube for HANA在包括銀行小微貸項目等在內的新興業務中得到了成功應用。華為內部還成立了一支技術團隊,專門負責支持SAP HANA。
交付“三位一體”
華為進軍IT領域后始終堅持“被集成”的策略。因此在IT解決方案的推廣過程中,華為與集成商、分銷商一直保持緊密合作。華為FusionCube for HANA一體機就是通過富通集團在中國市場上進行銷售的?!叭A為、SAP與富通集團基于FusionCube for HANA實現了三位一體的交付。”任志鵬表示。
“x86+Hadoop”被認為是承載大數據應用的主流平臺,其開發和應用生態系統已經得到了市場的驗證,但這并不意味著大數據基礎平臺會呈現一種架構“通吃”的局面。
在IBM看來,Power平臺是構建大數據應用的一把“利器”?!按髷祿且粋€跨行業的需求,不僅在互聯網公司,傳統企業客戶,像金融、政府、電信等行業也有非常多的有關大數據的應用?!?IBM大中華區副總裁及系統與科技部Power Systems總經理侯淼表示,“Power平臺所具有的大內存、大Cache、多線程等技術特征,使之非常符合大數據的應用需求?!?/p>
數據倉庫、數據挖掘、業務數據庫,這些都是Power平臺傳統的優勢領域。在IBM系統與科技部大中華區Power Systems產品總監李紅看來,這些既有優勢為Power平臺在大數據領域的應用奠定了基礎。
“首先,大數據應用需要與既有系統進行平滑、無縫的連接和交互。在此基礎上,Power平臺可以拓展新的需求,例如開源的非結構化數據、流數據的分析等,都可以集成到新的需求中去。在這個過程中,傳統方案需要和新方案實現很好的整合,Power平臺的價值進一步得到體現。此外,軟件生態系統至關重要,對軟件以及并發處理等場景的廣泛支持(包括DB2、GPFS等)使基于Power的解決方案具備更多優勢。”李紅告訴記者。
面向數據類型的解決方案
多樣性是大數據的一個典型特征,在IBM看來,面向不同大數據類型,大數據應用可分為靜態批量大數據處理、實時大數據處理、數據倉庫整合、數據集市構建四類,IBM面向這四類應用都有專門的解決方案?!耙詳祿}庫應用為基礎,發展出了新的大數據應用場景和需求,例如靜態數據的批處理、流數據的實時分析等。 IBM的思路是提供整合的解決方案,幫助用戶最終獲得完整的數據價值?!崩罴t表示。
在靜態大數據解決方案中,Power可支持Open Hadoop、 BigInsights、 Symphony 等大數據解決方案,并能夠與傳統數據倉庫系統無縫集成。李紅解釋說:“Symphony專門面向計算密集型大數據應用,BigInsight在Hadoop框架上增加了安全管理、工作流等特性,并融入了IBM獨特的數據分析、機器學習和文本數據分析挖掘等技術?!?/p>