時間:2023-05-30 10:44:18
開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)倉庫,希望這些內容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞:數(shù)據(jù)庫,數(shù)據(jù)倉庫,數(shù)據(jù)處理
1.數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫的英文名稱為Data Warehouse,簡寫DW。W.H.Inmon。我們把它的定義為:數(shù)據(jù)倉庫是一個數(shù)據(jù) 集合,它的特點是:用于支持管理決策時它是面向主題的,集成的,相對穩(wěn)定的,能夠反映歷史變化的。從數(shù)據(jù)倉庫的概念上我們可以從兩個方面理解,一方面,數(shù)據(jù)倉庫是用來支持決策的,主要面向分析 型數(shù)據(jù)處理,這一點有別于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;另一方面,數(shù)據(jù)倉庫對多個異構的數(shù)據(jù)源進行有效集成,在集成后又按照主題重新進行了組合,并且包含歷史數(shù)據(jù),盡管如此,卻一般不再修改其存放在數(shù)據(jù)倉庫里的數(shù)據(jù)。
2.數(shù)據(jù)倉庫的特點
(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)
之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織,一個主題通常與多個操作型信息系統(tǒng)相關。。
(2)集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)
據(jù)庫之間相互獨立,并且往往是異構的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須保證數(shù)據(jù)倉庫內的信息是關于整個企業(yè)的一致的全局信息。
(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時
發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析只用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫之后,一般情況下將被長期保留,修改和刪除操作很少,通常只需要定期的加載、刷新。。
(4)反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內的數(shù)據(jù),而
數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前的各個階段的信息,以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
3.數(shù)據(jù)倉庫的結構
如上圖所示,整個數(shù)據(jù)倉庫系統(tǒng)包含五個層次:
(1)數(shù)據(jù)源層。是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內部信息和外部信息。。
(2)數(shù)據(jù)導入層。是數(shù)據(jù)在進入數(shù)據(jù)倉庫前的一個臨時存放區(qū),通過數(shù)據(jù)調度工具將業(yè)務系統(tǒng)傳送過來的數(shù)據(jù)表、文本文件等加載到臨時存放區(qū)。
(3)數(shù)據(jù)服務層。是整個數(shù)據(jù)倉庫系統(tǒng)的核心。針對現(xiàn)有各業(yè)務系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
(4)應用服務層。應用服務層的功能主要是建立多維數(shù)據(jù)集、進行OLAP分析、生成各種靜態(tài)報表并以WEB方式提供各種功能的查詢分析。
(5)用戶層。根據(jù)對數(shù)據(jù)倉庫需求的不同,數(shù)據(jù)倉庫的用戶可以分為普通用戶、技術用戶、高級管理用戶這三類。不同用戶對數(shù)據(jù)倉庫訪問的需求層次以及復雜度都是不同的,簡單的需求是訪問一些固定的靜態(tài)報表和查詢分析,復雜的可以通過前端展現(xiàn)的工具生產(chǎn)一些靈活、動態(tài)的即席查詢報表,以滿足業(yè)務部門一些臨時的、迫切的報表需求。
4.相關的網(wǎng)站和論壇:
(1)數(shù)據(jù)倉庫之路 dwway.com/html/news.html
(2)MyDWBImydwbi.com致力于打造最專業(yè)的中文數(shù)據(jù)倉庫,商務智能社區(qū)
(3)商業(yè)智能和數(shù)據(jù)倉庫愛好者bihuman.com/
(4)數(shù)據(jù)挖掘研究院 chinakdd.com/
5.研究和商業(yè)機構
(1) 北京大學移動通信數(shù)據(jù)倉庫聯(lián)合實驗室
2006年5月由中國移動、北京大學、亞信集團聯(lián)合建立,該實驗室”是全球容量最大的數(shù)據(jù)倉庫分析系統(tǒng)實驗室,也有效的整合了三方得優(yōu)勢資源。中國移動通信目前構建了目前國際上最大的數(shù)據(jù)倉庫系統(tǒng),聯(lián)合實驗室的建立,既能推動中國移動自身數(shù)據(jù)倉庫系統(tǒng)建設,也能明顯推動數(shù)據(jù)倉庫技術向縱深發(fā)展。
(2)中國人民大學數(shù)據(jù)倉庫和商務智能實驗室
2004年5月由中國人民大學和全球著名的數(shù)據(jù)倉庫廠商NCRTeradata聯(lián)合建立。該實驗室承擔了國家863計劃、國家自然科學基金重點項目、教育部重點項目等國家重大科研任務。借助于NCRTeradata的優(yōu)勢技術,雙方將通過密切的合作,共同開發(fā)具有中國行業(yè)特色的數(shù)據(jù)倉庫和商務智能應用軟件。
(3)北京漢端科技有限公司
北京漢端公司是一家專門從事商業(yè)智能信息化服務的企業(yè),從1996年就開始專業(yè)做數(shù)據(jù)倉庫,它在數(shù)據(jù)倉庫領域是相當專業(yè)的,在這可以接觸到最前沿的數(shù)據(jù)倉庫技術。
(4)上證所金融創(chuàng)新實驗室
2006由上海證券交易所成立,該實驗室的數(shù)據(jù)全部來源于數(shù)據(jù)倉庫系統(tǒng)。 上證所在推出金融新產(chǎn)品時,都曾通過數(shù)據(jù)倉庫平臺進行過測算和驗證。通過實時數(shù)據(jù)倉庫技術,為上證所的經(jīng)營、監(jiān)管、創(chuàng)新和服務決策提供數(shù)據(jù)支持,極大的提高了監(jiān)管的效率和服務的性能,能夠更好地服務市場和監(jiān)管市場。
參考文獻:
1伍小榮 伍慶華 數(shù)據(jù)倉庫技術的研究現(xiàn)狀和未來方向 [期刊論文] 現(xiàn)代電子技術2002(6)
2.向海華 數(shù)據(jù)庫技術發(fā)展綜述[期刊論文] 現(xiàn)代情報 2003(12)
3.王澤明淺談數(shù)據(jù)倉庫技術 [期刊論文] 計算機應用與軟件2001-01-15
4.黃慶普 剖析數(shù)據(jù)倉庫技術 [期刊論文] 華南金融電腦2003年11期
5.劉立波 數(shù)據(jù)倉庫技術的研究與應用[期刊論文] 計算機工程與應用2002(15)
關鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;決策樹
中圖分類號:TP391 文獻標識碼:A 文章編號:16727800(2013)002009904
0 引言
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是近年來剛剛興起并逐步發(fā)展起來的一門新興交叉學科,它把對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,并提供決策支持。此門學科涉及到許多領域的知識,包括數(shù)據(jù)庫技術、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算、機器學習等,匯集了多門學科的知識并在綜合運用這些學科知識的基礎上產(chǎn)生出新的知識和方法。此門學科的應用主要在于構建企業(yè)的決策支持系統(tǒng),此系統(tǒng)正是目前幫助企業(yè)提高自身競爭力的重要手段。
在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘學科中涉及了許多概念、設計方法及諸多挖掘算法,本文將就其中的一些內容結合SQL Server Analysis Service應用實例加以闡述與說明,以加深對理論的理解,并逐步掌握此門學科所提供的更多技術。
總體來講,構建一個企業(yè)的決策支持系統(tǒng)主要有兩個階段,第一個階段是創(chuàng)建企業(yè)的數(shù)據(jù)倉庫,第二個階段是在數(shù)據(jù)倉庫的基礎上進行數(shù)據(jù)挖掘。這兩個階段的工作相輔相成,數(shù)據(jù)倉庫是基礎,數(shù)據(jù)挖掘是在數(shù)據(jù)倉庫之上的高層應用,兩者需要整體規(guī)劃、分步實施。下面分別就這兩部分內容結合實例加以闡述。
1 數(shù)據(jù)倉庫的規(guī)劃與設計
數(shù)據(jù)倉庫是一個面向主題的、集成的,時變的、非易失的數(shù)據(jù)集合,支持部門管理的決策過程,數(shù)據(jù)中的每一個數(shù)據(jù)單元在實踐上都是和某個時刻相關的。數(shù)據(jù)倉庫也被看作是某個組織的數(shù)據(jù)存儲庫,用于支持戰(zhàn)略決策。數(shù)據(jù)倉庫的功能是以集成的方式存儲整個組織的歷史數(shù)據(jù),這些數(shù)據(jù)會影響到這個組織和企業(yè)的多個方面。數(shù)據(jù)倉庫的特點是:數(shù)據(jù)常常來自于多個數(shù)據(jù)源;其存放模式一致;駐留在單個站點;數(shù)據(jù)已經(jīng)清理、變換、集成與裝載并定期刷新;數(shù)據(jù)量巨大。
數(shù)據(jù)倉庫構建方法同一般數(shù)據(jù)庫構建方法最大的不同在于數(shù)據(jù)倉庫的需求分析是從用戶的決策問題入手,其目的是直接針對問題的主題,而一般數(shù)據(jù)庫系統(tǒng)是以事務處理為出發(fā)點。下面結合具體實例說明數(shù)據(jù)倉庫的設計步驟。
1.1 確定用戶需求,為數(shù)據(jù)倉庫中存儲的數(shù)據(jù)建立模型
通過數(shù)據(jù)模型得到企業(yè)完整而清晰的描述信息。數(shù)據(jù)模型是面向主題建立的,同時又為多個面向應用的數(shù)據(jù)源的集成提供了統(tǒng)一的標準。
例如:FoodMart是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業(yè)務。市場部想要按產(chǎn)品和顧客分析1998年進行的所有銷售業(yè)務數(shù)據(jù)。該公司現(xiàn)在急需進行銷售方面的數(shù)據(jù)分析,以找到一些潛在規(guī)律來促進銷售業(yè)務的進一步拓展從而擴大銷售渠道、加大銷售量、提高銷售利潤、增強公司競爭力。該連鎖店銷售的產(chǎn)品總體上被分為若干個大類,細節(jié)上分為若干個小類;客戶廣泛分布于不同地區(qū)、不同國家。該連鎖店在銷售信息管理系統(tǒng)中長期保存并不斷更新著產(chǎn)品、產(chǎn)品分類、商店、銷售、促銷、客戶等記錄表,依次為:產(chǎn)品表(PRODUCT)、產(chǎn)品分類表(PRODUCT_CLASS)、商店表(STOR)、1998年銷售記錄表(Sales_fact_1998)、促銷表(PROMOTION)、客戶表(CUSTOMER)等。
FoodMart連鎖店保存并不斷更新的數(shù)據(jù)庫是事務處理型數(shù)據(jù)庫,其結構是面向應用而設計的。要進行數(shù)據(jù)挖掘就必須建立面向主題的數(shù)據(jù)倉庫,為了進行1998年銷售方面的數(shù)據(jù)挖掘,要設計的數(shù)據(jù)倉庫必須以1998年銷售數(shù)據(jù)為主題,輔之以日期、產(chǎn)品、產(chǎn)品分類、商店、促銷、客戶等其它數(shù)據(jù)信息。具體來講,即創(chuàng)建以1998年銷售為主題的數(shù)據(jù)倉庫,采用星型/雪花模式構建事實表。
1.2 分析數(shù)據(jù)源,完成數(shù)據(jù)倉庫的設計工作
基于用戶的需求,著重于1998年銷售主題,開發(fā)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結構,即設計多維數(shù)據(jù)結構的事實表和維表。1998年銷售事實表包含5個維表和3個度量。這5個維表分別是日期、客戶、產(chǎn)品、促銷和商店維表,3個度量分別為銷售金額、倉儲成本、銷售單位。考慮到將來要根據(jù)顧客的年收入情況進行顧客會員卡種類方面的數(shù)據(jù)分析,另外增加了年收入維度(yearly income,取自于customer表)。為便于分析挖掘出有關時間因素的信息,特增加了時間表time。
1.3 生成物理的數(shù)據(jù)倉庫,并從各種源系統(tǒng)中獲取數(shù)據(jù)裝入數(shù)據(jù)倉庫中 在SQL Server Analysis Service manager中建立物理的數(shù)據(jù)倉庫可以通過ODBC數(shù)據(jù)源方式指定原有數(shù)據(jù)庫,再通過Microsoft OLE DB Provider for ODBC進行連接的方式完成原有數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射。運用SQL Server Analysis Service manager提供的功能建立數(shù)據(jù)倉庫的多維數(shù)據(jù)集,指定此數(shù)據(jù)倉庫的度量值與維度,至此數(shù)據(jù)倉庫建立完畢。其中緯度與度量值如圖2所示。
2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。簡言之,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識的過程。數(shù)據(jù)挖掘可以幫助企業(yè)對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,從而利用已有數(shù)據(jù)預測未來,幫助企業(yè)贏得競爭優(yōu)勢。數(shù)據(jù)挖掘的方法是建立在聯(lián)機分析處理 (On Line Analytical Processing,OLAP)的環(huán)境基礎之上的。OLAP技術使數(shù)據(jù)倉庫能夠快速響應重復而復雜的分析查詢,從而使數(shù)據(jù)倉庫能有效地用于聯(lián)機分析。OLAP 的多維數(shù)據(jù)模型和數(shù)據(jù)聚合技術可以組織并匯總大量的數(shù)據(jù),以便能夠利用聯(lián)機分析和圖形工具迅速對數(shù)據(jù)進行評估。當分析人員搜尋答案或試探可能性時,在得到對歷史數(shù)據(jù)查詢的回答后,經(jīng)常需要進行進一步查詢。OLAP系統(tǒng)可以快速靈活地為分析人員提供實時支持。
數(shù)據(jù)挖掘工作是在完備地建立了數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)集的基礎上進行的,典型的數(shù)據(jù)挖掘系統(tǒng)結構如圖3所示。
整個數(shù)據(jù)挖掘過程主要可分幾個階段,依次為:問題定義、數(shù)據(jù)預處理、數(shù)據(jù)挖掘以及結果的解釋和評估。
2.1 問題定義
問題定義就是要清晰地定義出業(yè)務問題,確定數(shù)據(jù)挖掘的目的。對于FoodMart連鎖店來說,它的問題定義就是:FoodMart連鎖店的市場部想增加客戶滿意度和客戶保有率,于是實行了創(chuàng)造性的方法以達到這些目標。
其方法之一是對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。
為了重新定義會員卡方案,市場部想分析當前銷售事務并找出客戶人口統(tǒng)計信息(婚姻狀況、年收入、在家子女數(shù)等等)和所申請卡之間的模式,然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡。
2.2 數(shù)據(jù)預處理
最初為數(shù)據(jù)挖掘所準備的所有原始數(shù)據(jù)集通常都很大,它們當中存在許多臟數(shù)據(jù)。造成臟數(shù)據(jù)的原因主要源自于收集與傳送過程的錯誤、濫用縮寫詞以及不同的慣用語、重復記錄、數(shù)據(jù)輸入錯誤、拼寫變化、不同的計量單位、過時的編碼、集成時的空值與丟失值以及不同的數(shù)據(jù)源等。臟數(shù)據(jù)主要有以下一些表現(xiàn)形式:
(1)數(shù)據(jù)不完整。表現(xiàn)為:感興趣的屬性缺值;缺乏感興趣的屬性;僅包含聚集數(shù)據(jù)等。例如:CUSTOMER表中的LNAME=“”
(2)數(shù)據(jù)噪聲。即包含錯誤的屬性值或存在偏離期望的孤立點值。一個屬性的值與事實完全不吻合的情況,例如:CUSTOMER表中的在家子女數(shù)num_children_at_home=200
(3)數(shù)據(jù)不一致。數(shù)據(jù)不一致表現(xiàn)為多種情況,比如:同樣的屬性在不同的結構里使用不同的名字,例如:name、xm;不同數(shù)據(jù)使用的計量單位不同,例如:100(美元)、100(美分);數(shù)據(jù)不允許為空的地方數(shù)據(jù)為空等。
如果在臟數(shù)據(jù)上進行數(shù)據(jù)挖掘將很可能導致錯誤的判斷甚至完全相反的分析結果,也就是說,沒有高質量的數(shù)據(jù)就沒有高質量的挖掘結果。由于決策質量依賴于數(shù)據(jù)質量,因此需要在數(shù)據(jù)挖掘之前進行數(shù)據(jù)預處理,以保證數(shù)據(jù)倉庫內包含的是高質量的、一致的數(shù)據(jù)。所謂數(shù)據(jù)預處理其實就是對數(shù)據(jù)倉庫中的數(shù)據(jù)進行提取、清理、轉換,從而保證數(shù)據(jù)的高質量,具體來講包括以下幾種操作:
(1)數(shù)據(jù)清理(data cleaning)。就是去掉數(shù)據(jù)中的噪聲,糾正不一致;填寫空缺值,平滑噪聲數(shù)據(jù),識別、刪除孤立點。例如:將CUSTOMER表中的在家子女數(shù)num_children_at_home=200的記錄值刪除掉或填入平均值1。
(2)數(shù)據(jù)集成(data integration)。將多個數(shù)據(jù)源中的數(shù)據(jù)合并存放在一個統(tǒng)一的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫、數(shù)據(jù)庫等)中,數(shù)據(jù)源可以是多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般的數(shù)據(jù)文件。
(3)數(shù)據(jù)變換(data transformation)。即數(shù)據(jù)的標準化與聚集,將數(shù)據(jù)變換成適于挖掘的形式。例如:屬性數(shù)據(jù)可以規(guī)范化,使得它們可以落入某個小區(qū)間。
(4)數(shù)據(jù)歸約(data reduction)。數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,它接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量比原數(shù)據(jù)小得多。與非歸約數(shù)據(jù)相比,在歸約的數(shù)據(jù)上進行挖掘,所需的時間和內存資源更少,挖掘將更有效,并產(chǎn)生相同或幾乎相同的分析結果。數(shù)據(jù)歸約主要通過數(shù)據(jù)聚集(如建立數(shù)據(jù)立方體)、維歸約(如刪除不相關特性)、數(shù)據(jù)壓縮(如最短編碼)、數(shù)字歸約(用較短的表示替換數(shù)據(jù))、概化(去掉不用的屬性)等方法完成。例如,對于FoodMart連鎖店的數(shù)據(jù)挖掘來講,CUSTOMER表中的address1、address2、address3、 address4這4個屬性與挖掘目標無關,所以可以將它們刪除掉以節(jié)省空間和時間。
2.3 選擇挖掘模型,進行數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的挖掘模型,在凈化和轉換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。
FoodMart連鎖店的工作設想是:對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。市場部想分析當前銷售事務并找出客戶人口統(tǒng)計信息(婚姻狀況、年收入、在家子女數(shù)等)和所申請卡之間的模式,然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡。
對于這個工作預期,決定采用決策樹的數(shù)據(jù)挖掘方法進行客戶群的分析。所謂決策樹,就是在對數(shù)據(jù)進行決策分類時利用樹的結構將數(shù)據(jù)記錄進行分類,其中樹的一個葉結點就代表符合某個條件的屬性集,根據(jù)屬性的不同取值建立決策樹的各個分支,隨后遞歸地構造每個子節(jié)點的子樹。由于決策樹結構簡單便于人們認識與理解,以及決策樹不需要額外的數(shù)據(jù)訓練,因此,決策樹是數(shù)據(jù)挖掘中常用的一種分類方法。
本實例采用“Microsoft 決策樹”算法在客戶群中找出會員卡選擇模式。按照以下步驟完成“決策樹”挖掘模型:
(1)將要挖掘的維度(事例維度)設置為客戶;
(2)將 Member_Card 成員的屬性設置為數(shù)據(jù)挖掘算法識別模式時要使用的信息;
(3)選擇人口統(tǒng)計特征列表(婚姻狀況、年收入、在家子女數(shù)和教育程度),算法將據(jù)此確定模式;
(4)處理訓練模型,瀏覽決策樹視圖并從中讀取模式。
經(jīng)過處理后,挖掘模型瀏覽器展現(xiàn)出一棵深度為3、寬度為8的決策樹,此瀏覽器將根據(jù)用戶對樹中不同分支節(jié)點的選擇顯示出相應的統(tǒng)計信息。
例如,選擇根節(jié)點“全部”顧客的方框后顯示信息如圖4所示。
在圖中可以看到數(shù)據(jù)挖掘的結果:將客戶按照年收入的不同分為8個區(qū)段(類),涉及的客戶總數(shù)為7 632人,通過直方圖可以直觀地看到辦理金、銀、銅、普通卡的比例。
選擇年收入在$30K-$50K的范圍框后,挖掘模型瀏覽器的顯示信息如圖5所示。
年收入在此范圍內的客戶共計1 362人,其中辦理金、銀、銅、普通卡的數(shù)量和比例通過合計及直方圖可以一目了然。
其它選項依此類推。
對年收入在$150K以上的范圍節(jié)點進行進一步分級(顯示其子節(jié)點),選擇已婚節(jié)點后顯示信息如圖6所示。
其它選項依此類推。
2.4 解釋模型結果分析
針對FoodMart商店的舉措,對挖掘模型瀏覽器的顯示結果進行研讀后得出這樣的結論:年收入越高的顧客辦理金卡、銀卡的比例越高,收入越低的顧客辦理普通卡和銅卡的比例越高。在高收入的顧客中,已婚者辦理金卡的比例最高,單身者辦理銀卡的比例最高。在較低收入的顧客中,在家子女的人數(shù)少于兩人的辦理銅卡的比例較高,多于兩人的辦理金卡的比例較高。具體數(shù)據(jù)值及比例值可以從挖掘模型瀏覽器中得到。市場部將根據(jù)這些模式設計新的會員卡,使其適應申請各類會員卡的客戶類型。
3 結語
企業(yè)要建立自己的決策支持系統(tǒng)就必然要應用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術,企業(yè)應根據(jù)自身要求合理建立特定主題的數(shù)據(jù)倉庫,在此基礎上還要結合實際問題選擇相應的挖掘模型,從而得到最有價值的挖掘分析結果,以利于企業(yè)的經(jīng)營發(fā)展。
參考文獻:
在大數(shù)據(jù)(Big Data)時代,隨著技術的發(fā)展,數(shù)據(jù)倉庫已包含提取、清洗、集成數(shù)據(jù)并將數(shù)據(jù)交付給決策者的完整生態(tài)系統(tǒng),包括提取-轉換-加載 (ETL) 和商業(yè)智能 (BI) 功能。數(shù)據(jù)倉庫在捕獲所有形式的企業(yè)數(shù)據(jù),以及在其后準備這些數(shù)據(jù)供全企業(yè)決策者使用的過程中,起到非常廣泛的作用。
大數(shù)據(jù)與數(shù)據(jù)倉庫的異同
大數(shù)據(jù)時代的到來,確實對傳統(tǒng)的數(shù)據(jù)倉庫認知產(chǎn)生了重大的影響。什么是大數(shù)據(jù)?大數(shù)據(jù)的“大”實際上并不是最令人關注的特征。大數(shù)據(jù)是很多不同格式的結構化、半結構化、非結構化和原始數(shù)據(jù),在某些情況下看起來與過去 30 年來我們存儲在數(shù)據(jù)倉庫中清一色的標量數(shù)字和文本完全不同。從另外一個角度來講,小數(shù)據(jù)比較簡單,有比較成熟的技術應對它。大數(shù)據(jù)是多種類型數(shù)據(jù)的組成,需要使用多種技術對待它。每一個識別和監(jiān)測它的手段和方法是不一樣的。
然而,很多大數(shù)據(jù)不能使用任何類似 SQL 這樣的工具進行分析。對于企業(yè)及應用來說,數(shù)據(jù)倉庫應用更加有效。兩者并不形成替代,特別是銀行業(yè)等行業(yè)里面,更多的是互為補充。
數(shù)據(jù)倉庫的技術特點
被稱為數(shù)據(jù)倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書這樣描述:數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。可以從兩個層面對數(shù)據(jù)倉庫的概念進行理解,一是數(shù)據(jù)倉庫是面向分析處理的,主要用來支持決策制定;二是數(shù)據(jù)倉庫包含歷史數(shù)據(jù),是對多個異構的數(shù)據(jù)源數(shù)據(jù)按照主題的集成,它的數(shù)據(jù)相對固定,不會經(jīng)常改動。
面向主題的:數(shù)據(jù)倉庫的數(shù)據(jù)都是按照一定的業(yè)務主題進行組織的,面向主題體現(xiàn)在數(shù)據(jù)倉庫的建設中,而且還包含在業(yè)務數(shù)據(jù)分析和存儲上。
集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個不同的分散數(shù)據(jù)庫中,它并不是對源數(shù)據(jù)庫數(shù)據(jù)的簡單拷貝,而是按照劃分好的主題和數(shù)據(jù)分析要求,經(jīng)過數(shù)據(jù)抽取、清理、匯總和整理等步驟,消除源數(shù)據(jù)中的錯誤和不一致的數(shù)據(jù),保證數(shù)據(jù)倉庫中數(shù)據(jù)的正確性和可用性。所以,它是整合集成的。
相對穩(wěn)定的:數(shù)據(jù)倉庫的穩(wěn)定性體現(xiàn)在它的非易失性上,由于數(shù)據(jù)倉庫是面向分析的,其中的數(shù)據(jù)是從業(yè)務數(shù)據(jù)中加載過來的歷史數(shù)據(jù),所進行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩(wěn)定特征。
反映歷史變化:數(shù)據(jù)倉庫必須能夠不斷地捕捉業(yè)務系統(tǒng)中的變化數(shù)據(jù),記錄企業(yè)生產(chǎn)過程的各個階段的信息,以滿足決策分析的需要,所以必須實時地把新變化的業(yè)務數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,通過數(shù)據(jù)隨時問變化的研究和分析,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
選擇實施方法
企業(yè)級數(shù)據(jù)倉庫的實現(xiàn)通常有兩種途徑:一種是從建造某個部門特定的數(shù)據(jù)集市開始,逐步擴充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個能夠完全反應企業(yè)全貌的企業(yè)級數(shù)據(jù)倉庫;另外一種則是從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實施。前一種方法是各個擊破,投資少、周期短且易于見到成果,但由于該設計開始時是以特定的部門級主題為框架的,向其他的主題和部門擴充往往非常困難。而后一種方法恰恰相反:投資大、周期長,但是易于擴展。
以哪種方法進行實施,主要取決于各個行業(yè)和客戶的實際情況。如電信和銀行業(yè),采用第二種方法比較可行,這是因為這兩個行業(yè)業(yè)務發(fā)展變化快,為了能夠適應將來的變化,整個數(shù)據(jù)倉庫架構必須是可擴展的和易于維護的。如果只是基于部門級的需求去設計,將來肯定無法適應變化。如果重新設計,勢必造成前期投入的浪費。對其他一些行業(yè),如制造業(yè)和零售業(yè),本著“急用先行”的原則,可以先從某一局部入手,慢慢擴展為數(shù)據(jù)倉庫。
從技術上講,以部門需求作為主要考慮因素建立的系統(tǒng),它的數(shù)據(jù)量不會太大,會影響對將來數(shù)據(jù)膨脹風險的正確估計,當數(shù)據(jù)集市擴展到企業(yè)范圍的時候,由于原有技術無法支撐新的數(shù)據(jù)規(guī)模,會造成數(shù)據(jù)裝載和數(shù)據(jù)分析速度的降低,甚至達到不可用的地步。企業(yè)級的數(shù)據(jù)倉庫會涉及更多的額業(yè)務系統(tǒng),只有充分研究各業(yè)務系統(tǒng),才能了解如何對不同格式、不同標準、不同接口的數(shù)據(jù)進行集成。
當然,對于第二種方法,也不是說把攤子鋪的越大越好。合理的做法是“統(tǒng)籌規(guī)劃,分步實施”。根據(jù)業(yè)務需求,把業(yè)務的主要方面都涵蓋進去,確定彼此之間的聯(lián)系;對于次要的需求,可以預留一些接口,以備將來細化。否則,如果整個調研周期拖得太長,等進入實施階段,業(yè)務又發(fā)生變化,不得不重新修改設計,同樣會造成浪費。
所以,先搭建好一個易于擴展且穩(wěn)定的架構,在此基礎上逐步實施,是一個兼顧長遠發(fā)展與合理投入的最佳方式。此外,分步實施還可以減少風險:前一階段的經(jīng)驗教訓可以為下一階段提供有益的借鑒,從而使得數(shù)據(jù)倉庫的建設不斷完善,不斷發(fā)展。
結合先進技術 從業(yè)務需求出發(fā)
和其他的應用系統(tǒng)相比,數(shù)據(jù)倉庫對于需求分析和系統(tǒng)設計等前期工作要求更高,其重要性也更加突出。可以說,分析和設計階段決定了數(shù)據(jù)倉庫最終的失敗。因為需求不明確、設計不合理造成的根本性缺陷是以后實施階段所無法彌補的。因此在分析和設計階段,對相關的業(yè)務部門和技術部門要進行詳細的調研,在用戶和開發(fā)人員之間的迭代和反饋是必須和重要的,它決定了數(shù)據(jù)倉庫最終的成功與否。
由于數(shù)據(jù)倉庫是面向業(yè)務分析的,所以最主要的需求應該從業(yè)務部門獲取和收集,因為數(shù)據(jù)倉庫最終是要服務于業(yè)務部門的。需求抓的不準,導致將來將無法解決業(yè)務部門的問題,這個數(shù)據(jù)倉庫項目就是失敗的,技術再先進也沒有用。這是衡量數(shù)據(jù)倉庫成敗與否的唯一尺度。
實施的過程中,最好能夠把行業(yè)專家的經(jīng)驗,與企業(yè)現(xiàn)有的需求進行整合,以期得到一個更加全面的需求范圍,有利于適應將來業(yè)務的變化和擴展。
從技術角度來講,必須建立一個可伸縮、可擴展、高性能的數(shù)據(jù)倉庫平臺,才能為將來不斷的完善、不斷發(fā)展打下一個良好的基礎;由于數(shù)據(jù)倉庫項目要涉及多個業(yè)務系統(tǒng),數(shù)據(jù)量非常龐大,所以本身的投入也是很大的,在保證系統(tǒng)高效穩(wěn)定的前提下,盡量降低成本是非常重要的。
相關鏈接
數(shù)據(jù)倉庫的類型
根據(jù)數(shù)據(jù)倉庫所管理的數(shù)據(jù)類型和它們所解決的企業(yè)問題范圍,一般可將數(shù)據(jù)倉庫分為下列3種類型:操作型數(shù)據(jù)庫(ODS)、數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)集市(Data Mart)。
操作型數(shù)據(jù)庫(ODS)
既可以被用來針對工作數(shù)據(jù)做決策支持,又可用做將數(shù)據(jù)加載到數(shù)據(jù)倉庫時的過渡區(qū)域。與 DW 相比較,ODS 有下列特點:ODS 是面向主題和面向綜合的;ODS 是易變的;ODS 僅僅含有目前的、詳細的數(shù)據(jù),不含有累計的、歷史性的數(shù)據(jù)。
數(shù)據(jù)倉庫(Data Warehouse)
此種數(shù)據(jù)倉庫被用來進行涵蓋多種企業(yè)領域上的戰(zhàn)略或戰(zhàn)術上的決策。數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。
關鍵詞:數(shù)據(jù)倉庫; 設計; 數(shù)據(jù)模型; 數(shù)據(jù)采集; 應用案例
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-3044(2015)05-0025-02
1 引言
數(shù)據(jù)倉庫的設計是指導數(shù)據(jù)體系建設,打破信息孤島,實現(xiàn)企業(yè)信息數(shù)據(jù)共享的重要環(huán)節(jié)。它能夠實現(xiàn)應用與數(shù)據(jù)分離,實現(xiàn)數(shù)據(jù)從部門到企業(yè)的提升,建立數(shù)據(jù)轉換為價值的體系,讓數(shù)據(jù)發(fā)揮出企業(yè)核心資源的效用,從而最終實現(xiàn)數(shù)據(jù)的增值[1]。
隨著企業(yè)快速發(fā)展與各類信息化系統(tǒng)建設的深入開展,某發(fā)電集團出于自身對于信息化發(fā)展的需求,按照企業(yè)信息化規(guī)劃所確定的“頂層設計、統(tǒng)一規(guī)劃”和“試點先行、分步實施”的建設原則,開展了數(shù)據(jù)倉庫系統(tǒng)方案和數(shù)據(jù)體系規(guī)范的設計工作。這其中所涉及的核心和關鍵環(huán)節(jié)在這里與大家展開研究和探討。
2 數(shù)據(jù)倉庫的設計
2.1 數(shù)據(jù)倉庫設計的總體要求
數(shù)據(jù)倉庫是在企業(yè)應用系統(tǒng)建設基礎上,為了進一步挖掘數(shù)據(jù)資源、為了決策支持需求而建設。它實現(xiàn)跨層級的數(shù)據(jù)抽取和共享。將企業(yè)各個應用系統(tǒng)的數(shù)據(jù)進行統(tǒng)一抽取,實現(xiàn)跨層級應用系統(tǒng)的數(shù)據(jù)抽取和共享[2],它為企業(yè)上層的BI應用提供數(shù)據(jù)源。數(shù)據(jù)倉庫作為BI系統(tǒng)的數(shù)據(jù)輸入源,其作用是提供不同分析主題的數(shù)據(jù)模型和數(shù)據(jù)統(tǒng)計,確保企業(yè)層面數(shù)據(jù)的完整和統(tǒng)一。
某發(fā)電企業(yè)的數(shù)據(jù)倉庫項目作為一期試點建設,項目設計的重點要求考慮如下:
1)搭建可線性擴展、高性能、易管理的數(shù)據(jù)倉庫平臺。由于數(shù)據(jù)倉庫的基礎性和穩(wěn)定性,通過項目搭建全企業(yè)統(tǒng)一的數(shù)據(jù)倉庫平臺,其建設不僅需考慮企業(yè)本期數(shù)據(jù)采集的數(shù)據(jù)存儲量,還應重點從數(shù)據(jù)倉庫未來的發(fā)展定位與要求來考慮搭建方案。
2)設計全面、合理、穩(wěn)定的數(shù)據(jù)倉庫模型。數(shù)據(jù)倉庫數(shù)據(jù)模型是數(shù)據(jù)倉庫建設的核心工作之一,數(shù)據(jù)倉庫中各層級(整合層、匯總層)的邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型,應滿足企業(yè)基于數(shù)據(jù)主題的數(shù)據(jù)存儲需要。
3)以分析模型作為需求驅動,設計實用、清晰合理的數(shù)據(jù)集市多維模型。基于數(shù)據(jù)倉庫數(shù)據(jù)模型,以分析模型作為需求驅動,設計試點業(yè)務域的數(shù)據(jù)集市數(shù)據(jù)模型,使其具備實用、清晰合理的特點,并能在建設過程中不斷驗證、完善、優(yōu)化與拓展,滿足業(yè)務分析與設計的需要。
4)以企業(yè)已建的數(shù)據(jù)總線平臺為手段實現(xiàn)相關數(shù)據(jù)主題的數(shù)據(jù)采集與共享服務。數(shù)據(jù)倉庫建設主要目的為滿足數(shù)據(jù)共享與綜合分析需求,核心內容為數(shù)據(jù)資源,項目建設重點就必須以企業(yè)數(shù)據(jù)總線平臺,實現(xiàn)系統(tǒng)間的數(shù)據(jù)集成工作。同時,借助數(shù)據(jù)總線平臺的應用集成功能,實現(xiàn)數(shù)據(jù)共享的服務化管理。
2.2 總體架構設計
企業(yè)數(shù)據(jù)倉庫設計建設應體現(xiàn)“數(shù)據(jù)與應用分離、數(shù)據(jù)為應用服務”的理念,基于開放性與先進性、活性與可維護性、可擴展性與可伸縮性、安全性與可靠性、可用性和容錯能力、準確性與實時性、易用性和完整性等原則開展數(shù)據(jù)倉庫的總體架構設計。
1)總體架構
數(shù)據(jù)倉庫的總體架構是數(shù)據(jù)體系總體框架內細化設計,是整個企業(yè)的數(shù)據(jù)倉庫總體架構,它包括支撐平臺層、數(shù)據(jù)源層、數(shù)據(jù)集成層、數(shù)據(jù)存儲層、數(shù)據(jù)管理層、數(shù)據(jù)應用層、數(shù)據(jù)展現(xiàn)層共七層,以及數(shù)據(jù)安全保障體系、數(shù)據(jù)標準規(guī)范體系。
其中數(shù)據(jù)存儲層的設計根據(jù)企業(yè)的實際情況設計為三個部分組成,包括了操作型數(shù)據(jù)存儲層(ODS)、數(shù)據(jù)倉庫層(DW)、數(shù)據(jù)集市層(DM)。DW作為所有分析功能的單一數(shù)據(jù)源。ODS身兼二職,一方面保持與源系統(tǒng)的業(yè)務數(shù)據(jù)同步以滿足一些實時性應用的數(shù)據(jù)需求,另外作為數(shù)據(jù)加工區(qū)為倉庫提供數(shù)據(jù)加工服務。DM作為最終的前端分析、報告提供支持數(shù)據(jù)集市的數(shù)據(jù)是面向最終應用的,比如財務分析。數(shù)據(jù)集市的數(shù)據(jù)基于數(shù)據(jù)倉庫之上進行匯總加工而成[3]。
2)技術架構
根據(jù)企業(yè)對數(shù)據(jù)倉庫的實際應用分析技術架構設計采用分布式計算架構、基于MPP結構的并行計算數(shù)據(jù)庫系統(tǒng)進行數(shù)據(jù)倉庫平臺構建。
技術架構中展示層將采用“富客戶端”技術,減輕服務器的負擔,無刷新更新頁面,提高用戶體驗,方便用戶操作。
控制層負責接收來自于展示層的請求,驗證請求的數(shù)據(jù),調用相應的業(yè)務邏輯進行數(shù)據(jù)處理,并將處理結果返回給展示層。包括了數(shù)據(jù)驗證、日志處理、安全認證、權限驗證、緩存處理、流量控制等功能。
業(yè)務處理層接收控制層傳來的指令,負責加工和處理業(yè)務數(shù)據(jù),如果處理成功則更新數(shù)據(jù)存儲內容,如果處理失敗則回滾事務,并將處理結果返回給控制層。
企業(yè)信息系統(tǒng)層是系統(tǒng)正常運行的基礎模塊,系統(tǒng)采用統(tǒng)一權限管理,統(tǒng)一消息管理,統(tǒng)一工作流平臺,統(tǒng)一日志管理,統(tǒng)一報表平臺等。
2.3數(shù)據(jù)模型設計
數(shù)據(jù)模型是數(shù)據(jù)倉庫的核心,一個完整、靈活、穩(wěn)定的數(shù)據(jù)模型對于數(shù)據(jù)倉庫的成功起著重要的作用。數(shù)據(jù)模型設計一般遵循統(tǒng)一規(guī)范化原則、可擴展性原則和高效性原則開展。在這部分的設計中我們按照以下思路來開展:
1)遵循數(shù)據(jù)模型設計方法論。在數(shù)據(jù)倉庫及數(shù)據(jù)集市模型設計中,通過對企業(yè)業(yè)務的詳細分析與理解,針對業(yè)務特點,我們選用了維度建模方法,設計了合理的分析維度表和事實表模型。
2)立足企業(yè)的現(xiàn)有信息化環(huán)境。數(shù)據(jù)倉庫是管控的基礎,而數(shù)據(jù)模型是決定數(shù)據(jù)倉庫質量的關鍵因素。數(shù)據(jù)模型必須以實際需求為牽引,滿足管控功能要求,從而支撐決策分析、經(jīng)營管理、綜合管理與專業(yè)生產(chǎn)管理的需求。
3)實現(xiàn)項目階段目標。數(shù)據(jù)倉庫當期選取財務主題分析為本期項目實施切入點,就應該詳細分析了財務主題的業(yè)務需求,對主題進一步細化并設計相應的維度分析模型。
基于這些分析主題域建立相應的維度分析模型。在建模中,就可以確定ODS模型存貯的數(shù)據(jù),其中如圖3的財務分析域主要來自財務主題域的分析成果。
2.4數(shù)據(jù)管理體系設計
數(shù)據(jù)管理體系包括管理目標、管理內容、管理環(huán)節(jié)、保障體系、管理工具五方面內容。本設計的核心內容是數(shù)據(jù)質量、數(shù)據(jù)安全、數(shù)據(jù)標準、基礎數(shù)據(jù)管理,從組織、標準、規(guī)程、技術四個方面構建完整的數(shù)據(jù)管理體系,對數(shù)據(jù)采集、傳輸、存儲、應用全生命周期進行管理。
圖4 數(shù)據(jù)管理體系設計圖
數(shù)據(jù)管理內容包括數(shù)據(jù)安全管理、數(shù)據(jù)質量管理、數(shù)據(jù)標準管理和基礎數(shù)據(jù)管理四部分內容。其中,圖4中數(shù)據(jù)標準管理是為全面加強企業(yè)數(shù)據(jù)管理,適應全公司數(shù)據(jù)集中管理與應用的需要,要結合企業(yè)數(shù)據(jù)管理需求,制定數(shù)據(jù)管理規(guī)范和技術技術標準。企業(yè)數(shù)據(jù)安全管理應該是整個企業(yè)信息化安全體系的一個組成部分,在整體安全體系規(guī)劃下建設數(shù)據(jù)安全系統(tǒng)。數(shù)據(jù)安全管理主要包括安全管理體系、安全架構、認證管理、容災備份管理等內容。
2.5數(shù)據(jù)采集與應用集成實踐
系統(tǒng)集成與數(shù)據(jù)采集是數(shù)據(jù)倉庫建設的核心工作內容,與數(shù)據(jù)填報共同組成數(shù)據(jù)倉庫數(shù)據(jù)收集的通道。通過對企業(yè)數(shù)據(jù)集成現(xiàn)狀的分析和數(shù)據(jù)采集與實施需求的理解,此次數(shù)據(jù)采集與實施的設計思路是以需求為驅動,充分考慮利用統(tǒng)一數(shù)據(jù)總線平臺現(xiàn)有資源,沿用企業(yè)數(shù)據(jù)標準,并采用閉環(huán)的采集流程設計,滿足該發(fā)電企業(yè)數(shù)據(jù)倉庫建設中的數(shù)據(jù)集成需求[4]。
通過業(yè)務系統(tǒng)分析,近年來,該發(fā)電企業(yè)先后建設了綜合計劃、綜合統(tǒng)計、股權管理、對標管理等業(yè)務管理系統(tǒng),使得業(yè)務管理與信息技術的融合不斷深化;同時還開展了集團ERP系統(tǒng)、主數(shù)據(jù)管理系統(tǒng)、燃料管理系統(tǒng)等信息系統(tǒng)的實施與應用。
根據(jù)數(shù)據(jù)倉庫建設要求,系統(tǒng)集成主要實現(xiàn)數(shù)據(jù)集成和應用集成,其中數(shù)據(jù)集成主要實現(xiàn)各業(yè)務系統(tǒng)與數(shù)據(jù)倉庫之間的數(shù)據(jù)交互,包括數(shù)據(jù)倉庫從業(yè)務系統(tǒng)采集業(yè)務數(shù)據(jù)、業(yè)務系統(tǒng)從數(shù)據(jù)倉庫獲取其他行業(yè)或業(yè)務域的共享數(shù)據(jù)、分析系統(tǒng)從數(shù)據(jù)倉庫獲取分析數(shù)據(jù);應用集成主要實現(xiàn)各業(yè)務系統(tǒng)之間直接進行數(shù)據(jù)交互的場景,即實現(xiàn)各組織層級應用系統(tǒng)之間的業(yè)務流程數(shù)據(jù)交互。
3 結論
總之,企業(yè)數(shù)據(jù)倉庫作為企業(yè)信息化的基礎技術平臺,是在企業(yè)應用系統(tǒng)建設基礎上,為了進一步挖掘數(shù)據(jù)資源、為了決策支持需求而建設。在其設計中應充分圍繞項目的業(yè)務需求分析、數(shù)據(jù)模型需求分析、功能需求分析和性能需求分析等方面開展。以實現(xiàn)以實際企業(yè)業(yè)務需求為導向,搭建企業(yè)數(shù)據(jù)倉庫,充分挖掘與發(fā)揮數(shù)據(jù)應用價值,構建橫向融合、縱向貫通的應用集成體系,最終為企業(yè)實現(xiàn)全面的綜合分析系統(tǒng)建設奠定堅實的數(shù)據(jù)基礎。
參考文獻:
[1] 李於洪. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘導論[M]. 北京: 經(jīng)濟科學出版社, 2012.
[2] 袁文禮. 基于數(shù)據(jù)倉庫技術設計與實現(xiàn)的科技數(shù)據(jù)管理系統(tǒng)[J]. 電腦知識與技術, 2014(10).
關鍵詞:數(shù)據(jù)庫 數(shù)據(jù)倉庫 決策支持系統(tǒng)
數(shù)據(jù)倉庫(Data Warehouse)是在當前已存在大量數(shù)據(jù)庫的前提下,為了進一步分析數(shù)據(jù)而產(chǎn)生的。本文通過調查當前高校的實際情況,嘗試提出一套成熟、低價、高質的部署方案,用以提高數(shù)據(jù)倉庫架設的成功率并減少相應的投資,從而提高當前高校師生信息的管理與評判效率。
一、高校部署數(shù)據(jù)倉庫的意義與目的
當前高校的各個部門,幾乎都需要相應的數(shù)據(jù)庫保存師生的各類信息數(shù)據(jù)。而高校引入數(shù)據(jù)倉庫技術,可以加強對教師工作的考核評估,以及對學生成績的管理分析。高校數(shù)據(jù)倉庫的架設主要實現(xiàn)以下目的:
1.從不同種類的數(shù)據(jù)源收集數(shù)據(jù)。當前高校各部分數(shù)據(jù)儲存混亂,難以整合,數(shù)據(jù)倉庫的建立可以支持從這些不同的數(shù)據(jù)源收集數(shù)據(jù),加以管理。
2.能夠有效地獲取當前和歷史數(shù)據(jù)。數(shù)據(jù)倉庫不但可以對當前數(shù)據(jù)進行分析,對于長期儲存的歷史數(shù)據(jù)同樣可以進行有效的管理。
3.建立人性化的決策支持系統(tǒng)(Decision Support System)。數(shù)據(jù)倉庫的建立是為了對數(shù)據(jù)進行分析,所以數(shù)據(jù)倉庫是高校建立有效的決策支持系統(tǒng)的基礎。
二、高校數(shù)據(jù)倉庫結構設計
為降低高校數(shù)據(jù)倉庫架設的風險,應選用成熟的數(shù)據(jù)倉庫基礎結構,使用Sybase IWS (Industry Warehouse Studio)可提供完善的解決方案。根據(jù)當前高校機構設置情況,數(shù)據(jù)倉庫的架設結構如圖1所示。高校數(shù)據(jù)倉庫架設的是以數(shù)據(jù)倉庫技術為基礎,以BI和DSS工具為手段的一整套解決方案,其結構主要應由以下三部分組成。
1.數(shù)據(jù)源。將當前高校各部門繁雜無序的數(shù)據(jù)利用一定方法提取、整合,再結合未來高校發(fā)展的需要建立數(shù)據(jù)庫邏輯模型,然后在此基礎上構造物理模型。
2.數(shù)據(jù)管理分析(DW、BI、DSS)。這部分是數(shù)據(jù)倉庫的核心,采用并行處理的關系數(shù)據(jù)庫管理系統(tǒng),對集成的數(shù)據(jù)進行分析處理。
3.用戶訪問。這部分為可交互的前端圖形用戶界面,用戶可根據(jù)職務授予不同的訪問權限,對數(shù)據(jù)倉庫中的信息進行調取。
由于當前高校所需的數(shù)據(jù)管理任務沒有大型企業(yè)的復雜,所以在硬件層面的投資不必過大,可以使用一臺IBM小型機作為應用服務器和WEB服務器。開發(fā)軟件方面,由于采用Sybase IWS平臺,可使用Power Designer對當前高校所需的管理信息系統(tǒng)進行分析設計,結合PowerBuilder數(shù)據(jù)庫設計軟件來達到縮短開發(fā)時間和優(yōu)化系統(tǒng)的目的。
三、高校數(shù)據(jù)倉庫架設可行性評估
雖然數(shù)據(jù)倉庫的建立對高校管理決策有著十分重要的意義,但在架設初期為了明確實施方案、避免盲目投資,應對以下幾個方面進行規(guī)劃評估。
1.數(shù)據(jù)整理搜集。數(shù)據(jù)倉庫最終能否成功架設并成為高校決策的有利工具,取決于能否完整搜集整理當前繁雜的用戶數(shù)據(jù)。推薦使用執(zhí)行效率較高的Star Schema數(shù)據(jù)設計思路,對數(shù)據(jù)表進行重新劃分。
2.系統(tǒng)安全性。作為高校信息系統(tǒng)的一部分,數(shù)據(jù)倉庫的安全性也是必須重視的一個關鍵點。最終用戶需要建立分級機制,以便實現(xiàn)不同的操作權限。
3.投資與回報。數(shù)據(jù)倉庫的架設不單是IT技術方面的問題,也需要精確的控制投資預算,才能夠確保項目不會因為資金使用不當?shù)葐栴}而最終流產(chǎn)。
總之,數(shù)據(jù)倉庫的架設使高校能夠快速步入信息化軌道,有效提高校內決策的效率與準確性。本文通過對數(shù)據(jù)倉庫技術的分析,闡述了一套高效的、低成本的高校數(shù)據(jù)倉庫架設方法。需要說明的是,在實際架設過程中仍會遇到很多不可預見的問題,這就需要對現(xiàn)實情況中的高校數(shù)據(jù)結構進行更詳細地分析規(guī)劃,最大限度地降低數(shù)據(jù)倉庫部署風險。
參考文獻
近年來,隨著信息化建設的不斷推進,農(nóng)信社已經(jīng)積累了大量的歷史數(shù)據(jù),但是這些數(shù)據(jù)卻被埋藏在計算機系統(tǒng)中未被加以利用,存在“數(shù)據(jù)豐富,信息貧乏”的數(shù)據(jù)囚籠現(xiàn)象。隨著大數(shù)據(jù)時代的到來,如何充分挖掘和運用好這些規(guī)模龐雜、充滿價值的海量數(shù)據(jù),成為農(nóng)信社能否在大數(shù)據(jù)時代獲得核心競爭力的重要課題。
路徑探析:數(shù)據(jù)倉庫破解數(shù)據(jù)管理難題
“大數(shù)據(jù)”時代,將海量數(shù)據(jù)管理好、運用好,將是農(nóng)信社面臨的重大考驗。而數(shù)據(jù)倉庫的六項價值“能快速、及時、方便、準確而安全地訪問整合過的數(shù)據(jù)”恰恰符合大數(shù)據(jù)時代要求。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、動態(tài)的、連續(xù)的數(shù)據(jù)集合。它不是數(shù)據(jù)的簡單堆積,而是從容量龐大的業(yè)務處理型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其清理、轉換為新的存儲格式,即根據(jù)決策目標將存儲于數(shù)據(jù)庫中對決策分析所必需的、歷史的、分散的、詳細的數(shù)據(jù),經(jīng)處理轉換成集中統(tǒng)一的、隨時可用的信息。
從目前農(nóng)信社的信息建設及數(shù)據(jù)管理現(xiàn)狀看,建設數(shù)據(jù)倉庫具有重要的現(xiàn)實意義。
第一,有助于了解自身的經(jīng)營狀況。農(nóng)信社高效、安全經(jīng)營的前提和基礎就是其決策者對自身經(jīng)營狀況有一個全面的了解和認識。數(shù)據(jù)倉庫系統(tǒng)為我們及時、準確、全面地掌握自己的資產(chǎn)負債數(shù)量及其分布、頭寸調度情況、信貸資產(chǎn)分布情況、客戶的信用情況等,提供了必須的服務手段和有力的技術支撐。
第二,有助于進行市場細分,進而開發(fā)新產(chǎn)品,拓展新市場,獲得“深度效益”。對農(nóng)信社而言,客戶就是資產(chǎn),客戶就是價值,客戶就是發(fā)展的源動力。分析客戶個性化需求,提供滿意的客戶服務,是提高市場占有率、獲得最大利潤的關鍵。然而如何將我們擁有的百余萬客戶進行細分,從而設計大量定制化的產(chǎn)品或服務呢?只有通過以客戶為中心的決策支持系統(tǒng),才能使用科學的方法實現(xiàn)個性化服務。建設數(shù)據(jù)倉庫后,系統(tǒng)中存放著每一位客戶同銀行往來的詳細的歷史交易明細數(shù)據(jù),對客戶有統(tǒng)一的規(guī)劃,能幫助我們以科學的手段快速地分析、模擬和預測客戶的個性化需求,進而設計符合客戶需求的產(chǎn)品或服務。
第三,有助于經(jīng)營管理和決策支持。任何企業(yè)經(jīng)營管理方案的確定和未來戰(zhàn)略決策的產(chǎn)生,都要以對現(xiàn)實的分析和對未來的預測為基礎,都要以準確的數(shù)字為依據(jù)。借助數(shù)據(jù)倉庫系統(tǒng),能進行不同業(yè)務產(chǎn)品的盈利性分析和風險性分析,因此數(shù)據(jù)倉庫系統(tǒng)為商業(yè)銀行提供了綜合不同運行平臺上的業(yè)務數(shù)據(jù),并結合外部信息匯集在一起萃取出銀行策略的途徑。建設銀行從2005年開始啟動數(shù)據(jù)倉庫建設,至2012年已完成第五期項目工程建設。建行的數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)模型整合了63個源系統(tǒng)數(shù)據(jù),部署運行了50多個獨立應用服務,并向20多個下游系統(tǒng)提供數(shù)據(jù)支持。通過建設數(shù)據(jù)倉庫,建行整合了全行數(shù)據(jù)資源,建立統(tǒng)一的數(shù)據(jù)質量監(jiān)控體系,為全行客戶分析、監(jiān)管合規(guī)、財務績效、運營管理、風險管理提供了有力的支撐。
第四,有助于科學配置各類資源。利用數(shù)據(jù)倉庫系統(tǒng),農(nóng)信社可以有效地對內部的各種資源(如人力資源、網(wǎng)點資源、產(chǎn)品資源、物質資源等等)進行科學調配,以盡可能地達到資源的最優(yōu)化配置,使現(xiàn)有資源發(fā)揮出最大的效能。例如,我們可以根據(jù)網(wǎng)點每日的業(yè)務量及業(yè)務種類,合理配置人員、柜臺數(shù)量、ATM數(shù)量等。可以通過數(shù)據(jù)模型分析每臺ATM設備的投放效益,結合歷史數(shù)據(jù)分析制定ATM設備備付金的存放額度,優(yōu)化提高備付金利用率。
付諸行動:農(nóng)信數(shù)據(jù)倉庫的建設路徑
建設數(shù)據(jù)倉庫是一個長期的、持續(xù)的過程,不可能一蹴而就,需要在合理的整體規(guī)劃和科學的體系架構基礎上,分階段分步驟地實施。例如廣發(fā)銀行啟動大數(shù)據(jù)實施戰(zhàn)略之后,先請咨詢公司進行了為期9個月的數(shù)據(jù)標準化咨詢項目,對全行的數(shù)據(jù)標準進行規(guī)劃、梳理并初步建立數(shù)據(jù)管控框架體系,為后續(xù)的數(shù)據(jù)倉庫建設掃清障礙,鋪平道路。
農(nóng)信社數(shù)據(jù)庫建設首先要確立階段劃分原則:一是確立以業(yè)務價值為導向的原則。建設數(shù)據(jù)平臺的根本目的是為了業(yè)務發(fā)展更加順暢,信息更加透明,管理更加精細,而不是為了建平臺而建平臺,因此每個階段都必須包含其業(yè)務價值。二是確立從技術導向轉變?yōu)闃I(yè)務導向的原則。數(shù)據(jù)平臺的初期,涉及大量的基礎技術平臺的搭建,而中期必須轉變這種狀態(tài),以業(yè)務應用、專題集市為主要建設內容。三是確立“養(yǎng)育數(shù)據(jù)”原則。數(shù)據(jù)平臺數(shù)據(jù)的積累包括兩個方面:深度(時間的積累)、廣度(數(shù)據(jù)源的積累),需要按重要程度,分批接入數(shù)據(jù)平臺。
一是通過批量的方式從生產(chǎn)系統(tǒng)數(shù)據(jù)庫抽取數(shù)據(jù),通過數(shù)據(jù)模型的整合,消除分布在不同系統(tǒng)間的數(shù)據(jù)沖突,并從企業(yè)級角度構建數(shù)據(jù)唯一視圖;二是通過一次性的加工,根據(jù)整體業(yè)務需要,對數(shù)據(jù)進行匯總并計算出指標,為所有營運系統(tǒng)提供一致化的所有數(shù)據(jù),既避免了各營運系統(tǒng)的重復計算,減少整體的處理時間,也保證了各個營運系統(tǒng)指標的一致。三是基礎數(shù)據(jù)平臺通過批量總線從所有生產(chǎn)系統(tǒng)的數(shù)據(jù)庫抽取數(shù)據(jù)進行加工處理,也通過批量總線向營運系統(tǒng)提供加工結果數(shù)據(jù)。
關鍵詞:數(shù)據(jù)倉庫;水文數(shù)據(jù);邏輯模型;價值挖掘
水文數(shù)據(jù)在水利行業(yè)數(shù)據(jù)中占有重要位置,它通過水文測驗收集各種水文要素的原始記錄,經(jīng)過統(tǒng)一的標準和規(guī)格,整理成簡明、系統(tǒng)的水文數(shù)據(jù)及數(shù)據(jù)庫。新世紀以來,水文遙感、水文示蹤、地理信息系統(tǒng)和云計算等新技術的快速發(fā)展,為深入挖掘水文時間、空間變化規(guī)律提供了技術可能。借助于神經(jīng)網(wǎng)絡、決策樹方法、統(tǒng)計分析方法等,再配合前端數(shù)據(jù)可視化技術,讓我們可以有目的、有組織地去發(fā)現(xiàn)水文數(shù)據(jù)內在的規(guī)律和價值,提供面向主題的快速數(shù)據(jù)分析、預測預報等功能,實現(xiàn)支持決策和服務社會的目標。
1需求分析
水文數(shù)據(jù)按決策、服務對象和適用范圍可分為通用數(shù)據(jù)庫和專用數(shù)據(jù)庫,原始實測數(shù)據(jù)是基礎。通用數(shù)據(jù)庫主要存儲歷年基本水文數(shù)據(jù),如簡單加工數(shù)據(jù)、資料整編后的數(shù)據(jù)等,為社會各行業(yè)和其他用戶提供基礎服務。專用數(shù)據(jù)庫主要存儲實時數(shù)據(jù)、二次加工處理和分析計算數(shù)據(jù),為政府、水利專業(yè)和特定用戶提供服務,如水文情報預報專用庫、工程水文計算專用庫等。水文原始實測數(shù)據(jù)本身難以滿足復雜多樣的水文決策和服務需求,需要充分利用數(shù)據(jù)挖掘技術對水文數(shù)據(jù)進行分析和發(fā)現(xiàn),提取出在水資源管理、防災減災等經(jīng)濟社會科學發(fā)展方面有用的信息。
1.1洪水周期性
洪水由自然和人為因素共同作用形成,洪災是我國發(fā)生頻率高、危害范圍廣、對國民經(jīng)濟影響最為嚴重的自然災害,亦是威脅人類生存的十大自然災害之一。以貴州省遵義市為例:2015年汛期共出現(xiàn)暴雨過程18次,造成12個縣(市、區(qū))77個鄉(xiāng)(鎮(zhèn))遭受不同程度的洪澇災害,受災人口12.6656萬人,損壞房屋226間,農(nóng)作物受災面積8.471萬畝,直接經(jīng)濟損失12888.305萬元。面對洪災造成的巨大損失,只有了解洪水、掌握洪水、利用洪水,才能把損失降到最低。通過對洪水周期性的研究,從水文序列數(shù)據(jù)中找出洪水重復出現(xiàn)的概率和路徑,進而對洪水進行預測預報預防。
1.2水文相似性
水文相似性是指找出與給定序列最接近的其它水文序列。找出與給定序列相似的所有數(shù)據(jù)序列稱為子序列匹配,找出彼此間相似的序列稱為整體序列匹配。查找水文序列相似性就是要在水文序列中,找出各類相似的子序列。可用于洪水過程預測、環(huán)境演變分析、水文過程規(guī)律分析等方面,最為直接的支持決策應用,如:防汛指揮中“當前洪水相當于歷史上哪一次洪水?”。
2水文數(shù)據(jù)倉庫模型設計
2.1總體結構
水文數(shù)據(jù)主要表現(xiàn)為水文時間序列,水文數(shù)據(jù)倉庫由水文時間序列元數(shù)據(jù)集合而成,按對象的主題要求形成水文基本數(shù)據(jù)層,隨時間變化轉為歷史數(shù)據(jù),通過對歷史水文數(shù)據(jù)集合進行分析,建立單一或者一組模型,由所建立的模型對新數(shù)據(jù)集合的可能行為做出預測預報。水文數(shù)據(jù)倉庫模型設計采用三層結構體系,由倉庫數(shù)據(jù)庫服務器、OLAP服務器和前端客戶層組成。
2.2邏輯模型
基于星形模式組織的多維數(shù)據(jù)模型適用于面向預測預報的水文數(shù)據(jù)模型,水文數(shù)據(jù)倉庫包含1個事實表(即一個大的中心表)和5個維表(即附屬表)。事實表中包含時間、行政區(qū)劃、流域、河流、地理信息5個維表和降雨量、水位、流量、水溫、含沙量等屬性。其中,每個維表包含1組由底層映射到一般高層的屬性概念,如行政區(qū)劃維表由屬性省、市、縣形成一種層次,即:省-市-縣;地理信息維表由屬性地形、地貌、地質形成一種層次,即:地形—地貌—地質。水文數(shù)據(jù)倉庫星形邏輯模型如圖2所示。建立邏輯模型后,其中的水文數(shù)據(jù)是隨著時間變量動態(tài)變化的,降水量、水位、流量、水溫等會有不同的變化,實際操作中,可根據(jù)不同預測預報模型的應用需求,采取不同的數(shù)據(jù)分析方式。若對河道來水量進行預報,就要重點考慮水位、流量等屬性在空間維度上的變化情況,以及河流上游、下游一定距離間的水位、流量相關關系,建立對應函數(shù)關系。若做中長期水文預報,就要對各水文測站的歷史數(shù)據(jù)在多層次的時間維度上,根據(jù)所建立的回歸分析函數(shù),選擇合適的預報因子進行分析。若對降雨徑流過程進行預報,就需要對流域的全面屬性,如降雨、徑流量、地理信息等在時間維度和屬性維度上進行多維立體分析,得到模型對應函數(shù)關系,確定計算參數(shù),進行計算和驗證。
2.3創(chuàng)建數(shù)據(jù)倉庫
2.3.1元數(shù)據(jù)庫
在水文數(shù)據(jù)倉庫中,定義倉庫對象的水文監(jiān)測數(shù)據(jù)就是元數(shù)據(jù)。在水文時間、空間信息中用于描述水文數(shù)據(jù)集的內容、質量、表示方式、空間參考、管理方式以及數(shù)據(jù)集的其他特征。由目錄信息和詳細信息兩個層組成。
2.3.2創(chuàng)建水文數(shù)據(jù)倉庫
數(shù)據(jù)庫水文數(shù)據(jù)倉庫數(shù)據(jù)庫可以在關系數(shù)據(jù)庫中按照通用的建立數(shù)據(jù)庫的方法進行創(chuàng)建。把水文數(shù)據(jù)倉庫數(shù)據(jù)庫中設計的表創(chuàng)建好,數(shù)據(jù)類型依據(jù)原始數(shù)據(jù)庫中的各個表和字段的數(shù)據(jù)類型設置。將從業(yè)務系統(tǒng)或外部系統(tǒng)中獲得的數(shù)據(jù),轉換和清洗成數(shù)據(jù)倉庫需要的格式和形態(tài),并在規(guī)定的時間內裝入數(shù)據(jù)倉庫。
2.4水文數(shù)據(jù)分析
水文數(shù)據(jù)通過聯(lián)機分析處理可以用不同的格式組織和提供數(shù)據(jù),以滿足水文數(shù)據(jù)分析的需求。基于多維數(shù)據(jù)模型,通過分析對象主題來對數(shù)據(jù)進行組織,并根據(jù)需求添加不同的數(shù)據(jù)集市的數(shù)據(jù)。其結果可以作為簡單數(shù)據(jù)挖掘的結果,也可以作為深度數(shù)據(jù)挖掘需要的預處理數(shù)據(jù)集合。
3結語
由于水文數(shù)據(jù)量大,影響預測的因素多,相比傳統(tǒng)的水文預測方法,數(shù)據(jù)挖掘技術可以智能地從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中提取出有用信息,建立起誤差小、精度高的水文預測模型。利用數(shù)據(jù)倉庫從歷史數(shù)據(jù)中挖掘水文現(xiàn)象所隱含的價值,完全可以滿足水文決策和服務的需求,但是水文數(shù)據(jù)倉庫模型的應用也需要我們在實踐中反復的試驗和驗證,根據(jù)河流的不同特性,找到符合實際的參數(shù)設置,最終得到接近真實的預測預報結果。
參考文獻
[1]艾萍,宋海波,馮鵬.一種支持水文信息組織數(shù)據(jù)倉庫的模型[J].信息技術,2013,27(07),27-30.
[2]尹濤,關興中,萬定生.數(shù)據(jù)挖掘技術在水文數(shù)據(jù)分析中的應用[J].計算機工程與設計,2012,33(12),4721-4725.
【關鍵詞】港口 數(shù)據(jù)倉庫設計
數(shù)據(jù)倉庫是一個新的概念,數(shù)據(jù)倉庫的設計能夠明確任務的主題,對港口的數(shù)據(jù)進行統(tǒng)一全面的概括,保證數(shù)據(jù)的更新、可靠。能夠實現(xiàn)當前與歷史數(shù)據(jù)的聯(lián)機處理以及報表處理,依據(jù)不同的角度對數(shù)據(jù)進行分析,明確數(shù)據(jù)中的隱藏信息,使港口經(jīng)營管理決策能夠有科學的依據(jù)。
1 港口數(shù)據(jù)倉庫概述
對港口的業(yè)務流程進行分析主要是對港口數(shù)據(jù)倉庫的概念模型進行明確,這對于港口數(shù)據(jù)倉庫建設的效果有著至關重要的影響。港口生產(chǎn)是港口企業(yè)生存發(fā)展的重要活動,處于核心位置,因此港口數(shù)據(jù)倉庫的實施要先從港口生產(chǎn)開始。
1.1 分析生產(chǎn)業(yè)務
港口生產(chǎn)主要是為了提高港口人力、設備的使用效率,高效、安全、優(yōu)質的實現(xiàn)陸運以及航運網(wǎng)絡中的貨物以及旅客的轉運。
1.2 分析數(shù)據(jù)源
港口生產(chǎn)業(yè)務是多個部門進行開展的,不同部門有各自的數(shù)據(jù)庫,在港口信息化建設快速發(fā)展的今天,數(shù)據(jù)庫中數(shù)據(jù)數(shù)量逐漸增多,面對大量的、復雜的數(shù)據(jù),如果不能科學高效的利用,就會使得信息資源被浪費,進而造成數(shù)據(jù)災難,為了更加科學合理的使用港口數(shù)據(jù)資源,需要明確港口的具體情況,建立完善的港口數(shù)據(jù)倉庫,實現(xiàn)數(shù)據(jù)的獲取、儲存以及輸出工作。港口的原始數(shù)據(jù)主要有業(yè)務數(shù)據(jù)以及遺留的數(shù)據(jù),這些數(shù)據(jù)被保存在信息管理系統(tǒng)的數(shù)據(jù)庫中和單獨的平面文件中。數(shù)據(jù)倉庫設計中,需要明確其關鍵技術以及目標,實現(xiàn)多維數(shù)據(jù)模型,為管理層提供科學的決策依據(jù)。
2 港口數(shù)據(jù)倉庫設計分析
2.1 明確任務主題
在港口管理人員看來,工作中關心的主要維度和指標有時間、地點、貨物號、船號、貨主號、貨物的重量、吞吐量、金額、以及交易的次數(shù)等。在明確數(shù)據(jù)倉庫主題以及模型構建過程中需要以這些內容作為出發(fā)點,詳細了解管理人員的需要以及港口業(yè)務的流程,明確港口數(shù)據(jù)倉庫的運營分析、客戶分析、船舶進出港分析、貨物進出港分析、設備資產(chǎn)管理等主題。其口的經(jīng)營是港口工作中最基本的活動,也是各項分析工作開展的前提和基礎,因此本文主要以經(jīng)營分析主題進行數(shù)據(jù)倉庫的設計。
2.2 建立數(shù)據(jù)模型
進行港口數(shù)據(jù)倉庫設計建設一般需要3級數(shù)據(jù)模型的方法,主要有概念模型、邏輯模型以及物理模型。這3級數(shù)據(jù)模型分別與數(shù)據(jù)倉庫中的信息包圖設計、星形圖設計以及物理數(shù)據(jù)模型設計相對應。
首先是設計概念模型,也就是分析需求,在和用戶的交流中,了解建立數(shù)據(jù)庫的數(shù)據(jù)源,使建立后的數(shù)據(jù)模型容易被理解,并且能夠實現(xiàn)數(shù)據(jù)的查詢以及映射,能夠為數(shù)據(jù)倉庫使用者的決策提供依據(jù)。根據(jù)當前港口生產(chǎn)的實際情況,需要數(shù)據(jù)倉庫能夠提供一定的功能,主要有比較分析不同時間、地點、貨主的生產(chǎn)情況;交易中,哪些貨主以及貨物的數(shù)量大,并且港口獲利較多;貨主通常使用何種船只、運輸?shù)呢浳锓N類以及存放地點等。
數(shù)據(jù)倉庫具有多維性,原有的數(shù)據(jù)流程圖已經(jīng)不能滿足分析的需要,而超立方體的直觀性不強,數(shù)據(jù)的采集以及表示都有一定的難度。因此可以使用信息包的方法進行多維數(shù)據(jù)的表示,根據(jù)用戶需要建立信息包,通過二維表格對信息需求的多樣性進行表示。
其次是設計邏輯模型,完成了信息包表的建設后,需要將信息包表轉化為星形圖。首先對指標實體進行定義,主要包括數(shù)據(jù)和邏輯指標。星形圖中的數(shù)據(jù)指標是信息包圖中的指標對應,信息包表中,不同維度的最低級類別能夠被歸入邏輯指標中,得到的數(shù)據(jù)、邏輯指標共同組成了星形圖中的指標實體。然后是維度實體,與信息包圖中的維度對象相對應。設計完指標以及維度實體后就需要對二者的關系進行設計,他們是一對多的關系。
最后是設計物理模型,上述工作完畢后,需要對數(shù)據(jù)倉庫中的事實表以及維度表的物理結構及關系進行明確。
邏輯設計后的星形圖能夠更加便利對物理數(shù)據(jù)結構進行定義,實現(xiàn)指標實體與維度實體向事實表以及維度表的轉化。事實表主要包括星形圖中心的指標量和星形圖角上的維度實體中的主碼值。不僅要建設物理數(shù)據(jù)結構,還需要明確數(shù)據(jù)標準,了解命名的約定,其數(shù)據(jù)種類、限制條件等。定義實體,星形圖能夠對面向主題的數(shù)據(jù)倉庫的共享實體進行明確,對其屬性進行完整定義。還需要明確實體的特征,有值的長度、種類。
3 數(shù)據(jù)倉庫的生成
完成數(shù)據(jù)倉庫模型建設后,就需要將原有的信息數(shù)據(jù)導入到數(shù)據(jù)倉庫中,利用數(shù)據(jù)轉換服務實現(xiàn)異種數(shù)據(jù)源之間的轉化,進行數(shù)據(jù)的抽取、處理以及裝載。依據(jù)主題從原始數(shù)據(jù)庫中抽取出與主題相適應的數(shù)據(jù),對于不一致的數(shù)據(jù)要進行轉變,達到數(shù)據(jù)倉庫的統(tǒng)一規(guī)定,并將數(shù)據(jù)按照數(shù)據(jù)倉庫的格式進行載入。
4 結束語
在長期的信息化作業(yè)中,港口企業(yè)積累了大量的數(shù)據(jù),怎樣將這些數(shù)據(jù)轉化為實用的知識,作為管理人員的決策依據(jù)就是當前需要解決的重要問題,數(shù)據(jù)倉庫的設計與建設能夠為港口企業(yè)的發(fā)展提供良好的環(huán)境氛圍,充分挖掘數(shù)據(jù)了解潛在內容,促進港口企業(yè)實現(xiàn)良好的發(fā)展與進步。
參考文獻
[1]韓蕾.數(shù)據(jù)倉庫和OLAP在港口物資管理中的應用[J].電腦知識與技術,2014,18:4117-4120.
[2]黃曉穎,李亞芬,王普.基于數(shù)據(jù)倉庫的學科建設決策支持系統(tǒng)的設計[J].計算機工程與設計,2010,23:4995-4998.
[3]劉益江,毛寧,陳慶新.一種評估數(shù)據(jù)倉庫設計質量的方法[J].計算機技術與發(fā)展,2012,09:161-165.
作者簡介
葉艷霞(1983-),女,河北省廊坊市人。碩士學位。現(xiàn)供職于天津港信息技術發(fā)展有限公司。
關鍵詞 數(shù)據(jù)倉庫;OLAP;數(shù)據(jù)分析;決策
中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2013)19-0063-01
當下信息技術快速發(fā)展,用戶對于信息處理的需求越來越高,這些主要包括的是基于數(shù)據(jù)庫技術的迅速發(fā)展以及當前社會對于數(shù)據(jù)庫管理系統(tǒng)的廣泛應用。在這樣一個基本情況下人們希望對其進行高層次分析,以便于激增數(shù)據(jù)背后隱藏著的許多重要信息,以便更好地利用這些數(shù)據(jù),更好的利用這些數(shù)據(jù)達到不同的目的,于是數(shù)據(jù)倉庫技術和OLAP技術就應運而生了。
1 數(shù)據(jù)倉庫OLAP特征
1.1 數(shù)據(jù)倉庫的基本特征
1)數(shù)據(jù)倉庫面向主題。筆者所說的數(shù)據(jù)倉庫是從整體、全局的角度來衡量的,這些主題在企業(yè)中是有相關的關聯(lián)作用的,和以往傳統(tǒng)的操作型系統(tǒng)進行相關的對比,這樣的作用在一個完整的企業(yè)或組織中固有的業(yè)務主題下,是作為處理的主體來運行執(zhí)行的,我們所知的傳統(tǒng)的操作型系統(tǒng)是就針對組織與此相關一段時間內的業(yè)務中,統(tǒng)計以及分析的工作相對而言,其主要的作用是圍繞應用和針對具體業(yè)務的各個方面設計和解決問題的,這是一個相對于比較科學的方法和相關途徑。
2)數(shù)據(jù)倉庫的非易失性。在一般的數(shù)據(jù)倉庫中,數(shù)據(jù)主要是從事務操作型數(shù)據(jù)中依次抽取出來的,這樣的做法反映了在早期的一段時間內歷史相關性的數(shù)據(jù),而其本質就是基于快照的統(tǒng)計和不同時間點相關的數(shù)據(jù)庫快照集合以及綜合和重組,所以在進行處理時一旦事務操作型的相關數(shù)據(jù)進入數(shù)據(jù)倉庫,我們所能做的就是只要數(shù)據(jù)沒有超過數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,我們對此一般不對數(shù)據(jù)進行更新操作,只進行簡單的查詢工作。
1.2 OLAP的基本概念
OLAP是指分析人員、執(zhí)行人員或者管理人員對信息數(shù)據(jù)有深刻認識的相關工具,它保證訪問過程的迅捷性,并且可以訪問各種可能的數(shù)據(jù)信息;除此之外,訪問手段的交互性以及訪問數(shù)據(jù)的相關一致性支持復雜的分析操作工作,其使用優(yōu)勢是操作側重決策支持,并提供直觀的查詢結果,數(shù)據(jù)倉庫系統(tǒng)的主要應用OLAP的特征可以概括為多維性、分析性、快速響應性、共享性和信息性。
1)OLAP的多維性。多維性一直是OLAP的關鍵屬性,然而事實上,筆者認為,多維法人分析性是分析企業(yè)對于相關數(shù)據(jù)的最有效也是最安全的方法,甚至可以說是OLAP的核心所在;這只要是由于系統(tǒng)必須提供對相關數(shù)據(jù)進行分析的多維分析,這就包括了對多重層次維和層次維完全的支持性工作。
2)OLAP的可分析性。OLAP的系統(tǒng)的連接可以直接接到其他外部分析的工具上,如在現(xiàn)實生活中的意外報警等。筆者認為其如果可以使用戶在工作中無需編程就達到可以定義新的專門計算,并且將其進一步作為分析參考的一部分,就可以使用戶理想的方式給出適合自身的報告,這個報告能處理與應用有關的任何邏輯分析和統(tǒng)計分析,這樣用戶就可以在OLAP平臺上進行簡單、易懂的數(shù)據(jù)分析,并且得到最終結果。
2 淺析數(shù)據(jù)倉庫與OLAP的關系
數(shù)據(jù)倉庫進一步發(fā)展是伴隨著信息化不斷普及產(chǎn)生,隨之而來的就是OLAP的進一步發(fā)展,OLAP作為一種在功能上多為查詢和分析的工具,是數(shù)據(jù)倉庫功能上的進一步發(fā)展,而支持管理中決策的過程就是建立數(shù)據(jù)倉庫的目的,所以基于在數(shù)據(jù)倉庫中的大量數(shù)據(jù)得以有效利用的很重要的保障;OLAP的出現(xiàn)無疑解決了這一問題,也是OLAP和數(shù)據(jù)倉庫兩者具有不同概念的基本分析點,但是在事實上這二者又是密不可分的,數(shù)據(jù)倉庫是一個大規(guī)模的數(shù)據(jù)庫,其包含了企業(yè)所有的歷史的數(shù)據(jù),這樣的數(shù)據(jù)庫主要的用途是在企業(yè)在決策中提供分析和支持的數(shù)據(jù),而OLAP技術則是在數(shù)據(jù)倉庫的基礎上進行聯(lián)機的技術性分析,中途運用聯(lián)機分析和可視化工具對于相關數(shù)據(jù)進行迅速的評價,將復雜的查詢結果快速的反饋給查詢用戶,幫助他們做出正確的決策,而數(shù)據(jù)倉庫是側重于管理和儲存主要用于決策主體,OLAP則是進行數(shù)據(jù)分析并且是多維性的,所以,筆者認為,OLAP和數(shù)據(jù)倉庫可以有效結合,以便于解決更多的問題。
3 基于數(shù)據(jù)倉庫的OLAP的核心技術
3.1 OLAP維和度量
筆者運用一個簡單實例進行闡述,在這里我們先假定某個個體商店,我們都知道有一些在商業(yè)上常見的因素就會影響他的銷售業(yè)務和利潤的額度,舉一些例子:如商品的品牌、進貨的月份等;在這里對于某一常見的商品,通常在一定情況下也許他只是想知道該商品在各大商場以及各個時間段的具體銷售情況,這樣的情況可能是針對于對某一特定的商店,可能商家想知道的是各商品在各段時間的具體銷售的基本情況,商家迫切的需要決策的相關信息支持來幫助制定相關具體的銷售政策,這里,特定的商店以及特定的時間和特定的產(chǎn)品都是筆者所說的維;由此推出的維有自己固有的相關屬性:在進行決策支持時這些屬性是非常有用的。
3.2 MOLAP以及ROLAP技術
1)ROLAP技術。在一次簡單的查詢操作中,用戶和分析人員可以應用存儲在維表中的用戶習慣描述也就是元數(shù)據(jù),來說明一個查詢需求,這樣做的好處是可以獲得查詢對象的事實值以及對數(shù)據(jù)的多維描述;和數(shù)據(jù)對應維上的維成員,并且在這種ROLAP模式中而這種需求可被ROLAP依靠維表轉換成維的代碼或值,完成用戶的最終需求以及對于數(shù)據(jù)信息請求。
2)MOLAP及時。筆者在這里介紹的OLAP系統(tǒng)在具體實施實現(xiàn)時,這種OLAP系統(tǒng)就是基于多維的,如果采用多維數(shù)據(jù)庫存儲OLAP顯示數(shù)據(jù),即我們所說的MOLAP。我們介紹的多維數(shù)據(jù)庫可在此系統(tǒng)中直觀地表達當前現(xiàn)實世界中多點對多點的關系。
4 結束語
當前,世界經(jīng)濟一體化的趨勢越發(fā)明顯,隨著跨領域產(chǎn)業(yè)和跨國公司的出現(xiàn),傳統(tǒng)的數(shù)據(jù)庫操作技術已不能滿足企業(yè)決策主題的需求,因此企業(yè)決策所需要的信息量會越來越大,所需要處理的信息量也會越來越大。而當前的OLAP技術正好具有這樣一個靈活分析的功能,能夠直觀的進行數(shù)據(jù)操作和分析,并且還具有結果可視化表示等突出優(yōu)點,這樣的技術有利于幫助用戶迅速做出正確的判斷,使用戶在進行大量復雜數(shù)據(jù)的分析變得輕松而高效,從而為企業(yè)的決策支持提供很多服務以及平臺。因此,筆者認為有效的構建和使用數(shù)據(jù)倉庫以及OLAP技術能為企業(yè)做出科學決策提供更優(yōu)越的平臺。
參考文獻
[1]華冠萍.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP之兩兩關系[J].福建電腦,2007(8).
為了屏蔽各種源系統(tǒng)的差異性,該系統(tǒng)設計并實現(xiàn)了經(jīng)營分析系統(tǒng)與數(shù)據(jù)源系統(tǒng)(如BOSS系統(tǒng))間的接口。同時,依據(jù)實體-關系建模理論,遵照第三范式,設計并實現(xiàn)了中國移動經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫底層實體-關系邏輯數(shù)據(jù)模型,對經(jīng)營分析系統(tǒng)中的指標進行了重新梳理,從而避免了歧義的產(chǎn)生,同時構建了數(shù)據(jù)質量管理體系。
兩種系統(tǒng)各司其職
中國移動經(jīng)營分析系統(tǒng)分為每級經(jīng)營分析系統(tǒng)和分級體系管理兩個部分。
每級(一級和二級)經(jīng)營分析系統(tǒng)建設主要包括:ETL子系統(tǒng)、數(shù)據(jù)倉庫子系統(tǒng)、OLAP和數(shù)據(jù)挖掘子系統(tǒng)、與源系統(tǒng)接口子系統(tǒng)、指標子系統(tǒng)和邏輯模型子系統(tǒng)等。分級體系管理包括一級與二級經(jīng)營分析系統(tǒng)間的接口管理、數(shù)據(jù)質量控制體系等內容。接口管理方面對有關的抽取數(shù)據(jù)內容給出了詳細的定義和描述,數(shù)據(jù)質量控制體系則給出了有關的詳細數(shù)據(jù)定義口徑,并給出了一些數(shù)據(jù)質量運算方法。
六大創(chuàng)新
該經(jīng)營分析系統(tǒng)主要創(chuàng)新點如下:
1.首次提出了分級式數(shù)據(jù)倉庫理論 針對移動通信數(shù)據(jù)規(guī)模大、變化快的特點,中國移動提出并實現(xiàn)了分級式數(shù)據(jù)倉庫體系結構,設計了分級式數(shù)據(jù)倉庫的構建方法,并解決了相關的技術、業(yè)務難題。
2.建設了世界上最大的數(shù)據(jù)倉庫系統(tǒng) 基于分級式數(shù)據(jù)倉庫理論,中國移動建成了世界上最大的數(shù)據(jù)倉庫,目前容量約為842TB。
3.國內首次設計并完成了面向移動通信行業(yè)的數(shù)據(jù)倉庫邏輯模型 移動通信數(shù)據(jù)包含了來自計費、客服、網(wǎng)管等各類異構數(shù)據(jù)資源的復雜數(shù)據(jù),這些復雜數(shù)據(jù)之間還包含著繁瑣的業(yè)務邏輯關系。針對移動通信數(shù)據(jù)資源和業(yè)務邏輯關系的特點,中國移動提出了面向移動通信數(shù)據(jù)倉庫的統(tǒng)一建模方法,并在經(jīng)營分析系統(tǒng)中實現(xiàn)了統(tǒng)一建模機制。
4.國內首次大規(guī)模采用了OLAP、數(shù)據(jù)挖掘等先進技術 根據(jù)經(jīng)營分析系統(tǒng)數(shù)據(jù)的特點,中國移動把數(shù)據(jù)倉庫劃分為客戶、賬務等主題域。同時緊密結合目前的市場經(jīng)營活動和市場部門的需求,選定了客戶分析等九大經(jīng)營分析主題。這些經(jīng)營分析主題反映了目前中國移動通信市場上比較有代表意義的經(jīng)營分析業(yè)務的需求,也提供了比較豐富的業(yè)務應用。
5.國內首次提出并實現(xiàn)了數(shù)據(jù)倉庫的數(shù)據(jù)質量管理體系 在結合移動通信數(shù)據(jù)特點的基礎上,針對數(shù)據(jù)質量的過程性特點,提出有針對性的數(shù)據(jù)質量保障方法,提出了在分級數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)質量的管理流程,并從業(yè)務統(tǒng)一和方便實現(xiàn)的角度,提出了進行實際的數(shù)據(jù)質量檢查時所應遵從的原則。
6.國內首次建立了數(shù)據(jù)倉庫建設、應用體系 在國內首次大規(guī)模地應用了數(shù)據(jù)倉庫技術,構建了完整的抽取、轉換和加載(ETL)、存儲、分析、挖掘過程,并建立了完整的業(yè)務應用體系。
經(jīng)營分析系統(tǒng)從2001年開始規(guī)劃,2003年底建成世界最大的數(shù)據(jù)倉庫,提高了標準化程度,統(tǒng)一了邏輯模型和指標解釋;豐富了分析手段,包括報表分析、即席查詢、OLAP分析和數(shù)據(jù)挖掘分析。截至到2005年7月1日,全國31個省市有9648個用戶在使用經(jīng)營分析系統(tǒng),年訪問量約為4,399,388人次。
收獲頗豐
中國移動經(jīng)營分析系統(tǒng)實現(xiàn)和應用的主要分析功能如下:
1.關鍵指標展示 宏觀反映企業(yè)整體運營情況,使移動公司決策層能夠及時了解并把握企業(yè)生產(chǎn)經(jīng)營的最新整體情況,從而準確高效進行科學分析和決策。
2.客戶分群 客戶分群是深入了解客戶、提供針對的基礎。
3.市場分析 為中國移動市場人員開展市場活動提供基于多種方法與手段之上的數(shù)據(jù)依據(jù)。
4.客戶服務分析 綜合展現(xiàn)中國移動客戶服務各方面的素質。
5.營銷分析 為各公司的市場營銷決策提供有力的支撐。
6.財務賬務分析 清晰展現(xiàn)中國移動的運營收入與支出情況,追蹤中國移動收入的主要來源和成本的主要去向。
7.數(shù)據(jù)業(yè)務分析 綜合展現(xiàn)新興數(shù)據(jù)業(yè)務市場的發(fā)展變化情況。
8.綜合統(tǒng)計分析 系統(tǒng)都能夠以靈活的方式提供自定制模型、輔助定制模型或方法的綜合分析。
經(jīng)營分析系統(tǒng)在各個方面體現(xiàn)了比較顯著的效益和成果。
1.降低成本 例如經(jīng)營分析系統(tǒng)中的重入網(wǎng)分析,浙江省溫州2月份就可以節(jié)約成本113.8935萬元。推廣到全國,可節(jié)約成本約130000萬元。
2.增加收入 在經(jīng)營分析系統(tǒng)的用戶離網(wǎng)分析方面,僅山西移動客戶離網(wǎng)分析一項就可增加收入26880萬元,推廣到全國,每年可增加收入約800000萬元。
3.社會效益 中國移動經(jīng)營分析系統(tǒng)提供了靈活的OLAP分析和挖掘方法,提高了企業(yè)市場營銷人員的日常工作效率,從而提高了企業(yè)核心競爭力;提高了企業(yè)決策速度,從以前的一個月決策周期提高到現(xiàn)在的一周;改善了營銷模式,使市場得到全面深入開發(fā),促進了企業(yè)的快速發(fā)展,并且提高了客戶服務質量,增加了客戶滿意度,增加了社會效益。
中國移動的經(jīng)營分析系統(tǒng)是國內第一個大規(guī)模建設數(shù)據(jù)倉庫的典型案例,帶動了國內一批系統(tǒng)集成商、業(yè)務開發(fā)商和應用咨詢廠商的發(fā)展,填補了國內在數(shù)據(jù)倉庫大規(guī)模建設方面的技術空白,促進了國內數(shù)據(jù)倉庫技術、OLAP技術和數(shù)據(jù)挖掘技術的發(fā)展,極大地推動了中國在數(shù)據(jù)倉庫方面的信息化水平。
數(shù)據(jù)倉庫技術在電信運營商中的應用
隨著市場競爭的加劇,電信運營商迫切需要加強企業(yè)自身的管理水平,提升市場競爭力。而電信運營商的信息化過程,無疑對于提升企業(yè)的管理水平奠定了重要的技術基礎。通過信息化手段,能夠對企業(yè)的內部管理和外部經(jīng)營情況進行深入的了解,實現(xiàn)精細化的管理和營銷工作。
與其他行業(yè)一樣,電信運營商的信息化工作,也涉及到企業(yè)的方方面面,不僅包括ERP、CRM等內部管理體系,也包括外部的供應鏈管理、合作伙伴管理等內容。
電信運營商在信息化方面具有比較好的基礎,國內電信運營商基本完成了對業(yè)務系統(tǒng)的電子化過程,例如移動通信運營商能夠為用戶提供基本的通話詳單和賬單等服務。而大量關于客戶和產(chǎn)品方面的數(shù)據(jù),為后續(xù)的信息化過程提供了基礎。
電信運營商的這些信息,如果加以收藏和整理,將是一筆難得的寶藏,能夠為企業(yè)的決策和市場經(jīng)營提供有力支撐。
整體而言,企業(yè)的信息化管理過程中,數(shù)據(jù)管理是企業(yè)信息化管理的較高境界,因為數(shù)據(jù)涉及到企業(yè)生產(chǎn)、管理的各個方面,很多經(jīng)營異常等問題都可以及時通過數(shù)據(jù)分析發(fā)現(xiàn)。而在信息化技術中,數(shù)據(jù)倉庫技術是數(shù)據(jù)整理和分析的較好的技術。
1.對海量數(shù)據(jù)的整理提供了基本的方法
數(shù)據(jù)倉庫提供了海量數(shù)據(jù)進行存儲的基本方法,通過數(shù)據(jù)倉庫邏輯模型的設計,對企業(yè)的數(shù)據(jù)資源進行了形式化的描述和整理,為企業(yè)業(yè)務應用奠定了基礎。
2.引入了數(shù)據(jù)挖掘等數(shù)據(jù)分析技術,能夠提供更深的分析
在數(shù)據(jù)倉庫技術中,引入了OLAP、數(shù)據(jù)挖掘等分析性技術,提供了更深入的數(shù)據(jù)分析手段,可以比較深入地分析出企業(yè)運營的各種信息。
3.通過數(shù)據(jù)質量的提升,監(jiān)控上游的各個源系統(tǒng)
在數(shù)據(jù)倉庫系統(tǒng)中,會接收各個業(yè)務系統(tǒng)的數(shù)據(jù),通過對這些數(shù)據(jù)的質量進行監(jiān)控,就可以及時發(fā)現(xiàn)上游各個業(yè)務源系統(tǒng)的運營異常,提升企業(yè)的業(yè)務監(jiān)控能力。
?新聞?
山東積極推進涉農(nóng)信息共享
由山東信息化工作領導小組辦公室、省信息產(chǎn)業(yè)廳主辦,山東網(wǎng)通公司聯(lián)合有關部門和單位共同承建的山東省農(nóng)業(yè)與農(nóng)村信息綜合服務平臺于7月24日正式開通。同時,先后斥資160多億元的山東省村村通寬帶工程取得重大突破,除極少數(shù)偏遠地區(qū)外,山東將提前兩年,于2006年底前全面實現(xiàn)村村通寬帶。(山東省信息產(chǎn)業(yè)廳 韓旭東)
太極為大興政府服務
近日,太極計算機股份有限公司中標大興政府綜合服務辦公樓智能化改造工程。工程具體建設內容包括智能化系統(tǒng)總集成IBMS、綜合布線系統(tǒng)、樓宇自控系統(tǒng)、綜合安防系統(tǒng)等十余個系統(tǒng)及機房工程等總體規(guī)劃、系統(tǒng)調試、軟件開發(fā)等。 (郭瑩)
地理信息技術論壇將召開
中國科學院主辦、北京超圖地理信息技術有限公司具體承辦的“2006中科院地理信息技術自主創(chuàng)新論壇”將于9月召開,中國科學院將對我國地理信息技術自主創(chuàng)新歷程進行全面的總結和回顧。 (郭瑩)
遠特通信推出FAX99電子傳真
北京遠特通信技術有限公司日前推出FAX99電子傳真業(yè)務。使用該業(yè)務,用戶可以通過電子郵件收發(fā)傳真來取代傳統(tǒng)的傳真號碼發(fā)傳真,獲得高效、節(jié)能、無紙化的辦公環(huán)境。 (郝)
同方簽約也門國際機場
近日,同方正式與也門薩娜國際機場簽約,承接其新候機樓智能化工程,合同金額達2140萬美元。(汪蔚)
三星搭建B2B商橋
前不久,在2006年三星全國行業(yè)商大會上,三星行業(yè)大客戶部正式發(fā)表了行業(yè)商政策―“Power Partner Portal”系統(tǒng),即三星B2B商橋。這是一個可以給商提供支持的在線即時溝通平臺。 (汪蔚)
美的集團資金管理上臺階
日前,美的集團資金管理項目一期成功驗收。該系統(tǒng)于2004年底由浪潮集團承建,涉及美的集團三級結算中心共20個結算部門,服務對象覆蓋全部下屬單位及集團財務部預算管理中心和融資管理中心。 (陳超)
[關鍵詞] 數(shù)據(jù)倉庫商業(yè)智能系統(tǒng)架構
一、引言
數(shù)據(jù)倉庫在整個商業(yè)智能項目中起到核心的作用,就好比人的大腦,如果人沒有聰明的,思維清晰的大腦,不可能做出明智的決定一樣。由于數(shù)據(jù)倉庫的設計決定著數(shù)據(jù)倉庫是否能滿足業(yè)務的需要和業(yè)務擴展的需要,所以數(shù)據(jù)倉庫的設計成為整個商業(yè)智能項目中最為關鍵的過程。本文根據(jù)某制造型企業(yè)的信息化建設項目,論述項目實施過程中數(shù)據(jù)倉庫的設計過程和需要注意的一些問題。
信息技術的高速發(fā)展為企業(yè)提高自身競爭力帶來了巨大空間:信息技術不但使企業(yè)獲取需要的信息,而且也促進企業(yè)對信息的再利用,以此營造企業(yè)的競爭優(yōu)勢。而商業(yè)智能是將企業(yè)運作中涉及到的數(shù)據(jù)有效的轉化為信息、知識和智慧,通過適當?shù)姆绞秸宫F(xiàn)給決策者,以幫助企業(yè)提高決策能力和運營能力以增強企業(yè)核心競爭力。正是在這個背景下,企業(yè)決定實施商務智能。
二、商業(yè)智能項目概述
公司選用BusinessObject XI軟件作為展現(xiàn)工具,數(shù)據(jù)倉庫選用oracle 9i企業(yè)版(9.2.0.6),總體架構如下:
下面就以上的架構圖進行簡要說明:
1.源服務器。主要為企業(yè)內現(xiàn)有正在使用的業(yè)務系統(tǒng),為數(shù)據(jù)倉庫的主要的數(shù)據(jù)來源。包括BAAN的ERP系統(tǒng),電子商務平臺,SLIM4物流系統(tǒng),包裝系統(tǒng),還有一些外部數(shù)據(jù)源。例如EXCEL表。
2.DW服務器(dataware)。DW服務器存儲數(shù)據(jù)倉庫的相關數(shù)據(jù)。根據(jù)數(shù)據(jù)特性的不同。有可以劃分到不同的區(qū)域。采用oracle 9i企業(yè)版。操作系統(tǒng)采用HP UNIX。用關系表存放數(shù)據(jù)。
3.DI服務器(data intergrator)。整個的etl(轉換,清洗,加載)功能可以劃分為調度和具體實現(xiàn)。DI服務器完成etl調度功能以及一部分具體的實現(xiàn)。采用DI XI。操作系統(tǒng)采用Window 2000 server。
主要的功能為運行etl任務。
DI可以通過作業(yè)方式管理ETL工作,定時執(zhí)行預定義的ETL作業(yè)。DI自帶ETL調度服務。
我們可以DI服務器上設定etl各個任務運行的時間、運行的周期以及執(zhí)行次序。然后根據(jù)可以預先設定的etl各個任務的流程、運行的時間、運行的周期以及執(zhí)行次序,定期的自動地運行etl任務。
DI的各種配置信息都放在DI儲備庫中。DI儲備庫是一套數(shù)據(jù),包括了工作流信息等。可以存放在某個關系型數(shù)據(jù)庫上。
4.BO服務器(business objects)。BO服務器提供查詢和分析服務。它從數(shù)據(jù)倉庫中獲取報表分析所需的數(shù)據(jù),從為BO儲備庫中獲取相關的。為不同的業(yè)務分析人員提供分析報表和多維分析功能。同時擔負著用戶權限管理、登錄認證、文檔管理等功能。采用BO XI 企業(yè)版。操作系統(tǒng)采用Window 2000 server。
BO的各種配置信息都放在BO儲備庫中。BO儲備庫是一套數(shù)據(jù),包括了語義層、報表、用戶、權限信息等。可以存放在某個關系型數(shù)據(jù)庫上。
5.Web服務器。提供b/s結構的查看分析報表功能。由web服務器和java應用服務器構成。web服務器采用Aphace,提供了通過網(wǎng)頁訪問本系統(tǒng)的方式。
java應用服務器采用Tomcat,提供jsp處理能力。
在web服務器和java應用服務器部署有bo的前臺java應用程序。
6.DI管理客戶端。部署了DI的客戶端程序:包括Data Integrator Designer、Repository Manager、Server Manager、Web Administrator等。
7.BO應用客戶端。部署了DI的客戶端程序:包括Designer、Desktop Intelligence等。
8.IE客戶端。通過IE查看分析報表的客戶端。
三、數(shù)據(jù)倉庫的設計
1.數(shù)據(jù)倉庫邏輯設計。本系統(tǒng)按ETL數(shù)據(jù)轉換層次把數(shù)據(jù)倉庫邏輯上設計為如下的層次:臨時存儲區(qū)、數(shù)據(jù)清洗區(qū)、數(shù)據(jù)轉換區(qū)、基礎數(shù)據(jù)區(qū)、星型數(shù)據(jù)區(qū)、數(shù)據(jù)中心。其中要注意的是一條數(shù)據(jù)的etl處理流向有必須經(jīng)過的區(qū)域包括:臨時存儲區(qū)、基礎數(shù)據(jù)區(qū)或星型數(shù)據(jù)區(qū)、數(shù)據(jù)中心。在其他的區(qū)域不一定存在。
(1)臨時存儲區(qū)。存放有源系統(tǒng)中剛抽取過來的數(shù)據(jù)。其中主要特點有:基于源系統(tǒng)數(shù)據(jù)結構的數(shù)據(jù)存儲、僅含本次加載的數(shù)據(jù)、簡單的數(shù)據(jù)裝載、同個實體多套數(shù)據(jù)結構。
大部分來自每個源系統(tǒng)的數(shù)據(jù)文件在源數(shù)據(jù)區(qū)將對應惟一找到一個惟一屬于自己的幾乎相同的數(shù)據(jù)結構(1對1的關系),以保障源數(shù)據(jù)裝載簡單易行。
(2)清洗區(qū)。存放有對臨時區(qū)經(jīng)過了清洗的數(shù)據(jù)。其中主要特點有:基于源系統(tǒng)數(shù)據(jù)結構的數(shù)據(jù)存儲、僅含本次加載的數(shù)據(jù)、簡單的數(shù)據(jù)裝載、同個實體多套數(shù)據(jù)結構、錯誤的數(shù)據(jù)經(jīng)過了修正,例如修改錯誤的日期。
(3)基礎數(shù)據(jù)區(qū)。基礎數(shù)據(jù)區(qū)是整個系統(tǒng)的核心,存儲來自各種源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)(主要是當前數(shù)據(jù)及包含部分歷史變更數(shù)據(jù)),具有統(tǒng)一的結構。以范式結構為主。可以提供查詢。其中主要特點有:①單套數(shù)據(jù)結構。大部分來自數(shù)據(jù)轉換區(qū)的實體在中央倉庫區(qū)將對應唯一找到一個屬于自己的數(shù)據(jù)結構(1對1的關系)。②數(shù)據(jù)結構和業(yè)務系統(tǒng)數(shù)據(jù)結構不同營銷分析系統(tǒng)物理數(shù)據(jù)模型與業(yè)務系統(tǒng)數(shù)據(jù)模型的差異體現(xiàn)。③較復雜但具有共性、穩(wěn)定性的轉換規(guī)則。④性能一般。基礎數(shù)據(jù)區(qū)的數(shù)據(jù)量大,操作復雜,關聯(lián)動作多,是數(shù)據(jù)轉換優(yōu)化的重點。
(4)星型數(shù)據(jù)區(qū)。按星型結構組織的事實表的區(qū)域。包括了原子級別的事實表和聚集的事實表。原子級別的事實表的一行與基礎區(qū)中的相關表中的一行對應,是最細粒度的數(shù)據(jù)。數(shù)據(jù)聚合就是對原子級別的事實表或基礎區(qū)數(shù)據(jù)進行聚合計算形成聚合表。本區(qū)域設立的主要的目的是提高查詢分析的速度。其中主要特點有:①按星型結構組織,即一個事實表跟若干個維表關聯(lián)。②數(shù)據(jù)有冗余。
(5)存儲過程。進行etl處理的相關的存儲過程。
(6)數(shù)據(jù)中心。數(shù)據(jù)中心中的數(shù)據(jù)是從業(yè)務系統(tǒng)中抽取的,經(jīng)過清洗的,仍按原業(yè)務系統(tǒng)中規(guī)則存儲的操作型數(shù)據(jù)。
該數(shù)據(jù)中心建成后,數(shù)據(jù)應和業(yè)務系統(tǒng)中同步,新開發(fā)系統(tǒng)如果要在業(yè)務系統(tǒng)中取數(shù)據(jù),將不再直接連接業(yè)務系統(tǒng),而是連接到此數(shù)據(jù)中心上。數(shù)據(jù)中心中的數(shù)據(jù)抽取到數(shù)據(jù)倉庫后所有數(shù)據(jù)仍然保留,不做刪除。
2.數(shù)據(jù)倉庫物理設計
(1)表空間設計。其中tce為temp(臨時區(qū)),clear(清洗區(qū)),extract(轉換區(qū))。Basic為基礎區(qū),star為星型區(qū),ods為數(shù)據(jù)中心。Tceidx為tce區(qū)的索引存放表空間。basicidx為基礎區(qū)索引存放表空間,star為星型區(qū)的索引存放表空間。這樣設計主要為了把邏輯意義的區(qū)分開,也為性能考慮可以在表名前加前綴作為區(qū)分表所在的區(qū)。其中數(shù)據(jù)庫中所有的業(yè)務表全部放在一個用戶下,以方便在各個區(qū)之間加載轉換。
(2)歸檔設計。由于數(shù)據(jù)在數(shù)據(jù)倉庫中頻繁加載刪除和插入等操作,如果選用歸檔模式會使數(shù)據(jù)庫產(chǎn)生大量日志。如果歸檔將嚴重影響性能.而且數(shù)據(jù)倉庫對數(shù)據(jù)恢復的要求不高。所以決定采用非歸檔模式。
(3)安全性設計。數(shù)據(jù)庫中所有的業(yè)務表全部放在一個用戶下,以方便在各個區(qū)之間加載轉換。再建一個用戶用于展現(xiàn),對所有的業(yè)務表只有只讀權限。
(4)備份恢復。這里采用每2天一次冷備份和一周一次邏輯備份。可以接受恢復兩天前的數(shù)據(jù),然后通過etl重新從源數(shù)據(jù)庫中獲取最新數(shù)據(jù)。
(5)參數(shù)設計。由于數(shù)據(jù)倉庫經(jīng)常刪除、插入,很少更新的特點,相對一般業(yè)務系統(tǒng),加大塊的大小,增加preused和減少prefree。
四、結束語
以數(shù)據(jù)倉庫和數(shù)據(jù)挖掘為基礎的的建設是一個過程,并非一蹴而就。在這個過程中,業(yè)務需求和信息基礎設施規(guī)劃兩者都不可或缺。這其中科學規(guī)范的項目實施也是關鍵。我們有理由相信,隨著企業(yè)商務智能系統(tǒng)的實施與應用,企業(yè)競爭力將會大大增強。同時,隨著市場經(jīng)濟的發(fā)展,商務智能系統(tǒng)在國內的應用也將越來越廣泛。
參考文獻:
[1]William H. Inmon著:數(shù)據(jù)倉庫[M]. 機械工業(yè)出版社,2006,8
關鍵詞:數(shù)據(jù)倉庫;首都機場(BCIA);數(shù)據(jù)中心(DC);邏輯架構
中圖分類號:TP311.13 文獻標識碼:A文章編號:1007-9599 (2011) 15-0000-01
Beijing Capital International Airport's Data Warehouse
He Zhiwu
(Beijing Capital International Airport Co.,Ltd.Information Technology,Beijing100621,China)
Abstract:Based on industry definition and development of data warehouses,this paper,the capital's airport design ideas and data center functions to achieve a basic overview of the module.
Keywords:Data warehouse;Beijing Capital International Airport (BCIA);Data Center(DC);Logical framework
一、引言
數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機分析應用數(shù)據(jù)源的結構化數(shù)據(jù)環(huán)境,研究和解決從數(shù)據(jù)庫中獲取信息的問題,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。而首都機場的數(shù)據(jù)倉庫―我們叫做數(shù)據(jù)中心是在統(tǒng)一航空業(yè)務數(shù)據(jù)標準基礎上,理清航空業(yè)務及相關信息管理制度與流程,補充缺失的運行數(shù)據(jù),改善航空業(yè)務信息多頭現(xiàn)狀,提升航空業(yè)務數(shù)據(jù)質量,并為相關部門提供全面的航空業(yè)務信息實時監(jiān)控與分析展現(xiàn)能力。
二、BCIA數(shù)據(jù)中心設計目標
數(shù)據(jù)中心(DATA CENTER,簡稱DC)的總體目標是在公司層面,統(tǒng)一規(guī)劃建設面向公司各項業(yè)務的操作型數(shù)據(jù)庫(OLTP)和分析型數(shù)據(jù)庫(OLAP),建立一個高性能、穩(wěn)定可靠,具有開放性、可擴展性的數(shù)據(jù)中心,完成應用系統(tǒng)的數(shù)據(jù)與決策支持有價值的外部數(shù)據(jù)的集中整合,保證數(shù)據(jù)一致性、準確性,提供輔助決策的全局數(shù)據(jù)視圖。在此基礎上通過數(shù)據(jù)分析技術,建立高效、易用、實用、靈活的面向主題的全方位、多層次的智能決策支持系統(tǒng)。數(shù)據(jù)中心是為BCIA信息管理平臺提供完整、標準、統(tǒng)一、面向業(yè)務應用
系統(tǒng)和決策支持服務的數(shù)據(jù)基礎平臺。系統(tǒng)定位如下:(1)建立統(tǒng)一標準、規(guī)范的數(shù)據(jù)平臺用于數(shù)據(jù)的集中、加工、匯總。(2)統(tǒng)一規(guī)劃建設。(3)業(yè)務數(shù)據(jù)的查詢、比對及分析。(4)充分考慮系統(tǒng)的可擴展性,提供高度開放的軟硬件平臺。(5)以數(shù)據(jù)中心為平臺,為各級用戶提供統(tǒng)一信息門戶,實現(xiàn)信息訪問的集成與統(tǒng)一。(6)滿足對數(shù)據(jù)統(tǒng)一、標準、完整及更新處理性能和可靠性的要求。(7)支持管理和決策、面向主題的、集成的、與時間相關的、穩(wěn)定的、持久的特性要求。
三、BCIA數(shù)據(jù)中心架構
基于業(yè)界通行的數(shù)據(jù)中心設計方法論,BCIA數(shù)據(jù)中心平臺總體邏輯系統(tǒng)架構可劃分為兩個平臺:數(shù)據(jù)中心平臺(操作數(shù)據(jù)處理)、數(shù)據(jù)分析平臺(分析數(shù)據(jù)處理),整體邏輯架構包括以下四個層次:數(shù)據(jù)采集層、數(shù)據(jù)整合層、應用分析層、信息展現(xiàn)層,實現(xiàn)對整個數(shù)據(jù)中心平臺前后端所有部件、操作、流程管理。數(shù)據(jù)中心的四個層次的功能如下:
(一)數(shù)據(jù)采集層。抽取、采集來自BCIA業(yè)務系統(tǒng)的數(shù)據(jù)和其它外部數(shù)據(jù)源中的數(shù)據(jù),提供原始數(shù)據(jù)的分離、清洗、轉換等處理,最后加載到數(shù)據(jù)中心中,實現(xiàn)數(shù)據(jù)的整合與提煉。BCIA數(shù)據(jù)中心與傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)有一個非常大的差異,BCIA數(shù)據(jù)源包括實時與非實時兩部分數(shù)據(jù)。
(二)數(shù)據(jù)整合層。數(shù)據(jù)整合層包括兩個層面:一方面為業(yè)務部門提供數(shù)據(jù)維護(包括數(shù)據(jù)補錄、數(shù)據(jù)修正、數(shù)據(jù)校核)、數(shù)據(jù)交互、實時運行監(jiān)控等服務;另一方面為整個BCIA提供面向主題的數(shù)據(jù)存儲與管理環(huán)境,使系統(tǒng)能夠提供高效、靈活的查詢、統(tǒng)計和聯(lián)機分析處理功能。在這一層采用關系型數(shù)據(jù)庫技術,管理和生成分析應用所需的細節(jié)數(shù)據(jù)和各種粒度的匯總數(shù)據(jù),形成企業(yè)級數(shù)據(jù)體系化環(huán)境,是數(shù)據(jù)中心平臺的數(shù)據(jù)存儲中心,所有來源于各業(yè)務系統(tǒng)的明細數(shù)據(jù)以及用于分析的集成匯總數(shù)據(jù)都存儲在這里。為公司的數(shù)據(jù)應用,如運行、經(jīng)營、市場分析、決策等提供數(shù)據(jù)基礎。同時,我們采用多維數(shù)據(jù)庫技術,建立BCIA數(shù)據(jù)中心平機分析處理(OLAP)平臺,為滿足復雜的多維分析及預測的需求,將分析所用的數(shù)據(jù)從關系型數(shù)據(jù)庫中提取到多維數(shù)據(jù)庫中。多維數(shù)據(jù)庫中的分析用數(shù)據(jù)包括匯總數(shù)據(jù)、經(jīng)過其他預處理的數(shù)據(jù)等,其數(shù)據(jù)結構與關系型數(shù)據(jù)庫中明細數(shù)據(jù)的結構是完全不同的。這些數(shù)據(jù)是只讀的,是為不同類型用戶的分析、預測和決策需求服務的。
(三)應用分析層。該層集中了BCIA數(shù)據(jù)中心平臺的所有主要應用部件,構成數(shù)據(jù)信息綜合利用的引擎:如OLAP分析、數(shù)據(jù)展現(xiàn)、決策支持處理、報表定制與分發(fā)、模型管理等。
(四)信息展現(xiàn)層。通過企業(yè)信息門戶,將應用分析層上構建的各類數(shù)據(jù)應用通過統(tǒng)一的平臺展現(xiàn)給公司數(shù)據(jù)中心平臺各類用戶。同時提供數(shù)據(jù)分析結果的表達、共享與傳遞的功能,是信息服務的主要平臺,主要包括信息展現(xiàn)與人機交互、信息等。
四、BCIA數(shù)據(jù)中心安全保障
從多方面綜合考慮的系統(tǒng)安全架構,是一個能夠從網(wǎng)絡層到系統(tǒng)層,再從系統(tǒng)層到業(yè)務層的全方位的安全管理架構,從而滿足系統(tǒng)的安全需求。對于數(shù)據(jù)中心平臺的建設,從大的方面要結合BCIA企業(yè)安全體系的標準(如系統(tǒng)安全、網(wǎng)絡安全等);從產(chǎn)品與應用級,建議數(shù)據(jù)中心平臺安全架構應包括數(shù)據(jù)安全管理、數(shù)據(jù)倉庫相關產(chǎn)品從后端安全管理、前端的安全集成、用戶權限管理等幾個方面。具體來說應包括以下各部分安全機制:
(一)底層安全:操作系統(tǒng)安全機制;數(shù)據(jù)庫安全機制。
(二)后臺應用安全:ETL應用安全機制;模型設計與模型管理安全機制。
(三)前端應用及數(shù)據(jù)管理安全:OLAP模型訪問安全機制;報表查詢安全機制;數(shù)據(jù)維護模塊與運行監(jiān)控模塊數(shù)據(jù)安全機制;數(shù)據(jù)維護與運行監(jiān)控操作安全機制;補錄系統(tǒng)安全機制;集成Portal安全機制。