亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)管理

系統(tǒng) 1793 0

????? 在事務(wù)處理系統(tǒng)中的數(shù)據(jù),主要用于記錄和查詢業(yè)務(wù)情況。隨著數(shù)據(jù)倉(cāng)庫(kù)(DW)技術(shù)的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)是一種面向決策主題、由多數(shù)據(jù)源集成、擁有當(dāng)前及歷史總結(jié)數(shù)據(jù)、以讀為主的數(shù)據(jù)庫(kù)系統(tǒng),其目的是支持決策。數(shù)據(jù)倉(cāng)庫(kù)要根據(jù)決策的需要收集來(lái)自企業(yè)內(nèi)外的有關(guān)數(shù)據(jù),并加以適當(dāng)?shù)慕M織處理,使其能有效地為決策過(guò)程提供信息。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從許多業(yè)務(wù)處理系統(tǒng)中抽取、轉(zhuǎn)換而來(lái),對(duì)于這樣一個(gè)復(fù)雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來(lái)對(duì)它們進(jìn)行管理和訪問(wèn)就變得尤為重要。解決這一問(wèn)題的關(guān)鍵是對(duì)元數(shù)據(jù)進(jìn)行科學(xué)有效的管理。元數(shù)據(jù)是關(guān)于數(shù)據(jù)、操縱數(shù)據(jù)的進(jìn)程和應(yīng)用程序的結(jié)構(gòu)和意義的描述信息,其主要目標(biāo)是提供數(shù)據(jù)資源的全面指南。元數(shù)據(jù)不僅定義了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的模式、來(lái)源以及抽取和轉(zhuǎn)換規(guī)則等,而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的運(yùn)行都是基于元數(shù)據(jù)的,是元數(shù)據(jù)把數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的各個(gè)松散的組件聯(lián)系起來(lái),組成了一個(gè)有機(jī)的整體。

數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)管理

一、元數(shù)據(jù)
  1、元數(shù)據(jù)的概念
  按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。
技術(shù)元數(shù)據(jù) 是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息:
  數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;
  業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
  匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報(bào)告;
  由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。

業(yè)務(wù)元數(shù)據(jù) 從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語(yǔ)所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息:
  企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。以這個(gè)企業(yè)模型為基礎(chǔ),不懂?dāng)?shù)據(jù)庫(kù)技術(shù)和SQL語(yǔ)句的業(yè)務(wù)人員對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)也能做到心中有數(shù)。
  多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務(wù)分析人員在數(shù)據(jù)集市當(dāng)中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務(wù)事實(shí)表和維表的多維組織形式。
  業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴:以上提到的業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)中的表、字段、維、層次等之間的對(duì)應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識(shí)庫(kù)中有所體現(xiàn)。

  2、元數(shù)據(jù)的作用
  在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中;(2)定義要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)和從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。
  與其說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是軟件開(kāi)發(fā)項(xiàng)目,還不如說(shuō)是系統(tǒng)集成項(xiàng)目,因?yàn)樗闹饕ぷ魇前阉璧臄?shù)據(jù)倉(cāng)庫(kù)工具集成在一起,完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,OLAP分析和數(shù)據(jù)挖掘等。它的典型結(jié)構(gòu)由操作環(huán)境層、數(shù)據(jù)倉(cāng)庫(kù)層和業(yè)務(wù)層等組成。
  其中,第一層(操作環(huán)境層)是指整個(gè)企業(yè)內(nèi)有關(guān)業(yè)務(wù)的OLTP系統(tǒng)和一些外部數(shù)據(jù)源;第二層是通過(guò)把第一層的相關(guān)數(shù)據(jù)抽取到一個(gè)中心區(qū)而組成的數(shù)據(jù)倉(cāng)庫(kù)層;第三層是為了完成對(duì)業(yè)務(wù)數(shù)據(jù)的分析而由各種工具組成的業(yè)務(wù)層。圖中左邊的部分是元數(shù)據(jù)管理,它起到了承上啟下的作用,具體體現(xiàn)在以下幾個(gè)方面:
  便于集成
  提高系統(tǒng)的靈活性
  保證數(shù)據(jù)的質(zhì)量
  幫助用戶理解數(shù)據(jù)的意義

  二、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理現(xiàn)狀
  元數(shù)據(jù)管理的主要任務(wù)有兩個(gè)方面:一是負(fù)責(zé)存儲(chǔ)和維護(hù)元數(shù)據(jù)庫(kù)中的元數(shù)據(jù);二是負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)建模工具、數(shù)據(jù)獲取工具、前端工具等之間的消息傳遞,協(xié)調(diào)各模塊和工具之間的工作。
  由以上幾節(jié)我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉(cāng)庫(kù)乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)生命周期中有著重要的地位,各個(gè)廠商的數(shù)據(jù)倉(cāng)庫(kù)解決方案都提到了關(guān)于對(duì)元數(shù)據(jù)的管理。但遺憾的是對(duì)于元數(shù)據(jù)的管理,各個(gè)解決方案都沒(méi)有明確提出一個(gè)完整的管理模式;它們提供的僅僅是對(duì)特定的局部元數(shù)據(jù)的管理。當(dāng)前市場(chǎng)上與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉(cāng)庫(kù)工具大致可分為四類:
  1. 數(shù)據(jù)抽取工具 :把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉(cāng)庫(kù)中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。這些工具僅提供了技術(shù)元數(shù)據(jù),幾乎沒(méi)有提供對(duì)業(yè)務(wù)元數(shù)據(jù)的支持。
  2. 前端展現(xiàn)工具 :包括OLAP分析、報(bào)表和商業(yè)智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。它們通過(guò)把關(guān)系表映射成與業(yè)務(wù)相關(guān)的事實(shí)表和維表來(lái)支持多維業(yè)務(wù)視圖,進(jìn)而對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維分析。這些工具都提供了業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對(duì)應(yīng)的語(yǔ)義層。
  3. 建模工具 :為非技術(shù)人員準(zhǔn)備的業(yè)務(wù)建模工具,這些工具可以提供更高層的與特定業(yè)務(wù)相關(guān)的語(yǔ)義。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
  4. 元數(shù)據(jù)存儲(chǔ)工具 :元數(shù)據(jù)通常存儲(chǔ)在專用的數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)就如同一個(gè)“黑盒子”,外部無(wú)法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲(chǔ)的。還有一類被稱為元數(shù)據(jù)知識(shí)庫(kù)(Metadata Repository)的工具,它們獨(dú)立于其它工具,為元數(shù)據(jù)提供一個(gè)集中的存儲(chǔ)空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和Sybase的WCC等。

  三、元數(shù)據(jù)管理的標(biāo)準(zhǔn)化
  沒(méi)有規(guī)矩不成方圓。元數(shù)據(jù)管理之所以困難,一個(gè)很重要的原因就是缺乏統(tǒng)一的標(biāo)準(zhǔn)。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(Meta Data Coalition)的開(kāi)放信息模型 OIM (Open Information Model)和OMG組織的公共倉(cāng)庫(kù)模型 CWM (Common Warehouse Model)標(biāo)準(zhǔn)的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉(cāng)庫(kù)廠商提供了統(tǒng)一的標(biāo)準(zhǔn),從而為元數(shù)據(jù)管理鋪平了道路。
  從元數(shù)據(jù)的發(fā)展歷史不難看出,元數(shù)據(jù)管理主要有兩種方法:
  (1) 對(duì)于相對(duì)簡(jiǎn)單的環(huán)境,按照通用的元數(shù)據(jù)管理標(biāo)準(zhǔn)建立一個(gè)集中式的元數(shù)據(jù)知識(shí)庫(kù)。
  (2) 對(duì)于比較復(fù)雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系統(tǒng),形成分布式元數(shù)據(jù)知識(shí)庫(kù),然后,通過(guò)建立標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式,實(shí)現(xiàn)元數(shù)據(jù)的集成管理。
  下面我們分別介紹數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中兩個(gè)最主要的元數(shù)據(jù)標(biāo)準(zhǔn):MDC的OIM標(biāo)準(zhǔn)和OMG的CWM標(biāo)準(zhǔn)。
1、MDC的OIM存儲(chǔ)模型
  MDC成立于1995年,是一個(gè)致力于建立與廠商無(wú)關(guān)的、不依賴于具體技術(shù)的企業(yè)元數(shù)據(jù)管理標(biāo)準(zhǔn)的非贏利技術(shù)聯(lián)盟,該聯(lián)盟有150多個(gè)會(huì)員,其中包括微軟和IBM等著名軟件廠商。1999年7月MDC接受了微軟的建議,將OIM作為元數(shù)據(jù)標(biāo)準(zhǔn)。
  OIM的目的是通過(guò)公共的元數(shù)據(jù)信息來(lái)支持不同工具和系統(tǒng)之間數(shù)據(jù)的共享和重用。它涉及了信息系統(tǒng)(從設(shè)計(jì)到發(fā)布)的各個(gè)階段,通過(guò)對(duì)元數(shù)據(jù)類型的標(biāo)準(zhǔn)描述來(lái)達(dá)到工具和知識(shí)庫(kù)之間的數(shù)據(jù)共享。OIM所聲明的元數(shù)據(jù)類型都采用統(tǒng)一建模語(yǔ)言UML(Universal Modeling Language)進(jìn)行描述,并被組織成易于使用、易于擴(kuò)展的多個(gè)主題范圍(Subject Areas),這些主題范圍包括:
  分析與設(shè)計(jì)(Analysis and Design):主要用于軟件分析、設(shè)計(jì)和建模。該主題范圍又進(jìn)一步劃分為:UML包(Package)、UML擴(kuò)展包、通用元素(Generic Elements)包、公共數(shù)據(jù)類型(Common Data Types)包和實(shí)體關(guān)系建模(Entity Relationship Modeling)包等。
  對(duì)象與組件(Object and Component):涉及面向?qū)ο箝_(kāi)發(fā)技術(shù)的方方面面。該主題范圍只包含組件描述建模(Component Description Modeling)包。
  數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)(Database and Warehousing):為數(shù)據(jù)庫(kù)模式管理、復(fù)用和建立數(shù)據(jù)倉(cāng)庫(kù)提供元數(shù)據(jù)概念支持。該主題范圍進(jìn)一步劃分為:關(guān)系數(shù)據(jù)庫(kù)模式(Relational Database Schema)包、OLAP模式(OLAP Schema)包、數(shù)據(jù)轉(zhuǎn)換(Data Transformations)包、面向記錄的數(shù)據(jù)庫(kù)模式(Record-Oriented Database Schema)包、XML模式(XML Schema)包和報(bào)表定義(Report Definitions)包等。
  業(yè)務(wù)工程(Business Engineering):為企業(yè)運(yùn)作提供一個(gè)藍(lán)圖。該主題范圍進(jìn)一步劃分為:業(yè)務(wù)目標(biāo)(Business Goal)包、組織元素(Organizational Elements)包、業(yè)務(wù)規(guī)則(Business Rules)包、商業(yè)流程(Business Processes)包等。
  知識(shí)管理(Knowledge Management):涉及企業(yè)的信息結(jié)構(gòu)。該主題范圍進(jìn)一步劃分為:知識(shí)描述(Knowledge Descriptions)包和語(yǔ)義定義(Semantic Definitions)包。
上述主題范圍中的包都是采用UML定義的,可以說(shuō)UML語(yǔ)言是整個(gè)OIM標(biāo)準(zhǔn)的基礎(chǔ)。雖然OIM標(biāo)準(zhǔn)并不是專門(mén)針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的,但數(shù)據(jù)倉(cāng)庫(kù)是它的主要應(yīng)用領(lǐng)域之一。目前市場(chǎng)上基于該標(biāo)準(zhǔn)的元數(shù)據(jù)管理工具已經(jīng)比較成熟,例如微軟的Repositry和CA的Repositry均采用了OIM標(biāo)準(zhǔn)。

  2、OMG組織的CWM模型
  OMG是一個(gè)擁有500多會(huì)員的國(guó)際標(biāo)準(zhǔn)化組織,著名的CORBA標(biāo)準(zhǔn)即出自該組織。公共倉(cāng)庫(kù)元模型(Common Warehouse Metamodel)的主要目的是在異構(gòu)環(huán)境下,幫助不同的數(shù)據(jù)倉(cāng)庫(kù)工具、平臺(tái)和元數(shù)據(jù)知識(shí)庫(kù)進(jìn)行元數(shù)據(jù)交換。2001年3月,OMG頒布了CWM 1.0標(biāo)準(zhǔn)。CWM模型既包括元數(shù)據(jù)存儲(chǔ),也包括元數(shù)據(jù)交換,它是基于以下三個(gè)工業(yè)標(biāo)準(zhǔn)制定的:
  (1) UML :它對(duì)CWM模型進(jìn)行建模。
  (2) MOF (元對(duì)象設(shè)施):它是OMG元模型和元數(shù)據(jù)的存儲(chǔ)標(biāo)準(zhǔn),提供在異構(gòu)環(huán)境下對(duì)元數(shù)據(jù)知識(shí)庫(kù)的訪問(wèn)接口。
  (3) XMI (XML元數(shù)據(jù)交換):它可以使元數(shù)據(jù)以XML文件流的方式進(jìn)行交換。

  CWM為數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能(BI)工具之間共享元數(shù)據(jù),制定了一整套關(guān)于語(yǔ)法和語(yǔ)義的規(guī)范。它主要包含以下四個(gè)方面的規(guī)范:
  (1) CWM元模型(Metamodel):描述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的模型;
  (2) CWM XML:CWM元模型的XML表示;
  (3) CWM DTD:DW/BI共享元數(shù)據(jù)的交換格式
  (4) CWM IDL:DW/BI共享元數(shù)據(jù)的應(yīng)用程序訪問(wèn)接口(API)
  下面重點(diǎn)討論CWM元模型的組成,它與OIM規(guī)范一樣,也是由很多包組成的。組成CWM元模型的包結(jié)構(gòu)如圖4所示。
  (1) 元模型(MetaModel)包 :構(gòu)造和描述其它CWM包中的元模型類的基礎(chǔ)。它是UML的一個(gè)子集,由以下四個(gè)子包組成:
  a) 核心(Core)包:它的類和關(guān)聯(lián)是該模型的核心,其它所有的包都以它為基礎(chǔ)。
  b) 行為(Behavioral)包:包括描述CWM對(duì)象行為的類與關(guān)聯(lián),并且它為描述所定義的行為提供了基礎(chǔ)。
  c) 關(guān)系(Relationships)包:包括描述CWM對(duì)象之間關(guān)系的類與關(guān)聯(lián)。
  d) 實(shí)例(Instance)包:包括表示CWM分類器(Classfier)的類與關(guān)聯(lián)。  
  (2) 基礎(chǔ)包(Foundation) :它包括表示CWM概念和結(jié)構(gòu)的模型元素,這些模型元素又可被其他CWM包所共享,它由以下六個(gè)子包組成:
  a) 業(yè)務(wù)信息(Business Information)包:包括表示模型元素業(yè)務(wù)信息的類與關(guān)聯(lián)。
  b) 數(shù)據(jù)類型(Data Types)包:包括表示建模者可以用來(lái)創(chuàng)建所需數(shù)據(jù)類型的結(jié)構(gòu)的類與關(guān)聯(lián)。
  c) 表達(dá)式(Expressions)包:包括表示表達(dá)式樹(shù)的類與關(guān)聯(lián)。
  d) 關(guān)鍵字和索引(Keys and Indexes)包:包括表示鍵和索引的類與關(guān)聯(lián)。
  e) 軟件發(fā)布(Software Deployment)包:包括軟件如何在數(shù)據(jù)倉(cāng)庫(kù)中發(fā)布的類與關(guān)聯(lián)。
  f) 類型映射(Type Mapping)包:包括表示不同系統(tǒng)之間數(shù)據(jù)類型映射的類與關(guān)聯(lián)。
  (3) 資源包(Resource) :用于描述數(shù)據(jù)資源的包,它包括以下四個(gè)子包:
  a) 關(guān)系(Relational)包:包括表示關(guān)系型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。
  b) 記錄(Record)包:包括表示記錄型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。
  c) 多維(Multidimensional)包:包括表示多維數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。
  d) XML包:包括表示XML數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。
  (4) 分析(Analysis)包 :它由以下五個(gè)子包組成:
  a) 轉(zhuǎn)換(Transformation)包:包括表示數(shù)據(jù)抽取和轉(zhuǎn)換工具的元數(shù)據(jù)的類與關(guān)聯(lián)。
  b) OLAP包:包括表示OLAP工具的元數(shù)據(jù)的類與關(guān)聯(lián)。
  c) 數(shù)據(jù)挖掘(Data Mining)包:包括表示數(shù)據(jù)挖掘工具的元數(shù)據(jù)的類與關(guān)聯(lián)。
  d) 信息可視化(Information Visualization)包:包括表示信息可視化工具的元數(shù)據(jù)的類與關(guān)聯(lián)。
  e) 業(yè)務(wù)術(shù)語(yǔ)(Business Nomenclature)包:包括表示分類業(yè)務(wù)的元數(shù)據(jù)的類與關(guān)聯(lián)。
  (5) 管理(Management)包 :用于描述數(shù)據(jù)倉(cāng)庫(kù)管理的包,它包括以下兩個(gè)子包:
  a) 倉(cāng)庫(kù)過(guò)程(Warehouse Process)包:包括表示倉(cāng)庫(kù)過(guò)程的元數(shù)據(jù)的類與關(guān)聯(lián)。
  b) 倉(cāng)庫(kù)操作(Warehouse Operation)包:包括表示倉(cāng)庫(kù)操作結(jié)果的元數(shù)據(jù)的類與關(guān)聯(lián)。
  在數(shù)據(jù)抽取過(guò)程中,數(shù)據(jù)從各個(gè)業(yè)務(wù)系統(tǒng)中被統(tǒng)一轉(zhuǎn)換存儲(chǔ)到中央數(shù)據(jù)倉(cāng)庫(kù)中。CWM中的轉(zhuǎn)換模型定義了數(shù)據(jù)在源和目的之間移動(dòng)的過(guò)程,其中不僅包括源和目標(biāo)之間的參數(shù),還包括轉(zhuǎn)換中的業(yè)務(wù)邏輯。這些業(yè)務(wù)邏輯可能包括一些商業(yè)規(guī)則、類庫(kù)甚至是用戶腳本。數(shù)據(jù)倉(cāng)庫(kù)如果有一個(gè)規(guī)范的轉(zhuǎn)換模型將給工具軟件廠商和專業(yè)服務(wù)提供商帶來(lái)極大的好處,例如,按照統(tǒng)一的規(guī)范廠商可以設(shè)計(jì)一個(gè)通用的模型從標(biāo)準(zhǔn)ERP包中抽取數(shù)據(jù)。工具廠商甚至可以隨軟件提供成熟的模型,集成商也可以將一個(gè)模型應(yīng)用到多個(gè)項(xiàng)目中。
  最終用戶同樣也能從CWM中受益,在使用商業(yè)智能分析軟件進(jìn)行多維分析的時(shí)候,用戶往往會(huì)對(duì)數(shù)據(jù)的含義和來(lái)源產(chǎn)生疑問(wèn)。CWM能夠提供這些信息,用戶可以清楚地看到數(shù)據(jù)來(lái)自哪個(gè)系統(tǒng),并且是如何組成的。

  3、CWM與OIM之間的關(guān)系
  上兩節(jié)分別介紹了與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的兩個(gè)主要標(biāo)準(zhǔn),CWM實(shí)際上是專門(mén)為數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)而制定的一套標(biāo)準(zhǔn),而OIM并不是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的。OIM所關(guān)注的元數(shù)據(jù)的范圍比CWM要廣,CWM只限定于數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,而OIM模型包括有:分析與設(shè)計(jì)模型、對(duì)象與組件、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)、商業(yè)工程、知識(shí)管理等五個(gè)領(lǐng)域。OIM與CWM在建模語(yǔ)言的選擇(都選擇UML當(dāng)做自己的描述語(yǔ)言)、數(shù)據(jù)庫(kù)模型的支持、OLAP分析模型的支持、數(shù)據(jù)轉(zhuǎn)換模型的支持方面都比較一致;但是OIM并不是基于元對(duì)象設(shè)施(MOF)的,這意味著用OIM所描述的元數(shù)據(jù)需要通過(guò)其它的接口才能訪問(wèn),而CWM所描述的元數(shù)據(jù)可以通過(guò)CORBA IDL來(lái)訪問(wèn);在數(shù)據(jù)交換方面,OIM必須通過(guò)特定的轉(zhuǎn)換形成XML文件來(lái)交換元數(shù)據(jù),而CWM可以用XMI來(lái)進(jìn)行交換。盡管如此,由于OMG與MDC兩個(gè)組織的合并,CWM也會(huì)與OIM相互兼容以保護(hù)廠商已有的投資。
  需要說(shuō)明的是,MDC與OMG組織已經(jīng)合并,今后所有的工具都將遵循統(tǒng)一的CWM標(biāo)準(zhǔn),不過(guò)支持CWM的工具才剛剛出現(xiàn),而支持OIM標(biāo)準(zhǔn)的工具已經(jīng)相對(duì)成熟。

  四、元數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
  1、設(shè)計(jì)原則
  數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下的元數(shù)據(jù)管理系統(tǒng)的建設(shè)是十分困難的。但是在實(shí)際項(xiàng)目的實(shí)施過(guò)程中,這個(gè)環(huán)節(jié)又是非常重要的。當(dāng)前情況下,OMG組織的CWM標(biāo)準(zhǔn)將會(huì)成為數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)領(lǐng)域事實(shí)上的標(biāo)準(zhǔn),在元數(shù)據(jù)管理系統(tǒng)的建立過(guò)程中應(yīng)盡量參考這個(gè)標(biāo)準(zhǔn),這樣使系統(tǒng)的可擴(kuò)展性增強(qiáng)??墒窃谂c之相關(guān)的工具成熟之前,我們完全可以采用OIM中的元模型(因CWM對(duì)OIM是兼容的)以及支持它的元數(shù)據(jù)管理工具進(jìn)行元數(shù)據(jù)管理系統(tǒng)的建設(shè),而且元數(shù)據(jù)所包含的范圍很廣。我們?cè)诮⒃獢?shù)據(jù)管理系統(tǒng)的時(shí)候,絕對(duì)不能盲目追求大而全,要堅(jiān)持目標(biāo)驅(qū)動(dòng)的原則,在實(shí)施的時(shí)候要采取增量式、漸進(jìn)式的建設(shè)原則。具體的建設(shè)步驟如下:
 ?。?) 如果是在建設(shè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的初期,那么首先要確定系統(tǒng)的邊界范圍,系統(tǒng)范圍確定的原則是首先保障重點(diǎn),不求大,只求精。
 ?。?) 系統(tǒng)邊界確定以后,把現(xiàn)有系統(tǒng)的元數(shù)據(jù)整理出來(lái),加入語(yǔ)義層的對(duì)應(yīng)。然后存到一個(gè)數(shù)據(jù)庫(kù)中,這個(gè)數(shù)據(jù)庫(kù)可以采用專用的元數(shù)據(jù)知識(shí)庫(kù),也可以采用一般的關(guān)系型數(shù)據(jù)庫(kù)。
  (3) 確定元數(shù)據(jù)管理的范圍。比如,我們只想通過(guò)元數(shù)據(jù)來(lái)管理數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的轉(zhuǎn)換過(guò)程,以及有關(guān)數(shù)據(jù)的抽取路線,以使數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)和使用人員明白倉(cāng)庫(kù)中數(shù)據(jù)的整個(gè)歷史過(guò)程。
  (4) 確定元數(shù)據(jù)管理的工具,采用一定的工具可以完成相應(yīng)的工作。當(dāng)前相關(guān)工具有微軟的Repositry,它帶有相應(yīng)的編程接口,可以借助于它來(lái)完成元模型出入庫(kù)的功能;與之相似的還有Platinum的OEE;另外還有Sybase的Wcc,它可以通過(guò)MDC以前的一個(gè)老標(biāo)準(zhǔn)――MDIS來(lái)集成抽取工具與轉(zhuǎn)換工具,在一個(gè)窗口中就可以表示數(shù)據(jù)抽取與轉(zhuǎn)換,并且可以把語(yǔ)義層以MDIS的格式導(dǎo)出到一個(gè)前端工具當(dāng)中(比如Cognos的Improptu)。

  2、元數(shù)據(jù)存儲(chǔ)模式
  元數(shù)據(jù)存在的狀況是有差異的,系統(tǒng)層元數(shù)據(jù)應(yīng)隨數(shù)據(jù)庫(kù)存在,且由建立在分布式網(wǎng)絡(luò)數(shù)據(jù)庫(kù)管理系統(tǒng)統(tǒng)一管理;數(shù)據(jù)集層次元數(shù)據(jù)可以隨數(shù)據(jù)庫(kù)存在也可隨數(shù)據(jù)集存在;數(shù)據(jù)特征層次的元數(shù)據(jù)只能隨數(shù)據(jù)集存在。
  簡(jiǎn)單地,元數(shù)據(jù)存貯有兩種形式: 其一是以數(shù)據(jù)集為基礎(chǔ) ,即每一個(gè)數(shù)據(jù)集有一個(gè)對(duì)應(yīng)的元數(shù)據(jù)文檔,每一個(gè)元數(shù)據(jù)文件中包含對(duì)相應(yīng)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。 另一種存在方式是以數(shù)據(jù)庫(kù)為基礎(chǔ) (即元數(shù)據(jù)庫(kù)),給一個(gè)數(shù)據(jù)庫(kù)有一個(gè)元數(shù)據(jù)文件,該文件為一表格數(shù)據(jù),它由若干項(xiàng)組成,每一項(xiàng)表示元數(shù)據(jù)的一個(gè)要素,其記錄為每一個(gè)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。
  兩種存貯方式各有優(yōu)缺點(diǎn),對(duì)于第一種存儲(chǔ)模式,其好處是調(diào)用數(shù)據(jù)時(shí)其相應(yīng)的元數(shù)據(jù)也作為一個(gè)獨(dú)立的文件被傳輸,相對(duì)數(shù)據(jù)庫(kù)有較強(qiáng)的獨(dú)立性,在對(duì)元數(shù)據(jù)進(jìn)行檢索時(shí)可以利用數(shù)據(jù)庫(kù)的功能實(shí)現(xiàn),也可以將元數(shù)據(jù)文件調(diào)到其它數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行操作;其問(wèn)題是:每一數(shù)據(jù)集都有一個(gè)元數(shù)據(jù)文檔,那么在規(guī)模巨大的數(shù)據(jù)庫(kù)中則會(huì)有大量的元數(shù)據(jù)文件,管理上極為不便。在第二中存在模式中,由于庫(kù)中只有一個(gè)元數(shù)據(jù)文件,管理極為方便,添加或刪除數(shù)據(jù)集只把該文件中添加或刪除相應(yīng)的記錄項(xiàng)即可;但如果想獲取某數(shù)據(jù)集的元數(shù)據(jù)時(shí),實(shí)際得到的只是關(guān)系表格數(shù)據(jù)的一個(gè)記錄,則要求數(shù)據(jù)用戶使用的系統(tǒng)中可以接受這種特定形式的數(shù)據(jù)。因此推薦使用元數(shù)據(jù)庫(kù)的方式。
  元數(shù)據(jù)庫(kù)是用于存儲(chǔ)元數(shù)據(jù)的地方,元數(shù)據(jù)庫(kù)最好選用主流的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),支持CWM標(biāo)準(zhǔn)。一個(gè)元數(shù)據(jù)庫(kù)還包含那些用于操作和查詢?cè)獢?shù)據(jù)的機(jī)制;建立元數(shù)據(jù)庫(kù)的主要好處是提供了統(tǒng)一的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)和業(yè)務(wù)規(guī)則,易于將企業(yè)內(nèi)部的多個(gè)數(shù)據(jù)集市有機(jī)的結(jié)合起來(lái);特別是,現(xiàn)在一些客戶傾向建立多個(gè)數(shù)據(jù)集市,而不是一個(gè)龐大無(wú)比的數(shù)據(jù)倉(cāng)庫(kù)??梢钥紤]在建立數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)集市)之前,先建立一個(gè)用于描述數(shù)據(jù)的、用于應(yīng)用集成的元數(shù)據(jù)庫(kù),做好數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的初期支持工作,對(duì)后續(xù)開(kāi)發(fā)和維護(hù)有很大的幫助。在擁有不同廠商、不同功能和不同元數(shù)據(jù)庫(kù)的環(huán)境下,要實(shí)現(xiàn)兩種產(chǎn)品之間的元數(shù)據(jù)同步是非常富有挑戰(zhàn)性的工作。因?yàn)楸仨殢囊环N產(chǎn)品中獲得足夠詳細(xì)的元數(shù)據(jù),將其映射到另一種產(chǎn)品中,再指出兩者意義或編碼的差別;通常系統(tǒng)有數(shù)百、數(shù)千個(gè)元數(shù)據(jù),必須對(duì)每個(gè)元數(shù)據(jù)重復(fù)這一過(guò)程。
  在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,元數(shù)據(jù)管理工具可以從各個(gè)數(shù)據(jù)倉(cāng)庫(kù)組件中收集元數(shù)據(jù),存儲(chǔ)到元數(shù)據(jù)庫(kù)中,然后向業(yè)務(wù)用戶傳遞和展示正確的信息。采集、集成和描述元數(shù)據(jù)可以擴(kuò)展到十分廣泛的范圍,可以在設(shè)計(jì)和建模的過(guò)程中,可以在數(shù)據(jù)轉(zhuǎn)換、清洗和過(guò)濾的過(guò)程中,也可以在數(shù)據(jù)移植的過(guò)程中;可以從數(shù)據(jù)庫(kù)/數(shù)據(jù)存儲(chǔ)軟件,和前端展示工具中得到元數(shù)據(jù)。
  元數(shù)據(jù)庫(kù)為整個(gè)企業(yè)的寶貴信息提供了詳細(xì)的記錄,保存數(shù)據(jù)存儲(chǔ)位置和商業(yè)含義、生成和維護(hù)數(shù)據(jù)的主體、數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用處理、與其它數(shù)據(jù)的關(guān)系以及數(shù)據(jù)的轉(zhuǎn)換過(guò)程等。元數(shù)據(jù)庫(kù)保證了數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的一致性和準(zhǔn)確性,為企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理提供數(shù)據(jù)依據(jù)。
另外,元數(shù)據(jù)庫(kù)還支持強(qiáng)大的查詢和報(bào)表生成工具,用戶使用報(bào)表工具可以查詢?cè)獢?shù)據(jù)庫(kù),從元數(shù)據(jù)庫(kù)獲得重要的決策支持信息。

  3、元數(shù)據(jù)管理模式
  元數(shù)據(jù)管理涉及到各個(gè)層次的元數(shù)據(jù),管理的內(nèi)容包括元數(shù)據(jù)的獲取、元數(shù)據(jù)的更新、使用和面向應(yīng)用項(xiàng)目的元數(shù)據(jù)使用處理等多個(gè)方面。元數(shù)據(jù)的管理涉及數(shù)據(jù)庫(kù)、數(shù)據(jù)處理軟件、數(shù)據(jù)使用系統(tǒng)、面向應(yīng)用的數(shù)據(jù)分析等各個(gè)環(huán)節(jié)。下面給出了一種普通意義的以元數(shù)據(jù)信息系統(tǒng)為基礎(chǔ)的元數(shù)據(jù)管理模式。
  通常意義上的元數(shù)據(jù)管理是指元數(shù)據(jù)通過(guò)各種途徑形成后,對(duì)其內(nèi)容的添加、刪除、更新等涉及內(nèi)容改變的操作和元數(shù)據(jù)內(nèi)容檢索、查詢、放置、組織等常規(guī)性元數(shù)據(jù)操作,從這種意義上元數(shù)據(jù)的管理可以通過(guò)兩種方式實(shí)現(xiàn),即系統(tǒng)管理模式和用戶管理模式。系統(tǒng)管理模式是面向數(shù)據(jù)庫(kù)的,由數(shù)據(jù)庫(kù)管理系統(tǒng)專業(yè)人員完成,數(shù)據(jù)用戶只有使用權(quán),沒(méi)有元數(shù)據(jù)的操作權(quán),數(shù)據(jù)應(yīng)用項(xiàng)目中新生成的數(shù)據(jù)集的元數(shù)據(jù)也有應(yīng)用系統(tǒng)傳遞給數(shù)據(jù)庫(kù)管理員,然后由數(shù)據(jù)庫(kù)管理員統(tǒng)一管理。這種方式中,數(shù)據(jù)在處理過(guò)程中形成的動(dòng)態(tài)元數(shù)據(jù)很難及時(shí)記錄下來(lái)。另一種管理方式是用戶管理模式,它是面向應(yīng)用項(xiàng)目的,即允許某些數(shù)據(jù)用戶在數(shù)據(jù)應(yīng)用元數(shù)據(jù)的變動(dòng)信息直接反饋給元數(shù)據(jù)庫(kù),這樣則能保證元數(shù)據(jù)的動(dòng)態(tài)更新和新生成數(shù)據(jù)集元數(shù)據(jù)的及時(shí)捕獲及寫(xiě)入元數(shù)據(jù)文件。但這種模式中數(shù)據(jù)用戶的權(quán)限要適當(dāng)?shù)目刂疲员苊鈹?shù)據(jù)庫(kù)的破壞。通常對(duì)元數(shù)據(jù)的管理是采用兩者結(jié)合的模式。
  總之,建立元數(shù)據(jù)管理系統(tǒng)一定要堅(jiān)持關(guān)注標(biāo)準(zhǔn),又不被標(biāo)準(zhǔn)所束縛的原則,建立符合自身目標(biāo)的元數(shù)據(jù)管理系統(tǒng)。

數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)管理


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 亚洲欧美日韩综合二区三区 | 羞羞色院91蜜桃在线观看 | 一区二区三区不卡在线 | 亚洲精品国产不卡在线观看 | 性一交一乱一视频免费看 | 中国美女日b | 999热在线精品观看全部 | 一级日本特黄毛片视频 | 久久福利网站 | 热热涩热热狠狠色香蕉综合 | 国产一级淫| 亚洲国产精品二区久久 | 在线观看视频一区 | 免费大片黄在线观看yw | 老司机观看精品一区二区 | 香蕉视频亚洲一级 | 四虎影院免费在线 | 欧美成人视 | 久久综合一本 | 一本久久a久久精品亚洲 | 一区二区不卡不卡一卡 | 久久综合干 | 欧美激情久久久久久久久 | 亚洲精品成人久久久影院 | 日韩日日操 | 久久久久欧美精品三级 | 一级免费a| 九九自拍视频 | 爱爱小视频免费体验区在线观看 | 日韩视频观看 | 寡妇野外啪啪一区二区 | 欧美中文字幕在线观看 | 91粉色视频在线观看 | 成人欧美午夜视频毛片 | 日本一区精品久久久久影院 | 欧美特黄a级猛片a级 | 久久综合给合久久狠狠狠97色 | 色片在线看 | 久久久久国产精品免费免费 | 久久久久久久久国产 | 久久免费视频播放 |