最近有部分工作涉及到了 ?Infobright 數(shù)據(jù)倉庫 ,就瀏覽了一些相關(guān)的資料,感覺很受啟發(fā)。下面寫一些感想,如有謬誤,還請指正。
簡單的來講,Infobright 主要有下面的一些優(yōu)點(diǎn):
1. TB 級的數(shù)據(jù)存儲和高效查詢。大數(shù)據(jù)量存儲主要依賴自己提供的高速數(shù)據(jù)加載工具(百G/小時(shí))和高數(shù)據(jù)壓縮比(>10:1),高效查詢主要依賴特殊設(shè)計(jì)的存儲結(jié)構(gòu)對查詢的優(yōu)化,但這里優(yōu)化的效果還取決于數(shù)據(jù)庫結(jié)構(gòu)和查詢語句的設(shè)計(jì)。
2. 高數(shù)據(jù)壓縮比,號稱一般能夠達(dá)到 10:1 以上的數(shù)據(jù)壓縮率。高數(shù)據(jù)壓縮比主要依賴列式存儲和 patent-pending 的靈活壓縮算法。
3. 與主要 BI 分析工具的兼容性。兼容性這點(diǎn)主要依賴與 MySQL 的集成,作為 MySQL 的存儲引擎自然地能夠保證與 BI 分析工具的兼容。
除了上面的優(yōu)點(diǎn)外,它也有一些限制:
1. 不支持?jǐn)?shù)據(jù)更新。這使對數(shù)據(jù)的修改變得很困難,這樣就限制了它作為實(shí)時(shí)數(shù)據(jù)服務(wù)的數(shù)據(jù)倉庫來使用。用戶要么忍受數(shù)據(jù)的非實(shí)時(shí)或非精確,這樣對最(較)新數(shù)據(jù)的分析準(zhǔn)確性就降低了許多;要么將它作為歷史庫來使用,帶來的問題是實(shí)時(shí)庫用什么?很多用戶選擇數(shù)據(jù)倉庫系統(tǒng),不是因?yàn)榇鎯臻g不夠,而是數(shù)據(jù)加載性能和查詢性能無法滿足要求。
2. 不支持高并發(fā)。雖然單庫 10 多個并發(fā)對一般的應(yīng)用來說也足夠了,但較低的機(jī)器利用率對投資者來說總是一件不爽的事情,特別是在并發(fā)小請求較多的情況下。
3. 沒有提供主從備份和橫向擴(kuò)展的功能。如果沒有主從備份,想做備份的話,也可以主從同時(shí)加載數(shù)據(jù),但只能校驗(yàn)最終的數(shù)據(jù)一致性,這會使得從機(jī)在數(shù)據(jù)加載時(shí)停服務(wù)的時(shí)間較長;橫向擴(kuò)展方面,倒不是 Infobright 的錯,它本身就不是分布式的存儲系統(tǒng),但如果把它搞成一個分布式的系統(tǒng),應(yīng)該是一件比較好玩的事情。
在架構(gòu)方面,Infobright 給我展示了不少新想法,算是受益頗多吧。首先是按列存儲,然后把列數(shù)據(jù)切成小塊(Data Pack),進(jìn)行壓縮和統(tǒng)計(jì)(DPN, Data Pack Node),然后再對多塊數(shù)據(jù)之間進(jìn)行知識關(guān)聯(lián)(Knowledge Node),最后對整個表形成知識網(wǎng)格(Knowledge Grid)。雖然說 Infobright 沒有提供索引結(jié)構(gòu),但它 Knowledge Grid 中的 Numerical Histogram、Character Map 和 Pack-to-Pack 結(jié)構(gòu),怎么看都和? bitmap 索引 脫不了關(guān)系。只是它的組織形式不像傳統(tǒng)數(shù)據(jù)庫中的索引罷了。
其實(shí)我們在設(shè)計(jì)類似的分布式表格系統(tǒng)時(shí),也可以實(shí)現(xiàn)類似于 Knowledge Grid 的結(jié)構(gòu)。這個結(jié)構(gòu)未必跟 Infobright 的一樣,但是如果在壓縮的基礎(chǔ)上,基于系統(tǒng)查詢模式(分布式系統(tǒng)的查詢模式一般相對簡單,復(fù)雜的也做不來),存儲一些輔助的塊統(tǒng)計(jì)信息以及塊之間的關(guān)聯(lián)信息,對于減少查詢的資源消耗,提高查詢效率會非常有幫助,這也正好是針對分布式表格系統(tǒng)很難建立索引這一缺點(diǎn)的彌補(bǔ)。
參考鏈接:
這篇文章 對 Infobright 及其安裝方法進(jìn)行了基本介紹,最后的一個查詢速度對比有些夸張(105:1),我覺得這可能跟查詢條件正好能匹配上 Knowledge Grid 中的信息所致; 這個博客 很有趣,從 2010 年 3 月 8 日到 5 月 8 日之間的文章全是? Infobright ?相關(guān)的,寫的還是挺詳細(xì)的; Brighthouse: An Analytic DataWarehouse for Ad-hoc Queries ?是一篇相關(guān)的 08 年 VLDB paper;此外官網(wǎng)上的白皮書不能直接下載,但在搜索引擎中能搜到一些。
?
轉(zhuǎn)自: http://blog.solrex.org/articles/infobright-data-warehouse.html
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
