10andB.userid<10andA." />

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

hive 優化

系統 2932 0

Hive是將符合SQL語法的字符串解析生成可以在Hadoop上執行的MapReduce的工具。

使用Hive盡量按照分布式計算的一些特點來設計sql,和傳統關系型數據庫有區別,

所以需要去掉原有關系型數據庫下開發的一些固有思維。

?

基本原則:

1:盡量盡早地過濾數據,減少每個階段的數據量,對于分區表要加分區,同時只選擇需要使用到的字段

select ... from A

join B

on A.key = B.key

where A.userid>10

?????and B.userid<10

?????? ?and A.dt='20120417'

?????? ?and B.dt='20120417';

應該改寫為:

select .... from (select .... from A

??????????????????where dt='201200417'

??????????????????????????? ??????? and userid>10

??????????????????????????? ? ) a

join ( select .... from B

???????where dt='201200417'

???????????????????? and userid < 10???

?????) b

on a.key = b.key;

2:盡量原子化操作,盡量避免一個SQL包含復雜邏輯

可以使用中間表來完成復雜的邏輯

drop table if exists tmp_table_1;

create table if not exists tmp_table_1 as

select ......;

?

drop table if exists tmp_table_2;

create table if not exists tmp_table_2 as

select ......;

?

drop table if exists result_table;

create table if not exists result_table as

select ......;

?

drop table if exists tmp_table_1;

drop table if exists tmp_table_2;

?

?

3:單個SQL所起的JOB個數盡量控制在5個以下

?

4:慎重使用mapjoin,一般行數小于2000行,大小小于1M(擴容后可以適當放大)的表才能使用,小表要注意放在join的左邊(目前TCL里面很多都小表放在join的右邊)。

否則會引起磁盤和內存的大量消耗

?

5:寫SQL要先了解數據本身的特點,如果有join ,group操作的話,要注意是否會有數據傾斜

如果出現數據傾斜,應當做如下處理:

set hive.exec.reducers.max=200;

set mapred.reduce.tasks= 200;---增大Reduce個數

set hive.groupby.mapaggr.checkinterval=100000 ;--這個是group的鍵對應的記錄條數超過這個值則會進行分拆,值根據具體數據量設置

set hive.groupby.skewindata=true; --如果是group by過程出現傾斜 應該設置為true

set hive.skewjoin.key=100000; --這個是join的鍵對應的記錄條數超過這個值則會進行分拆,值根據具體數據量設置

set hive.optimize.skewjoin=true;--如果是join 過程出現傾斜 應該設置為true

?

6:如果union all的部分個數大于2,或者每個union部分數據量大,應該拆成多個insert into 語句,實際測試過程中,執行時間能提升50%

insert overwite table tablename partition (dt= ....)

select ..... from (

???????????????????select ... from A

???????????????????union all

???????????????????select ... from B

?????????????????? union all

???????????????????select ... from C

??????????????????????????? ???) R

where ...;

?

可以改寫為:

insert into table tablename partition (dt= ....)

select .... from A

WHERE ...;

?

insert into table tablename partition (dt= ....)

select .... from B

WHERE ...;

?

insert into table tablename partition (dt= ....)

select .... from C

WHERE ...;

?

原文地址:http://hbase.iteye.com/blog/1488745

hive 優化


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产高清一区二区三区四区 | 欧美成人四级剧情在线播放 | 久久久久久草 | 日本一级毛片片在线播放 | 欧美精品亚洲精品日韩 | 美女被羞羞视频网站在线 | 久久久影院 | 精品无人区乱码1区2区3区免费 | 色在线网站| 国产精品福利午夜h视频 | 欧美乱子伦一区二区三区 | 国产精品一级香蕉一区 | 日韩区 | 久久亚洲精品一区二区三区浴池 | 久久久久久国产精品mv | 欧美亚洲国产日韩综合在线播放 | 亚洲欧美中文日韩二区一区 | 日韩精品特黄毛片免费看 | 中文字幕第一页亚洲 | 伊人爱爱网 | 欧美人牲囗毛片 | 日本一区网站 | 欧美777精品久久久久网 | 日本人一级毛片免费视频 | 国产精品一区二区三区久久 | 99这里| 男女羞羞免费视频 | 妖精www视频在线观看高清 | 婷婷在线视频 | 97在线观看完整免费 | 色噜噜狠狠成人中文小说 | 久久免费在线 | 亚洲国产精品一区二区不卡 | 午夜在线网站 | 国产一区二区三区在线观看免费 | 99re热在线视频 | 欧美一级片在线免费观看 | 日本欧美韩国专区 | 九九资源站 | 男人天堂网在线观看 | 人.成午夜 |