本文提供了三種不同的方式在Python(IPython Notebook)中調(diào)用ggplot。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)可視化是一個(gè)非常熱門(mén)的話題。各個(gè)BI的廠商無(wú)不在數(shù)據(jù)可視化領(lǐng)域里投入大量的精力。Tableau憑借其強(qiáng)大的數(shù)據(jù)可視化的功能成為硅谷炙手可熱的上市公司。Tableau的數(shù)據(jù)可視化的產(chǎn)品,其理論基礎(chǔ)其實(shí)是《The Grammar of Graphic》,該書(shū)提出了對(duì)信息可視化的圖表的語(yǔ)法抽象體系,數(shù)據(jù)的探索和分析可以由圖像的語(yǔ)法來(lái)驅(qū)動(dòng),而非有固定的圖表類型來(lái)驅(qū)動(dòng),使得數(shù)據(jù)的探索過(guò)程變得友好而有趣。
然而對(duì)于The Grammar of Graphic的理論的實(shí)踐,并非Tableau獨(dú)占,ggplot作為R語(yǔ)言上得一個(gè)圖形庫(kù),其理論基礎(chǔ)也是這本書(shū)。(注,筆者曾就職的某BI巨頭,主要職責(zé)也是數(shù)據(jù)可視化,我們?cè)?jīng)和加拿大團(tuán)隊(duì)研發(fā)過(guò)類似的產(chǎn)品,基于HTML5和D3,可惜由于種種原因未能推向市場(chǎng))
現(xiàn)在越來(lái)越多的人開(kāi)始使用python來(lái)做數(shù)據(jù)分析,IPython Notebook尤其令人喜愛(ài),它的實(shí)時(shí)交互把腳本語(yǔ)言的優(yōu)勢(shì)發(fā)揮到極致。那么怎樣才能在IPython Notebook中使用ggplot呢?我這里跟大家分享三種不同的方式供大家選擇。
RPy2
第一種方式是使用rpy2, rpy2是對(duì)rpy的改寫(xiě)和重新設(shè)計(jì),旨在提供Python用戶在python中使用R的API。
rpy2提供了對(duì)R語(yǔ)言的對(duì)象和方法的基本封裝,當(dāng)然也包括可視化的圖庫(kù)這一塊。
下面就是一段運(yùn)行g(shù)gplot的R程序使用rpy2在python中運(yùn)行的例子:
?
from rpy2 import robjects from rpy2.robjects import Formula, Environment from rpy2.robjects.vectors import IntVector, FloatVector from rpy2.robjects.lib import grid from rpy2.robjects.packages import importr, data import rpy2.robjects.lib.ggplot2 as ggplot2 # The R 'print' function rprint = robjects.globalenv.get("print") stats = importr('stats') grdevices = importr('grDevices') base = importr('base') datasets = importr('datasets') mtcars = data(datasets).fetch('mtcars')['mtcars'] pp = ggplot2.ggplot(mtcars) + \ ggplot2.aes_string(x='wt', y='mpg', col='factor(cyl)') + \ ggplot2.geom_point() + \ ggplot2.geom_smooth(ggplot2.aes_string(group = 'cyl'), method = 'lm') pp.plot()
以上程序在IPython Notebook中運(yùn)行會(huì)有缺陷,會(huì)彈出一個(gè)新的窗口顯示圖,而且該python進(jìn)程會(huì)阻塞在那里。我們希望圖表能內(nèi)嵌在IPython Notebook的頁(yè)面中,為了解決該問(wèn)題,我們引入如下代碼:
?
%matplotlib inline import uuid from rpy2.robjects.packages import importr from IPython.core.display import Image grdevices = importr('grDevices') def ggplot_notebook(gg, width = 800, height = 600): fn = '{uuid}.png'.format(uuid = uuid.uuid4()) grdevices.png(fn, width = width, height = height) gg.plot() grdevices.dev_off() return Image(filename=fn)
運(yùn)行上述代碼后,我們把ggplot的調(diào)用pp.plot()改為調(diào)用ggplot_notebook(pp, height=300)就能成功嵌入顯示ggplot的結(jié)果。
RMagic
另一種方式是使用rmagic,rmagicy實(shí)際上依賴于rpy2。它的使用方式更像是直接在使用R
?
%load_ext rmagic library(ggplot2) dat <- data.frame(x = rnorm(10), y = rnorm(10), lab = sample(c('A', 'B'), 10, replace = TRUE)) x <- ggplot(dat, aes(x = x, y = y, color = lab)) + geom_point() print(x)
運(yùn)行結(jié)果如下
ggplot for python
ggplot是一個(gè)python的庫(kù),基本上是對(duì)R語(yǔ)言ggplot的功能移植到Python上。
運(yùn)行安裝腳本
pip install ggplot
安裝成功后,可以試一下這個(gè)例子
?
%matplotlib inline import pandas as pd from ggplot import * meat_lng = pd.melt(meat[['date', 'beef', 'pork', 'broilers']], id_vars='date') ggplot(aes(x='date', y='value', colour='variable'), data=meat_lng) + \ geom_point() + \ stat_smooth(color='red')
結(jié)果如下:
總結(jié)
本文提供了三種不同的方式在Python(IPython Notebook)中調(diào)用ggplot。
rpy2和Rmagic都是一種對(duì)R的橋接,所以都需要安裝R。不同之處在于rpy2提供Python接口而Rmagic更接近R。
ggplot Python庫(kù)是ggplot的Python移植,所以無(wú)需安裝R,部署起來(lái)更為簡(jiǎn)單,但功能上也許和R的ggplot還有差距。
大家可以根據(jù)自己的需要做出選擇。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
