1.查詢數(shù)據(jù)庫中數(shù)據(jù)表是否存在,不存在則創(chuàng)建
import psycopg2
conn = psycopg2.connect(host=***, port=***, database=***, user=***, password=***)
cur = conn.cursor()
try:
cur.execute("select to_regclass(" + "\'" + table_name + "\'" + ") is not null")
rows = cur.fetchall()
except Exception as e:
rows = []
conn.close()
if rows:
data = rows
flag = data[0][0]
print(flag)
flag的值即為查詢出來的表是否存在的狀態(tài),存在則為True,不存在則為False
利用python在數(shù)據(jù)庫創(chuàng)建表的例子網(wǎng)上很多,在此就不進(jìn)行贅述了。
-
executemany()方法批量輸入數(shù)據(jù)到數(shù)據(jù)庫
data是需要插入的數(shù)據(jù),為list類型,3列,數(shù)據(jù)條數(shù)有70多萬條
import psycopg2
conn = psycopg2.connect(host=***, port=***, database=***, user=***, password=***)
cur = conn.cursor()
sql = "insert into " + table_name + " values(%s, %s, %s)"
cur.executemany(sql, data)
conn.commit()
conn.close()
該方法下,70多萬條數(shù)據(jù)插入到數(shù)據(jù)庫需要3.88分鐘
- datafame的to_sql()插入數(shù)據(jù)到數(shù)據(jù)庫
from sqlalchemy import create_engine
result = pd.DataFrame(data)
engine = create_engine('postgresql://user:password@host:port/database')
pd.io.sql.to_sql(result, table_name, engine, index = False, if_exists='append')
該方法下,70多萬條數(shù)據(jù)插入到數(shù)據(jù)庫需要4.42分鐘
- 強大的copy_from(),是postgresSQ的內(nèi)置函數(shù)
import psycopg2
from sqlalchemy import create_engine
import pandas as pd
import StringIO
from io import BytesIO
data1 = pd.DataFrame(data)
# dataframe類型轉(zhuǎn)換為IO緩沖區(qū)中的str類型
output = BytesIO()
data1.to_csv(output, sep='\t', index=False, header=False)
output1 = output.getvalue()
conn = psycopg2.connect(host=***, user=***, password=***, database=***)
cur = conn.cursor()
cur.copy_from(StringIO.StringIO(output1), table_name1, null='',columns=columns)
conn.commit()
cur.close()
conn.close()
print('done')
這兒需要特別記錄下,copy_from是默認(rèn)將\N作為NULL值得,但是to_csv會將None值變?yōu)椤啊弊址?,因此需要在copy_from中說明null='',即空字符串就是代表的NULL,找了好久才找到快速解決null值得問題,是中文網(wǎng)站上找到的,確實英文提問英文回答的,應(yīng)該是兩個老外一問一答
在實際使用中又遇到一個問題,查詢數(shù)據(jù)庫時,如果字段為int類型,存在空值,python查詢出數(shù)據(jù)后,int類型空值會變成NaN,to_csv時,int類型字段會被修改為float類型的,我的解決方法是在查詢sql時將int型字段轉(zhuǎn)換為字符串類型的。
用copy_from()方法,70多萬條數(shù)據(jù)插入到數(shù)據(jù)庫僅僅需要0.06分鐘,相比于前兩種方法執(zhí)行效率高太多啦
嘗試了多張數(shù)據(jù)表循環(huán)批量插入,之前用executemany()需要15個小時才能插入完成的數(shù)據(jù),用copy_from()只需要90分鐘左右。相比來說已經(jīng)很優(yōu)秀了!
原文地址:https://blog.csdn.net/skye1208/article/details/90264431
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
