亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python多進程讀取mysql表

系統 1754 0

表數據超過百萬級別時使用pandas讀取數據速度過慢,如果仍然想用pandas讀取,可以通過多進程提高效率。同時可以將常用數據保存為pkl文件,以便后續使用。
@主要代碼實現

            
              
                #按照表中的某字段將表劃分為比較均勻的多個子集
              
              
                #本例中需要讀取的表中包含了城市字段,
              
              
                #且涉及的城市包含了全國大部分城市,數據分布較為均勻,因此制作了一張省份城市配置表,將數據劃分
              
              
                #讀取省份-城市配置表,獲取城市列表
              
              
                def
              
              
                get_division_list
              
              
                (
              
              db_connect
              
                ,
              
               division_table
              
                )
              
              
                :
              
              
    sql 
              
                =
              
              
                'select * from {};'
              
              
                .
              
              
                format
              
              
                (
              
              division_table
              
                )
              
              
    data 
              
                =
              
               pd
              
                .
              
              read_sql
              
                (
              
              sql
              
                ,
              
               con 
              
                =
              
               db_connect
              
                )
              
              
                #省份列表
              
              
    province_list 
              
                =
              
               data
              
                [
              
              
                'province'
              
              
                ]
              
              
                .
              
              unique
              
                (
              
              
                )
              
              
                .
              
              tolist
              
                (
              
              
                )
              
              
                #獲取城市列表
              
              
    city_list 
              
                =
              
              
                [
              
              
                ]
              
              
                for
              
               code 
              
                in
              
               province_list
              
                :
              
              
        city 
              
                =
              
               data
              
                [
              
              data
              
                [
              
              
                'province'
              
              
                ]
              
              
                .
              
              
                str
              
              
                .
              
              contains
              
                (
              
              code
              
                )
              
              
                ]
              
              
                [
              
              
                'city_code'
              
              
                ]
              
              
                .
              
              unique
              
                (
              
              
                )
              
              
                .
              
              tolist
              
                (
              
              
                )
              
              
        city_list
              
                .
              
              append
              
                (
              
              city 
              
                )
              
              
                #此處返回的城市列表demo為[['南京','蘇州','揚州'],['深圳','廣州']]
              
              
                return
              
               city_list
 
 
              
                #單進程讀取目標表   
              
              
                def
              
              
                read_data
              
              
                (
              
              db_connect
              
                ,
              
               target_table
              
                ,
              
               code
              
                )
              
              
                :
              
              
    start 
              
                =
              
               time
              
                .
              
              time
              
                (
              
              
                )
              
              
    sql 
              
                =
              
              
                'select * from {0} where city_code in ({1});'
              
              
                .
              
              
                format
              
              
                (
              
              target_table
              
                ,
              
              
                "'"
              
              
                +
              
              
                "','"
              
              
                .
              
              join
              
                (
              
              code
              
                )
              
              
                +
              
              
                "'"
              
              
                )
              
              
    data_df 
              
                =
              
               pd
              
                .
              
              read_sql
              
                (
              
              sql
              
                ,
              
              con 
              
                =
              
               db_connect
              
                )
              
              
                print
              
              
                (
              
              
                '數據讀入成功!'
              
              
                )
              
              
    end 
              
                =
              
               time
              
                .
              
              time
              
                (
              
              
                )
              
              
                print
              
              
                (
              
              
                'Task runs %0.2f seconds.'
              
              
                %
              
              
                (
              
              
                (
              
              end 
              
                -
              
               start
              
                )
              
              
                )
              
              
                )
              
              
                return
              
               data_df


              
                if
              
               __name__ 
              
                ==
              
              
                "__main__"
              
              
                :
              
              
                # 開啟的進程數, 與邏輯核保持一致即可,普通臺式機建議18,高性能工作站建議60
              
              
    target_table 
              
                =
              
              
                'table_name1'
              
              
    division_table 
              
                =
              
              
                'table_name2'
              
              
    db_connect
              
                =
              
               connect_db
              
                (
              
              
                )
              
              
                #數據庫連接函數,詳見最后所附完整項目代碼
              
              
    city_list 
              
                =
              
               get_division_list
              
                (
              
              db_connect
              
                ,
              
               division_table
              
                )
              
              

    proc_num 
              
                =
              
              
                31
              
              
                #進程數
              
              
    pool 
              
                =
              
               Pool
              
                (
              
              processes 
              
                =
              
               proc_num
              
                )
              
              
    jop_result 
              
                =
              
              
                [
              
              
                ]
              
              
                for
              
               code 
              
                in
              
               city_list 
              
                :
              
              
                # 維持執行的進程總數為processes,當一個進程執行完畢后會添加新的進程進去
              
              
        res 
              
                =
              
               pool
              
                .
              
              apply_async
              
                (
              
              read_data
              
                ,
              
              
                (
              
              db_connect
              
                ,
              
              target_table 
              
                ,
              
              code
              
                ,
              
              
                )
              
              
                )
              
              
        jop_result
              
                .
              
              append
              
                (
              
              res
              
                )
              
              

    pool
              
                .
              
              close
              
                (
              
              
                )
              
              
                #關閉進程池,防止進一步操作。如果所有操作持續掛起,它們將在工作進程終止前完成
              
              
    pool
              
                .
              
              join
              
                (
              
              
                )
              
              
                #調用join之前,先調用close函數,否則會出錯。執行完close后不會有新的進程加入到pool,join函數等待所有子進程結束
              
              
                #獲取結果,本例中將讀取的數據保存到本地的pkl文件中,以便后續使用
              
              
                for
              
               index
              
                ,
              
              tmp 
              
                in
              
              
                enumerate
              
              
                (
              
              jop_result
              
                )
              
              
                :
              
              
        result_path 
              
                =
              
               r
              
                'path\result_'
              
              
                +
              
              
                str
              
              
                (
              
              index
              
                )
              
              
                +
              
              
                '.pkl'
              
              
        tmp_df 
              
                =
              
               tmp
              
                .
              
              get
              
                (
              
              
                )
              
              
                with
              
              
                open
              
              
                (
              
              result_path
              
                ,
              
              
                'wb'
              
              
                )
              
              
                as
              
               f
              
                :
              
              
            pickle
              
                .
              
              dump
              
                (
              
              tmp_df
              
                ,
              
               f
              
                )
              
              
                ;
              
            
          

完整代碼鏈接: https://github.com/AlisaAlbert/TransferData/blob/master/ReadData.py


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 免费视频久久看 | 91中文字幕在线观看 | 亚洲国产精品久久综合 | 久久美| 中国特黄特级真人毛片 | 日日摸夜夜爽久久综合 | 天天摸天天爽天天澡视频 | 久久精品国产亚洲片 | 午夜免费福利视频 | 日韩天堂 | 久久爱综合网 | 欧美成人香蕉在线观看 | 国产一级久久久久久毛片 | 亚洲一区二区三区免费视频 | 97干干干| 免费超爽大片黄网站 | 国产精品美女久久久久网 | 四虎免费紧急入口观看 | 天天舔天天爽 | 国产亚洲精品视频中文字幕 | 国产情精品嫩草影院88av | 国产伦精品一区二区三区高清 | 欧美视频在线观看免费 | 理论大片三在线观看 | 国产91免费在线观看 | 奇米影视亚洲狠狠色 | 奇米影视在线 | 俄罗斯美女逼 | 久久免费看 | 一区二区国产在线播放 | 99爱色| 毛片毛片毛片毛片出来毛片 | 精品一区视频 | 欧美精品一区二区三区在线播放 | 97福利影院 | 朴妮唛禁福利视频在线 | 欧美精品免费在线观看 | 久久精品久久久久久久久人 | 国产成人高清 | 曰韩一级片| 免费成人一级片 |