今天接到一個新的任務(wù),要對一個140多M的csv文件進行數(shù)據(jù)處理,總共有170多萬行,嘗試了導(dǎo)入本地的MySQL數(shù)據(jù)庫進行查詢,結(jié)果用Navicat導(dǎo)入直接卡死....估計是XAMPP套裝里面全默認配置的MySQL性能不給力,又嘗試用R搞一下吧結(jié)果發(fā)現(xiàn)光加載csv文件就要3分鐘左右的時間,相當不給力啊,翻了翻萬能的知乎發(fā)現(xiàn)了Python下的一個神器包:Pandas(熊貓們?),加載這個140多M的csv文件兩秒鐘就搞定,后面的分類匯總等操作也都是秒開,太牛
系統(tǒng) 2019-09-27 17:52:33 1777
由于工作的需求,需要用python做一個類似網(wǎng)絡(luò)爬蟲的采集器。雖然Python的urllib模塊提供更加方便簡潔操作,但是涉及到一些底層的需求,如手動設(shè)定User-Agent,Referer等,所以選擇了直接用socket進行設(shè)計。當然,這樣的話,需要對HTTP協(xié)議比較熟悉,HTTP協(xié)議這里就不做講解了。整個python的代碼如下:#!/usr/binenvpythonimportsockethost="www.baidu.com"se=socket.so
系統(tǒng) 2019-09-27 17:52:30 1777
目錄python多線程詳解一、線程介紹什么是線程為什么要使用多線程二、線程實現(xiàn)threading模塊自定義線程守護線程主線程等待子線程結(jié)束多線程共享全局變量互斥鎖遞歸鎖信號量(BoundedSemaphore類)事件(Event類)三、GIL(GlobalInterpreterLock)全局解釋器鎖python多線程詳解一、線程介紹什么是線程線程(Thread)也叫輕量級進程,是操作系統(tǒng)能夠進行運算調(diào)度的最小單位,它被包涵在進程之中,是進程中的實際運作單位
系統(tǒng) 2019-09-27 17:51:56 1777
原文鏈接:https://aiprocon.csdn.net/?utm_source=wx作者|xiaoyu來源|Python與數(shù)據(jù)科學(xué)前言學(xué)過Python數(shù)據(jù)分析的朋友都知道,在可視化的工具中,有很多優(yōu)秀的三方庫,比如matplotlib,seaborn,plotly,Boken,pyecharts等等。這些可視化庫都有自己的特點,在實際應(yīng)用中也廣為大家使用。plotly、Boken等都是交互式的可視化工具,結(jié)合Jupyternotebook可以非常靈活
系統(tǒng) 2019-09-27 17:51:48 1777
在Python中通過GET來獲取頁面的COOKIE是非常簡單的事情,下面的代碼實例演示了如何利用Python獲取COOKIE內(nèi)容#!/usr/bin/envpython#coding=utf-8#-*-coding:utf-8-*-#encoding=utf-8importurllibimporturllib2importhttplibcj=''header={'Host':'218.94.26.135','Accept-Language':'zh-CN'
系統(tǒng) 2019-09-27 17:50:46 1777
本文原創(chuàng)并首發(fā)于公眾號【Python貓】,未經(jīng)授權(quán),請勿轉(zhuǎn)載。原文地址:https://mp.weixin.qq.com/s/XzCqoCvcpFJt4A-E4WMqaA(一)最近,我突然想到一個問題:相比其它語言,有哪些概念或習(xí)慣叫法是Python特有的?在朋友圈提出這個問題后,我得到最多的回復(fù)是——Pythonic。這個回復(fù)一點都不意外,名字中自帶Python的,當然是特有的啦,與它相似的,還有Pythonista。這兩個詞是啥意思呢?Python圈內(nèi)
系統(tǒng) 2019-09-27 17:50:45 1777
說起Python強大的地方,你可能想到是它的優(yōu)雅、簡潔、開發(fā)速度快,社區(qū)活躍度高。但真正使得這門語言經(jīng)久不衰的一個重要原因是它的無所不能,因為社區(qū)有各種各樣的第三庫,使得我們用Python實現(xiàn)一個東西實在是太簡單了,你經(jīng)常會看到幾行代碼實現(xiàn)爬蟲,10行代碼實現(xiàn)人臉識別,雖然有些夸張,但確實就是有這樣的庫幫你把所有的繁文縟節(jié)全部封裝了,最后給你開放一個優(yōu)雅的API。今天給你推薦的這個庫叫“FuckIt.py”,名字一看就是很黃很暴力的那種,作者是這樣介紹它的
系統(tǒng) 2019-09-27 17:50:33 1777
這兩天一直在windows上做用python(版本是3.6)抽取pdf中內(nèi)容的東西,主要就是從pdf中提取出里面的字體和表格內(nèi)容。嘗試了好些個庫,現(xiàn)在算是找到比較符合我需求(比較好用)的pdf解析的了。在這個過程中,用了以下幾個庫:PDFminerPDFminer算是一個還算不錯的吧,安裝直接用pip安裝就行。如下:pipinstallpdfminer3k它這個對pdf中內(nèi)容做了好些個對象,用這些對象來存儲不同的信息,比如表格有LTFigure對象存儲、文
系統(tǒng) 2019-09-27 17:50:26 1777
JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換格式,它基于ECMAScript的一個子集。JSON采用完全獨立于語言的文本格式,這些特性使JSON成為理想的數(shù)據(jù)交換格式,易于人閱讀和編寫,同時也易于機器解析和生成,在接口數(shù)據(jù)開發(fā)和傳輸中非常常用。Python3中我們利用內(nèi)置模塊json解碼和編碼JSON對象。json模塊提供了四個功能:dumps、dump、loads、loaddumps把數(shù)據(jù)類型轉(zhuǎn)換成字符串dump把數(shù)
系統(tǒng) 2019-09-27 17:50:16 1777
很多初學(xué)者會使用windows作為開發(fā)機使用,今天就來看下如何在win10和Linux下分別安裝Python虛機環(huán)境。虛機環(huán)境有非常多的優(yōu)點,今天我們用的虛擬環(huán)境是virtualenv。virtualenv用于創(chuàng)建獨立的Python環(huán)境,多個Python相互獨立,互不影響,它能夠:1.在沒有權(quán)限的情況下安裝新套件2.不同應(yīng)用可以使用不同的套件版本3.套件升級不影響其他應(yīng)用win10下安裝1.打開cmd安裝虛擬環(huán)境包pipinstallvirtualenvw
系統(tǒng) 2019-09-27 17:49:26 1777