本書特色
用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對于混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。
- 快速了解Python基本語法、數據類型和語言概念
- 概述數據的獲取與存儲方式
- 清洗數據并格式化,以消除數據集中的重復值與錯誤
- 學習何時對數據進行標準化,何時對數據清理進行測試并將其腳本化
- 使用Scrapy寫網絡爬蟲
- 利用新的Python庫和技術對數據集進行探索與分析
- 使用Python解決方案將整個數據處理過程自動化
“如果你一直感覺電子表格(甚至關系型數據庫)無法回答你想要提出的問題,或者除這些工具之外你準備進一步學習,那么這本書非常適合你。我一直在等待這本書的出現。”
——Derek Willis,ProPublica新聞應用開發者,OpenElections聯合創始人
“所有新手數據科學家、數據工程師或其他技術方面的數據專家都應該讀一讀這本實踐指南。數據處理領域正需要這樣一本書,真希望我第一次開始用Python處理數據時就能有它指導。”
——Tyrone Grandison博士,Proficiency Labs Intl. CEO
目錄
版權聲明
O’Reilly Media, Inc.介紹
本書贊譽
前言
第 1 章 Python 簡介
第 2 章 Python 基礎
第 3 章 供機器讀取的數據
第 4 章 處理 Excel 文件
第 5 章 處理 PDF 文件,以及用 Python 解決問題
第 6 章 數據獲取與存儲
第 7 章 數據清洗:研究、匹配與格式化
第 8 章 數據清洗:標準化和腳本化
第 9 章 數據探索和分析
第 10 章 展示數據
第 11 章 網頁抓取:獲取并存儲網絡數據
第 12 章 高級網頁抓取:屏幕抓取器與爬蟲
第 13 章 應用編程接口
第 14 章 自動化和規模化
第 15 章 結論
附錄 A 編程語言對比
附錄 B 初學者的 Python 學習資源
附錄 C 學習命令行
附錄 D 高級 Python 設置
附錄 E Python 陷阱
附錄 F IPython 指南
附錄 G 使用亞馬遜網絡服務
關于作者
關于封面
下載
https://pan.baidu.com/s/1B2H_CxsXfnjRouxU6bCTRw
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
