亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

使用Python程序抓取新浪在國內的所有IP的教程

系統 1835 0

數據分析,特別是網站分析中需要對訪問者的IP進行分析,分析IP中主要是區分來訪者的省份+城市+行政區數據,考慮到目前純真IP數據庫并沒有把這些數據做很好的區分,于是尋找了另外一個可行的方案(當然不是花錢買哈)。解決方案就是抓取新浪的IP數據。

新浪的IP數據接口為:
?
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85

返回的數據為:
?

復制代碼 代碼如下:

{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}

其返回的內容中已經包含了省份+城市+行政區信息了,這就是我們真實想要的。

下面就來說說如何來抓取這部分IP數據,要抓取這部分數據的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國的IP段。考慮到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個IP基本上都是在一個地區,所以我們要窮舉的數據有少了很多。對于窮舉最重要的是把IP地址換成INT型。

具體國內有多少IP地址段,可以到APNIC官方網站去查找或下面的文檔

http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst

下面就來看看窮舉程序如何寫:

?

            
import re

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv3(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d" % (ip1, ip2, ip3)

 
i = open('ChinaIPAddress.csv', 'r')
list = i.readlines()
for iplist in list:
  pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}')
  ips = pattern.findall(iplist)
  x = ips[0]
  y = ips[1]
  for ip in range (ipv3_to_int(x),ipv3_to_int(y)):
    ipadress=str(ip)
    #ip_address = int_to_ipv3(ip)
    o = open('ChinaIPAddress.txt','a')
    o.writelines(ipadress)
    o.writelines('\n')
  o.close()
i.close()


          

當上面的不走完成后就可以對新浪IP接口進行抓取了,抓取代碼如下:
?

            
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib,urllib2, simplejson, sqlite3, time

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv4(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d.0" % (ip1, ip2, ip3)

 
def fetch(ipv4, **kwargs):
  kwargs.update({
    'ip': ipv4,
    'format': 'json',
  })
  DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"
  url = DATA_BASE + '?' + urllib.urlencode(kwargs)
  print url
  fails = 0
  try:
    result = simplejson.load(urllib2.urlopen(url,timeout=20))
  except (urllib2.URLError,IOError):
    fails += 1
    if fails < 10:
      result = fetch(ipv4)
    else:
      sleep_download_time = 60*10
      time.sleep(sleep_download_time)
      result = fetch(ipv4)
  return result

 
def dbcreate():
  c = conn.cursor()
  c.execute('''create table ipdata(
    ip integer primary key,
    ret integer,
    start text,
    end text,
    country text,
    province text,
    city text,
    district text,
    isp text,
    type text,
    desc text
  )''')
  conn.commit()
  c.close()

 
def dbinsert(ip,address):
  c = conn.cursor()
  c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))
  conn.commit()
  c.close()

 
conn = sqlite3.connect('ipaddress.sqlite3.db')
dbcreate()

 
i = open('ChinaIPAddress.txt','r')
list = [s.strip() for s in i.readlines()]
end = 0
for ip in list:
  ip = int(ip)
  if ip > end :
    ipaddress = int_to_ipv4(ip)
    info = fetch(ipaddress)
    if info['ret'] == -1:
      pass
    else:
      dbinsert(ip,info)
      end = ipv3_to_int(info['end'])
      print ip,end
  else :
    pass
i.close()


          

到此就能把新浪所有的國內IP數據給抓取出來,然后在數據分析的工程中大派用場。~


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久精品99成人中文字幕880 | 国产精品一级视频 | 欧美日日日| 99久热在线精品视频观看 | 色综合精品 | 国产五月色婷婷六月丁香视频 | 欧洲午夜视频 | 日韩视频在线观看一区二区 | 精品国产免费久久久久久婷婷 | 精品视频久久 | 午夜影院福利 | 中文字幕免费在线播放 | 精品特级一级毛片免费观看 | 亚洲视频www | 久久国产精品-久久精品 | 99中文字幕| 日本一级毛一级毛片短视频 | 亚洲精品国产一区二区三 | 欧美激情日本一道免费视频 | 66精品综合久久久久久久 | 久久久久久久综合 | 97久久久亚洲综合久久88 | 久久精品国产免费看久久精品 | 宅男看片午夜大片啪啪mv | 亚洲国产爱 | 亚洲男人的天堂久久无 | 亚洲国产日韩欧美 | 欧美成人免费观看久久 | 国产精品国产亚洲精品不卡 | 久久er热这里只有精品23 | 精品国产你懂的在线观看 | 无遮挡又黄又爽又色的视频免费 | 天天干天天射天天操 | 99综合| 免费 高清 日本1在线观看 | 四虎成人欧美精品在永久在线 | 色狠狠色综合吹潮 | 久久夜色精品国产欧美 | 亚洲国产二区 | 久久综合在线 | 亚洲综合一区二区精品久久 |