博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬取手机归属地
阅读量:5876 次
发布时间:2019-06-19

本文共 1023 字,大约阅读时间需要 3 分钟。

用python+bs4爬取了手机归属地数据:
 
import urllib.requestfrom bs4 import BeautifulSoupdef spider1(url):    headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8' } opener = urllib.request.build_opener() opener.addheaders = [headers] source_code=opener.open(url).read() soup=BeautifulSoup(source_code,"html.parser",from_encoding="gbk") for link in soup.find_all('dd'): baseurl=r'http://guisd.com'+link.a['href']+r'all/' haoduan=link.a.text print(haoduan) source_code=opener.open(baseurl).read() soup=BeautifulSoup(source_code,"html.parser",from_encoding="gbk") for tabb in soup.find_all('tr')[1:]: for tdd in tabb.find_all('td')[0:6]: f.writelines(tdd.get_text()+',') f.writelines('\n') f=open('text.txt','w+')spider1('http://guisd.com/lb/')f.close()

最终效果如下:

转载于:https://www.cnblogs.com/stephen2016/p/6101978.html

你可能感兴趣的文章
poj2230
查看>>
编程之美-3.3-计算字符串的相似度
查看>>
[转]Nginx 0.8.x + PHP 5.2.13(FastCGI)搭建胜过Apache十倍的Web服务器(第6版)
查看>>
构建根文件系统(5)构建dev目录
查看>>
volatile修饰函数的返回值
查看>>
经济周期
查看>>
No module named mysqldb
查看>>
(转)File's Owner 和 First Responder的区别
查看>>
oracle中的NVL,NVL2,NULLIF,COALESCE函数使用
查看>>
上班族的坐姿
查看>>
ubuntu 12.04 下面安装vmware workstation 8.0.4
查看>>
[原创]FineUI秘密花园(二十三) — 树控件概述
查看>>
【Java学习笔记】如何写一个简单的Web Service
查看>>
VS2010技巧:如何在js文件中使用jQuery智能感知
查看>>
Oracle常用脚本——通过RMAN配置RAC环境的分布式磁带机
查看>>
UML建模类型(转载)
查看>>
Xcode 文档注释
查看>>
转载——Java与WCF交互(二):WCF客户端调用Java Web Service
查看>>
Html5 学习系列(五)Canvas绘图API快速入门(1)
查看>>
JQuery html API支持解析执行Javascript脚本功能实现-代码分析
查看>>