Menu
您的位置:中国房产新闻网 > 数据研究 > >

如何用Python编写信息房产新闻收集之子域名收集脚本

新闻来源:中国新闻网  2018-03-11 20:50

1.发起一个搜索的http请求  

基于上述例子,依葫芦画瓢也可以获取子域名了。  

0X02 总结

其实子域名挖掘就是一个小小的爬虫,只不过我们是用百度的引擎来爬取,不过呢,用bing引擎爬去的数据量会比百度更多,所以建议大家使用bing的引擎,代码的编写方法和百度的大同小异就不放代码了,给个小tip,bing搜索域名用的是domain:qq.com这个的语法哦。

天啊,100页我要写100个url吗?当然不是,循环语句解决你的困扰。  

2.正则表达式——(.*?) 闪亮登场:

import requests     #导入requests库

response=requests.get(url).content  #get请求,content是获得返回包正文

#-*-coding:utf-8-*-

print response

match='style="text-decoration:none;">(.*?)/'  

 

任务:

使用脚本借助搜索引擎搜集网站子域名信息。  

#pn=0为第一页,pn=10为第2页,pn=20为第3页…  

假设我们要从一串字符串'123xxIxx123xxLikexx123xxStudyxx'取出ILike Study,我们可以这么写:

i=i*10  

style="text-decoration:none;">chuangshi.qq.com/ </a>

095615wdx9v9s8r8rbrurb.jpg.thumb.jpg

下面是百度搜索引擎爬取子域名的完整代码。

eg='123xxIxx123xxLikexx123xxStudyxx'  

foriinrange(48):  

importrequests  

url='?wd=site:qq.com'#设定url请求  

['','chuangshi.qq.com','1314.qq.com','lol.qq.com','tgp.qq.com','open.qq.com','https:','ac.qq.com']  

095615wdx9v9s8r8rbrurb.jpg.thumb.jpg

#-*-coding:utf-8-*-  

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多