1.发起一个搜索的http请求
基于上述例子,依葫芦画瓢也可以获取子域名了。
0X02 总结其实子域名挖掘就是一个小小的爬虫,只不过我们是用百度的引擎来爬取,不过呢,用bing引擎爬去的数据量会比百度更多,所以建议大家使用bing的引擎,代码的编写方法和百度的大同小异就不放代码了,给个小tip,bing搜索域名用的是domain:qq.com这个的语法哦。
天啊,100页我要写100个url吗?当然不是,循环语句解决你的困扰。
2.正则表达式——(.*?) 闪亮登场:
import requests #导入requests库
response=requests.get(url).content #get请求,content是获得返回包正文
#-*-coding:utf-8-*-
print response
match='style="text-decoration:none;">(.*?)/'
任务:使用脚本借助搜索引擎搜集网站子域名信息。
#pn=0为第一页,pn=10为第2页,pn=20为第3页…
假设我们要从一串字符串'123xxIxx123xxLikexx123xxStudyxx'取出ILike Study,我们可以这么写:
i=i*10
style="text-decoration:none;">chuangshi.qq.com/ </a>
下面是百度搜索引擎爬取子域名的完整代码。 eg='123xxIxx123xxLikexx123xxStudyxx' foriinrange(48): importrequests url='?wd=site:qq.com'#设定url请求 ['','chuangshi.qq.com','1314.qq.com','lol.qq.com','tgp.qq.com','open.qq.com','https:','ac.qq.com'] #-*-coding:utf-8-*-