如何用Python编写信息房产新闻收集之子域名收集脚本

新闻来源：中国新闻网 2018-03-11 20:50

1.发起一个搜索的http请求

基于上述例子，依葫芦画瓢也可以获取子域名了。

0X02 总结

其实子域名挖掘就是一个小小的爬虫，只不过我们是用百度的引擎来爬取，不过呢，用bing引擎爬去的数据量会比百度更多，所以建议大家使用bing的引擎，代码的编写方法和百度的大同小异就不放代码了，给个小tip，bing搜索域名用的是domain:qq.com这个的语法哦。

天啊，100页我要写100个url吗？当然不是，循环语句解决你的困扰。

2.正则表达式——(.*?) 闪亮登场：

import requests #导入requests库

response=requests.get(url).content #get请求,content是获得返回包正文

#-*-coding:utf-8-*-

print response

match='style="text-decoration:none;">(.*?)/'

任务：

使用脚本借助搜索引擎搜集网站子域名信息。

#pn=0为第一页，pn=10为第2页，pn=20为第3页…

假设我们要从一串字符串'123xxIxx123xxLikexx123xxStudyxx'取出ILike Study，我们可以这么写：

i=i*10

style="text-decoration:none;">chuangshi.qq.com/ </a>

095615wdx9v9s8r8rbrurb.jpg.thumb.jpg

下面是百度搜索引擎爬取子域名的完整代码。

eg='123xxIxx123xxLikexx123xxStudyxx'

foriinrange(48):

importrequests

url='?wd=site:qq.com'#设定url请求

['','chuangshi.qq.com','1314.qq.com','lol.qq.com','tgp.qq.com','open.qq.com','https:','ac.qq.com']

095615wdx9v9s8r8rbrurb.jpg.thumb.jpg

#-*-coding:utf-8-*-

免责声明：凡本网注明 “来源：XXX(非中国房产新闻网)” 的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

标签：: 子域名, 最全安全工具信息,安全工具下载地址,安全工具排行,

分享到：

上一篇：MongoDB + Spark: 完整房产新闻的大数据解决方案
下一篇：大数据是什么？一地产新闻文让你读懂大数据

热点资讯

一周