目录表:
| 项目名称 | 描述 |
| ------ | ------------------------------------------------------------ |
| wooyun_public | 乌云公开漏洞、知识库爬虫和搜索、乌云整站镜像 |
| install_components | 安装相关组件 |
| crawl_and_search | 爬虫 |
| search | 搜索 |
1. install_components:
```bash
python 2.7 and pip
mongodb
scrapy (pip install scrapy)
flask (pip install Flask)
pymongo (pip install pymongo)
```
2. crawl_and_search:
乌云公开漏洞和知识库的爬虫分别位于目录scrapy/wooyun和scrapy/wooyun_drops。运行以下命令进行爬取:
```bash
scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false
```
有三个参数用于控制爬取:
- `page_max`:控制爬取的页数,默认为1,如果值为0,表示所有页面。
- `local_store`:控制是否将每个漏洞离线存放到本地,默认为false。
- `update`:控制是否重复爬取,默认为false。
第一次爬取全部内容时,用以下命令:
```bash
scrapy crawl wooyun -a page_max=0 -a update=true
```
平时只爬取最近的更新时,用以下命令:
```bash
scrapy crawl wooyun -a page_max=1
```
可以根据自己的爬取频率和网站更新情况调整`page_max`的值。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。(截止2015年10月)
本程序只用于技术研究和个人使用,程序组件均为开源程序,漏洞和知识库来源于乌云公开漏洞,版权归wooyun.org。期待雨过天晴、重开wooyun!
评:作者太赞了,秒Star。在之前分享过两篇:乌云Drops文章备份、2016.7以前乌云公开漏洞下载,强大之处肯定无法和这个相比,但如果自己没那么大空间,也不想过度折腾,之前分享那两个又是最合适的。更新。