目录表:

| 项目名称 | 描述 |

| ------ | ------------------------------------------------------------ |

| wooyun_public | 乌云公开漏洞、知识库爬虫和搜索、乌云整站镜像 |

| install_components | 安装相关组件 |

| crawl_and_search | 爬虫 |

| search | 搜索 |

1. install_components:

```bash

python 2.7 and pip

mongodb

scrapy (pip install scrapy)

flask (pip install Flask)

pymongo (pip install pymongo)

```

2. crawl_and_search:

乌云公开漏洞和知识库的爬虫分别位于目录scrapy/wooyun和scrapy/wooyun_drops。运行以下命令进行爬取:

```bash

scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false

```

有三个参数用于控制爬取:

- `page_max`:控制爬取的页数,默认为1,如果值为0,表示所有页面。

- `local_store`:控制是否将每个漏洞离线存放到本地,默认为false。

- `update`:控制是否重复爬取,默认为false。

第一次爬取全部内容时,用以下命令:

```bash

scrapy crawl wooyun -a page_max=0 -a update=true

```

平时只爬取最近的更新时,用以下命令:

```bash

scrapy crawl wooyun -a page_max=1

```

可以根据自己的爬取频率和网站更新情况调整`page_max`的值。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。(截止2015年10月)

本程序只用于技术研究和个人使用,程序组件均为开源程序,漏洞和知识库来源于乌云公开漏洞,版权归wooyun.org。期待雨过天晴、重开wooyun!

评:作者太赞了,秒Star。在之前分享过两篇:乌云Drops文章备份、2016.7以前乌云公开漏洞下载,强大之处肯定无法和这个相比,但如果自己没那么大空间,也不想过度折腾,之前分享那两个又是最合适的。更新。