乌云公开披露漏洞、知识库爬虫与全站镜像搜索技术

目录表：

| 项目名称 | 描述 |

| ------ | ------------------------------------------------------------ |

| wooyun_public | 乌云公开漏洞、知识库爬虫和搜索、乌云整站镜像 |

| install_components | 安装相关组件 |

| crawl_and_search | 爬虫 |

| search | 搜索 |

1. install_components:

```bash

python 2.7 and pip

mongodb

scrapy (pip install scrapy)

flask (pip install Flask)

pymongo (pip install pymongo)

```

2. crawl_and_search:

乌云公开漏洞和知识库的爬虫分别位于目录scrapy/wooyun和scrapy/wooyun_drops。运行以下命令进行爬取：

```bash

scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false

```

有三个参数用于控制爬取：

- `page_max`:控制爬取的页数，默认为1,如果值为0,表示所有页面。

- `local_store`:控制是否将每个漏洞离线存放到本地，默认为false。

- `update`:控制是否重复爬取，默认为false。

第一次爬取全部内容时，用以下命令：

```bash

scrapy crawl wooyun -a page_max=0 -a update=true

```

平时只爬取最近的更新时，用以下命令：

```bash

scrapy crawl wooyun -a page_max=1

```

可以根据自己的爬取频率和网站更新情况调整`page_max`的值。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时(10M电信带宽);爬取全部知识库，总共约500M空间。(截止2015年10月)

本程序只用于技术研究和个人使用，程序组件均为开源程序，漏洞和知识库来源于乌云公开漏洞，版权归wooyun.org。期待雨过天晴、重开wooyun!

评：作者太赞了，秒Star。在之前分享过两篇：乌云Drops文章备份、2016.7以前乌云公开漏洞下载，强大之处肯定无法和这个相比，但如果自己没那么大空间，也不想过度折腾，之前分享那两个又是最合适的。更新。