# sem-spider

## 实现步骤
1、读取配置文件中的数据库参数；

2、连接数据库，并创建 papers 集合；

3、实现 /add_paper 端点，用于添加样本数据；

4、实现 /crawl_data 端点，用于爬取数据；

5、实现 worker 函数，用于处理爬取任务。

## 依赖
requirements.txt 

```sh
requests
pymongo
```


## 运行方式

add_paper
``` python
python3 spider.py add_paper --path paper2000.json
```

crawl_data
``` python
python spider.py crawl_data
```