Ben 7447a03eff fix crawl_data | 1 year ago | |
---|---|---|
.gitignore | 1 year ago | |
README.md | 1 year ago | |
config.json | 1 year ago | |
paper2000.json | 1 year ago | |
requestments.txt | 1 year ago | |
spider.py | 1 year ago |
1、读取配置文件中的数据库参数;
2、连接数据库,并创建 papers 集合;
3、实现 /add_paper 端点,用于添加样本数据;
4、实现 /crawl_data 端点,用于爬取数据;
5、实现 worker 函数,用于处理爬取任务。
requirements.txt
requests
pymongo
add_paper
python3 spider.py add_paper --path paper2000.json
crawl_data
python spider.py crawl_data