# sem-spider ## 实现步骤 1、读取配置文件中的数据库参数; 2、连接数据库,并创建 papers 集合; 3、实现 /add_paper 端点,用于添加样本数据; 4、实现 /crawl_data 端点,用于爬取数据; 5、实现 worker 函数,用于处理爬取任务。 ## 依赖 requirements.txt ```sh requests pymongo ``` ## 运行方式 add_paper ``` python python3 spider.py add_paper --path paper2000.json ``` crawl_data ``` python python spider.py crawl_data ```