hai 1 ano · ae068d4e5a
--- a/spider.py
+++ b/spider.py
@@ -48,32 +48,34 @@ def read_file(filename):
 
				 def add_paper(file_path):
			
 
				     papers.create_index("corpusid", unique=True)
			
 
				     # 读取 paper 文件，存入数据库
			
 
				-    data_list = read_file(file_path)
			
 
				+    # data_list = read_file(file_path)
			
 
				     # 批量插入数据
			
 
				     inserted_ids = 0
			
 
				 
			
 
				     try:
			
 
				         sub_list = []
			
 
				-        for line in data_list:
			
 
				-            sub_list.append(line)
			
 
				+        with open(file_path, 'r') as f:
			
 
				+            for line in f:
			
 
				+                line_dict = json.loads(line)
			
 
				+                sub_list.append(line_dict)
			
 
				 
			
 
				-            if len(sub_list) == 2000:
			
 
				+                if len(sub_list) == 2000:
			
 
				+                    result = papers.insert_many(sub_list, ordered=False)
			
 
				+                    inserted_ids += len(result.inserted_ids)
			
 
				+                    sub_list = []
			
 
				+
			
 
				+            if sub_list:
			
 
				                 result = papers.insert_many(sub_list, ordered=False)
			
 
				                 inserted_ids += len(result.inserted_ids)
			
 
				                 sub_list = []
			
 
				 
			
 
				-        if sub_list:
			
 
				-            result = papers.insert_many(sub_list, ordered=False)
			
 
				-            inserted_ids += len(result.inserted_ids)
			
 
				-            sub_list = []
			
 
				-
			
 
				-        print('-------process', inserted_ids, '/', len(data_list))
			
 
				+        print('-------process', inserted_ids, '/', '7318795')
			
 
				     except pymongo.errors.BulkWriteError as e:
			
 
				         inserted_ids = e.details['nInserted']
			
 
				     finally:
			
 
				         # 输出插入结果
			
 
				         print("总插入数据: {0}, 已插入数据: {1}, 已存在数据: {2}" .format(
			
 
				-            len(data_list), inserted_ids, papers.count_documents({})))
			
 
				+            7318795, inserted_ids, papers.count_documents({})))
			
 
				 
			
 
				 
			
 
				 def crawl_data():