Spaces:

konghuan
/

SANGUO

Sleeping

SANGUO / database /create_db.py

45c5d09 2 months ago

8.62 kB

	import os
	import sys
	import re
	import json
	sys.path.append(os.path.dirname(os.path.dirname(__file__)))
	import tempfile
	from dotenv import load_dotenv, find_dotenv
	from embedding.call_embedding import get_embedding
	from langchain.document_loaders import UnstructuredFileLoader
	from langchain.document_loaders import UnstructuredMarkdownLoader
	from langchain.text_splitter import RecursiveCharacterTextSplitter, TextSplitter
	from langchain.document_loaders import PyMuPDFLoader
	from langchain.document_loaders import UnstructuredWordDocumentLoader
	from langchain.vectorstores import Chroma
	from langchain.schema import Document

	# 禁用 Pebblo 安全模块
	# os.environ["PEBBLO_DISABLED"] = "1" # 新增环境变量

	# 设置模型缓存目录
	CACHE_DIR = os.path.join(os.path.dirname(os.path.dirname(__file__)), "models")
	# os.environ['TRANSFORMERS_CACHE'] = CACHE_DIR
	# 修改环境变量设置（保留一个即可）
	os.environ['HF_HOME'] = CACHE_DIR

	# 首先实现基本配置
	# 原代码
	DEFAULT_DB_PATH = "./knowledge_db/sanguo_characters"
	DEFAULT_PERSIST_PATH = "./vector_db/chroma_sanguo"




	class CharacterTextSplitter(TextSplitter):
	"""专门用于处理角色JSON数据的文本分割器"""

	def split_text(self, text: str) -> list[str]:
	# 使用更健壮的正则表达式匹配每个角色的JSON数据
	pattern = r'\{[^{}](?:\{[^{}]\}[^{}])\}'
	matches = re.finditer(pattern, text)

	# 将每个匹配的JSON字符串转换为文本块
	chunks = []
	for match in matches:
	try:
	# 解析JSON数据
	char_data = json.loads(match.group())

	# 检查必要字段
	if 'name' not in char_data:
	print(f"警告：发现缺少name字段的JSON数据: {match.group()[:100]}...")
	continue

	# 处理技能数据，将stamina_cost转换为endurance_cost
	if 'skills' in char_data:
	for skill in char_data['skills']:
	if 'stamina_cost' in skill:
	skill['endurance_cost'] = skill.pop('stamina_cost')

	# 将JSON数据转换为易读的文本格式
	char_text = f"角色：{char_data['name']}\n"
	char_text += f"攻击力：{char_data['attack']}\n"
	char_text += f"防御力：{char_data['defense']}\n"
	char_text += f"体力：{char_data['stamina']}\n"
	char_text += f"耐力：{char_data['endurance']}\n"
	char_text += f"法力：{char_data['mana']}\n"
	char_text += f"闪避：{char_data['dodge']}\n"
	char_text += f"速度：{char_data['speed']}\n"
	char_text += "技能：\n"
	for skill in char_data['skills']:
	char_text += f"- {skill['name']}：{skill['effect']}\n"
	if 'endurance_cost' in skill and 'mana_cost' in skill:
	char_text += f" 耐力消耗：{skill['endurance_cost']}，法力消耗：{skill['mana_cost']}\n"
	chunks.append(char_text)
	except json.JSONDecodeError as e:
	print(f"JSON解析错误: {e}")
	print(f"问题数据: {match.group()[:100]}...")
	continue
	except KeyError as e:
	print(f"缺少字段: {e}")
	print(f"问题数据: {match.group()[:100]}...")
	continue
	return chunks

	def split_documents(self, documents: list[Document]) -> list[Document]:
	"""分割文档列表"""
	texts = []
	metadatas = []
	for doc in documents:
	texts.extend(self.split_text(doc.page_content))
	metadatas.extend([doc.metadata] * len(self.split_text(doc.page_content)))
	return [Document(page_content=t, metadata=m) for t, m in zip(texts, metadatas)]


	def get_files(dir_path):
	file_list = []
	for filepath, dirnames, filenames in os.walk(dir_path):
	for filename in filenames:
	file_list.append(os.path.join(filepath, filename))
	return file_list


	def file_loader(file, loaders):
	if isinstance(file, tempfile._TemporaryFileWrapper):
	file = file.name
	if not os.path.isfile(file):
	[file_loader(os.path.join(file, f), loaders) for f in os.listdir(file)]
	return
	file_type = file.split('.')[-1].lower()
	if file_type == 'pdf':
	loaders.append(PyMuPDFLoader(file))
	elif file_type == 'md':
	pattern = r"不存在\|风控"
	match = re.search(pattern, file)
	if not match:
	loaders.append(UnstructuredMarkdownLoader(file))
	elif file_type == 'txt':
	loaders.append(UnstructuredFileLoader(file))
	elif file_type == 'docx':
	loaders.append(UnstructuredWordDocumentLoader(file))
	return


	def create_db_info(files=DEFAULT_DB_PATH, embeddings="openai", persist_directory=DEFAULT_PERSIST_PATH):
	if embeddings == 'openai' or embeddings == 'm3e' or embeddings =='zhipuai':
	vectordb = create_db(files, persist_directory, embeddings)
	return ""


	def create_db(files=DEFAULT_DB_PATH, persist_directory=DEFAULT_PERSIST_PATH, embeddings="openai"):
	"""
	该函数用于加载文件，切分文档，生成文档的嵌入向量，创建向量数据库。

	参数:
	file: 存放文件的路径。
	embeddings: 用于生产 Embedding 的模型

	返回:
	vectordb: 创建的数据库。
	"""
	if files == None:
	return "can't load empty file"
	if type(files) != list:
	files = [files]

	print(f"正在处理文件路径: {files}")

	loaders = []
	[file_loader(file, loaders) for file in files]
	print(f"找到的加载器数量: {len(loaders)}")

	docs = []
	for loader in loaders:
	if loader is not None:
	loaded_docs = loader.load()
	print(f"\n加载的文档数量: {len(loaded_docs)}")
	# 打印第一个文档的内容示例
	if loaded_docs:
	print("\n文档内容示例:")
	print("-" * 50)
	print(loaded_docs[0].page_content[:500]) # 只打印前500个字符
	print("-" * 50)
	print("\n文档元数据:")
	print(loaded_docs[0].metadata)
	print("-" * 50)
	docs.extend(loaded_docs)

	print(f"\n总文档数量: {len(docs)}")

	if len(docs) == 0:
	print("警告：没有找到任何文档！")
	return None

	# 使用自定义的角色文本分割器
	text_splitter = CharacterTextSplitter()
	split_docs = text_splitter.split_documents(docs)
	print(f"\n分割后的文档数量: {len(split_docs)}")

	if len(split_docs) == 0:
	print("警告：分割后没有文档！")
	return None

	# 保存分割后的文档到文件
	split_docs_dir = os.path.join(os.path.dirname(persist_directory), "split_docs")
	os.makedirs(split_docs_dir, exist_ok=True)
	split_docs_file = os.path.join(split_docs_dir, "split_documents.txt")

	with open(split_docs_file, "w", encoding="utf-8") as f:
	for i, doc in enumerate(split_docs, 1):
	f.write(f"\n文档 {i}:\n")
	f.write("-" * 50 + "\n")
	f.write(doc.page_content)
	f.write("\n" + "-" * 50 + "\n")

	print(f"\n分割后的文档已保存到: {split_docs_file}")

	if type(embeddings) == str:
	embeddings = get_embedding(embedding=embeddings)
	# 修正参数名称和初始化方式
	vectordb = Chroma.from_documents(
	documents=split_docs,
	embedding=embeddings,
	persist_directory=persist_directory,
	collection_metadata={"hnsw:space": "cosine"} # 新增元数据配置
	)

	vectordb.persist()
	return vectordb


	def presit_knowledge_db(vectordb):
	"""
	该函数用于持久化向量数据库。

	参数:
	vectordb: 要持久化的向量数据库。
	"""
	vectordb.persist()


	def load_knowledge_db(path, embeddings):
	"""
	该函数用于加载向量数据库。

	参数:
	path: 要加载的向量数据库路径。
	embeddings: 向量数据库使用的 embedding 模型。

	返回:
	vectordb: 加载的数据库。
	"""
	vectordb = Chroma(
	persist_directory=path,
	embedding_function=embeddings
	)
	return vectordb


	if __name__ == "__main__":
	create_db(embeddings="m3e")