Spaces:

ljy5946
/

Smart_Learning_Assistant

Sleeping

App Files Files Community

ljy5946 commited on Jun 8

Commit

a581ee8

verified ·

1 Parent(s): 3d1eeca

Upload 5 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
build_vector_store.py +47 -0
chroma.sqlite3 +3 -0
index_metadata.pickle +3 -0
高等数学上册.md +0 -0
高等数学下册.md +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text

build_vector_store.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import os
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import Chroma
+# 1. 设置路径
+BASE_DIR = os.path.dirname(os.path.abspath(__file__))  # 当前脚本所在路径
+PERSIST_DIR = os.path.abspath(os.path.join(BASE_DIR, "../vector_store"))  # 向量库存储路径
+SOURCE_DIR = BASE_DIR  # 你的 .md 文件就在当前 vector_build/ 目录下
+# 2. 加载 Embedding 模型
+embed_model = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
+)
+# 3. 加载 Markdown 文件 & 切分为小段
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=500, chunk_overlap=50
+)
+docs = []
+for fname in os.listdir(SOURCE_DIR):
+    if fname.endswith(".md"):
+        with open(os.path.join(SOURCE_DIR, fname), "r", encoding="utf-8") as f:
+            raw_text = f.read()
+        chunks = text_splitter.split_text(raw_text)
+        for chunk in chunks:
+            docs.append({
+                "text": chunk,
+                "source": fname
+            })
+print(f"🐣 共切分出 {len(docs)} 个文本块，准备向量化...")
+# 4. 创建 Chroma 向量库
+texts = [d["text"] for d in docs]
+metas = [{"source": d["source"]} for d in docs]
+vectordb = Chroma.from_texts(
+    texts=texts,
+    embedding=embed_model,
+    metadatas=metas,
+    persist_directory=PERSIST_DIR
+)
+vectordb.persist()
+print(f"🎉 向量库生成完毕，已保存在：{PERSIST_DIR}")

chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7a7a249bf3b1b4e7dd730cde0985cdf0220c849e5deeca31d4df7c912720f2
+size 22417408

index_metadata.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d2130d448d160bb76ed65984a84859d3d6b645d4a3bf09971b32e2eb4defe63
+size 213668

高等数学上册.md ADDED Viewed

The diff for this file is too large to render. See raw diff

高等数学下册.md ADDED Viewed

The diff for this file is too large to render. See raw diff