Spaces:

brendon-ai
/

faq-huggingface-model

Sleeping

App Files Files Community

brendon-ai commited on Jul 5

Commit

6ef0559

verified ·

1 Parent(s): af117dd

Update src/RAGSample.py

Browse files

Files changed (1) hide show

src/RAGSample.py +23 -23

src/RAGSample.py CHANGED Viewed

@@ -126,29 +126,29 @@ class SmartFAQRetriever(BaseRetriever):
     def _get_relevant_documents_with_scores(self, query: str) -> List[tuple[Document, float]]:
-    """Retrieve documents along with similarity scores."""
-    if not hasattr(self, '_vectorizer') or self._vectorizer is None or not hasattr(self._vectorizer, 'vocabulary_') or not self._vectorizer.vocabulary_:
-        self._vectorizer = TfidfVectorizer(
-            max_features=3000,
-            stop_words='english',
-            ngram_range=(1, 2),
-            min_df=1,
-            max_df=0.9
-        )
-        questions = [doc.page_content.split("ANSWER:")[0].replace("QUESTION:", "").strip()
-                     if "QUESTION:" in doc.page_content else doc.page_content
-                     for doc in self._documents]
-        self._vectorizer.fit(questions)
-    query_vector = self._vectorizer.transform([query.lower().strip()])
-    question_texts = [doc.page_content.split("ANSWER:")[0].replace("QUESTION:", "").strip()
-                      if "QUESTION:" in doc.page_content else doc.page_content
-                      for doc in self._documents]
-    question_vectors = self._vectorizer.transform(question_texts)
-    similarities = cosine_similarity(query_vector, question_vectors).flatten()
-    top_indices = similarities.argsort()[-self._k:][::-1]
-    return [(self._documents[i], float(similarities[i])) for i in top_indices if similarities[i] > 0.1]
     def _get_relevant_documents(self, query: str) -> List[Document]:

     def _get_relevant_documents_with_scores(self, query: str) -> List[tuple[Document, float]]:
+        """Retrieve documents along with similarity scores."""
+        if not hasattr(self, '_vectorizer') or self._vectorizer is None or not hasattr(self._vectorizer, 'vocabulary_') or not self._vectorizer.vocabulary_:
+            self._vectorizer = TfidfVectorizer(
+                max_features=3000,
+                stop_words='english',
+                ngram_range=(1, 2),
+                min_df=1,
+                max_df=0.9
+            )
+            questions = [doc.page_content.split("ANSWER:")[0].replace("QUESTION:", "").strip()
+                         if "QUESTION:" in doc.page_content else doc.page_content
+                         for doc in self._documents]
+            self._vectorizer.fit(questions)
+        query_vector = self._vectorizer.transform([query.lower().strip()])
+        question_texts = [doc.page_content.split("ANSWER:")[0].replace("QUESTION:", "").strip()
+                          if "QUESTION:" in doc.page_content else doc.page_content
+                          for doc in self._documents]
+        question_vectors = self._vectorizer.transform(question_texts)
+        similarities = cosine_similarity(query_vector, question_vectors).flatten()
+        top_indices = similarities.argsort()[-self._k:][::-1]
+        return [(self._documents[i], float(similarities[i])) for i in top_indices if similarities[i] > 0.1]
     def _get_relevant_documents(self, query: str) -> List[Document]: