Spaces:

vector2000
/

test_finetunning

Paused

App Files Files Community

vector2000 commited on Aug 30, 2024

Commit

fb485e7

verified ·

1 Parent(s): a9588d5

Update check.py

Browse files

Files changed (1) hide show

check.py +6 -16

check.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
-from datasets import Dataset # , load_dataset
 from tqdm import tqdm
 # Завантаження моделей та токенізатора
-# original_model_name = "meta-llama/Meta-Llama-3.1-8B"
 original_model_name = "meta-llama/Meta-Llama-3.1-8B"
 fine_tuned_model_path = "./fine_tuned_model"  # Шлях до вашої донавченної моделі
@@ -13,9 +12,6 @@ tokenizer = AutoTokenizer.from_pretrained(original_model_name)
 original_model = AutoModelForCausalLM.from_pretrained(original_model_name)
 fine_tuned_model = AutoModelForCausalLM.from_pretrained(fine_tuned_model_path)
-# Завантаження тестового набора данних
-# test_dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")
 # Завантаження данних з локального тестового файлу
 with open("m_and_m.txt", "r", encoding="utf-8") as file:
     text_data = file.read().strip()
@@ -59,8 +55,7 @@ def generate_text(model, tokenizer, prompt, max_length=150):
         output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2)
     return tokenizer.decode(output[0], skip_special_tokens=True)
-# prompt = "The history of artificial intelligence"
-prompt = "Илья Климов - разработчик из Харькова, работающий в GitLab. Его основной язык программирования"
 print("\nText generation comparison:")
 print("Original model output:")
@@ -85,15 +80,10 @@ def compare_losses(original_model, fine_tuned_model, tokenizer, texts):
         print(f"Fine-tuned model loss: {fine_tuned_loss:.4f}")
 print("\nComparing losses on specific examples:")
-#example_texts = [
-#    "Artificial intelligence has revolutionized many fields of science and technology.",
-#    "The development of machine learning algorithms has led to significant advancements in data analysis.",
-#    "Neural networks are a fundamental component of modern AI systems."
-#]
 example_texts = [
-    "Илья Климов работает в компании GitLab и использует JavaScript.",
-    "Основной фреймворк, который использует Илья Климов для работы в GitLab - это VueJS.",
-    "Илья Климов выступает на IT-конференциях и продает курсы по программированию.",
-    "У Ильи Климова есть желтый лотос, что является интересным фактом о нем."
 ]
 compare_losses(original_model, fine_tuned_model, tokenizer, example_texts)

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
+from datasets import Dataset
 from tqdm import tqdm
 # Завантаження моделей та токенізатора
 original_model_name = "meta-llama/Meta-Llama-3.1-8B"
 fine_tuned_model_path = "./fine_tuned_model"  # Шлях до вашої донавченної моделі
 original_model = AutoModelForCausalLM.from_pretrained(original_model_name)
 fine_tuned_model = AutoModelForCausalLM.from_pretrained(fine_tuned_model_path)
 # Завантаження данних з локального тестового файлу
 with open("m_and_m.txt", "r", encoding="utf-8") as file:
     text_data = file.read().strip()
         output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2)
     return tokenizer.decode(output[0], skip_special_tokens=True)
+prompt = "Мастер и Маргарита, сцена встречи Воланда и Берлиоза на Патриарших прудах"
 print("\nText generation comparison:")
 print("Original model output:")
         print(f"Fine-tuned model loss: {fine_tuned_loss:.4f}")
 print("\nComparing losses on specific examples:")
 example_texts = [
+    "На Патриарших прудах было нестерпимо жарко.",
+    "Так кто же вы, наконец? — спросил Берлиоз срывающимся голосом.",
+    "Маргарита взглянула на себя в зеркало и увидела, что её лицо изменилось.",
+    "Квартиру №50 избегали все жильцы, поговаривали, что там творится нечисть."
 ]
 compare_losses(original_model, fine_tuned_model, tokenizer, example_texts)