vector2000 commited on
Commit
fb485e7
·
verified ·
1 Parent(s): a9588d5

Update check.py

Browse files
Files changed (1) hide show
  1. check.py +6 -16
check.py CHANGED
@@ -1,10 +1,9 @@
1
  import torch
2
  from transformers import AutoModelForCausalLM, AutoTokenizer
3
- from datasets import Dataset # , load_dataset
4
  from tqdm import tqdm
5
 
6
  # Завантаження моделей та токенізатора
7
- # original_model_name = "meta-llama/Meta-Llama-3.1-8B"
8
  original_model_name = "meta-llama/Meta-Llama-3.1-8B"
9
 
10
  fine_tuned_model_path = "./fine_tuned_model" # Шлях до вашої донавченної моделі
@@ -13,9 +12,6 @@ tokenizer = AutoTokenizer.from_pretrained(original_model_name)
13
  original_model = AutoModelForCausalLM.from_pretrained(original_model_name)
14
  fine_tuned_model = AutoModelForCausalLM.from_pretrained(fine_tuned_model_path)
15
 
16
- # Завантаження тестового набора данних
17
- # test_dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")
18
-
19
  # Завантаження данних з локального тестового файлу
20
  with open("m_and_m.txt", "r", encoding="utf-8") as file:
21
  text_data = file.read().strip()
@@ -59,8 +55,7 @@ def generate_text(model, tokenizer, prompt, max_length=150):
59
  output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2)
60
  return tokenizer.decode(output[0], skip_special_tokens=True)
61
 
62
- # prompt = "The history of artificial intelligence"
63
- prompt = "Илья Климов - разработчик из Харькова, работающий в GitLab. Его основной язык программирования"
64
 
65
  print("\nText generation comparison:")
66
  print("Original model output:")
@@ -85,15 +80,10 @@ def compare_losses(original_model, fine_tuned_model, tokenizer, texts):
85
  print(f"Fine-tuned model loss: {fine_tuned_loss:.4f}")
86
 
87
  print("\nComparing losses on specific examples:")
88
- #example_texts = [
89
- # "Artificial intelligence has revolutionized many fields of science and technology.",
90
- # "The development of machine learning algorithms has led to significant advancements in data analysis.",
91
- # "Neural networks are a fundamental component of modern AI systems."
92
- #]
93
  example_texts = [
94
- "Илья Климов работает в компании GitLab и использует JavaScript.",
95
- "Основной фреймворк, который использует Илья Климов для работы в GitLab - это VueJS.",
96
- "Илья Климов выступает на IT-конференциях и продает курсы по программированию.",
97
- "У Ильи Климова есть желтый лотос, что является интересным фактом о нем."
98
  ]
99
  compare_losses(original_model, fine_tuned_model, tokenizer, example_texts)
 
1
  import torch
2
  from transformers import AutoModelForCausalLM, AutoTokenizer
3
+ from datasets import Dataset
4
  from tqdm import tqdm
5
 
6
  # Завантаження моделей та токенізатора
 
7
  original_model_name = "meta-llama/Meta-Llama-3.1-8B"
8
 
9
  fine_tuned_model_path = "./fine_tuned_model" # Шлях до вашої донавченної моделі
 
12
  original_model = AutoModelForCausalLM.from_pretrained(original_model_name)
13
  fine_tuned_model = AutoModelForCausalLM.from_pretrained(fine_tuned_model_path)
14
 
 
 
 
15
  # Завантаження данних з локального тестового файлу
16
  with open("m_and_m.txt", "r", encoding="utf-8") as file:
17
  text_data = file.read().strip()
 
55
  output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2)
56
  return tokenizer.decode(output[0], skip_special_tokens=True)
57
 
58
+ prompt = "Мастер и Маргарита, сцена встречи Воланда и Берлиоза на Патриарших прудах"
 
59
 
60
  print("\nText generation comparison:")
61
  print("Original model output:")
 
80
  print(f"Fine-tuned model loss: {fine_tuned_loss:.4f}")
81
 
82
  print("\nComparing losses on specific examples:")
 
 
 
 
 
83
  example_texts = [
84
+ "На Патриарших прудах было нестерпимо жарко.",
85
+ "Так кто же вы, наконец? спросил Берлиоз срывающимся голосом.",
86
+ "Маргарита взглянула на себя в зеркало и увидела, что её лицо изменилось.",
87
+ "Квартиру №50 избегали все жильцы, поговаривали, что там творится нечисть."
88
  ]
89
  compare_losses(original_model, fine_tuned_model, tokenizer, example_texts)