vector2000 commited on
Commit
2b42ea0
·
verified ·
1 Parent(s): 4c75d55

Update finetunning.py

Browse files
Files changed (1) hide show
  1. finetunning.py +6 -6
finetunning.py CHANGED
@@ -30,19 +30,19 @@ model = AutoModelForCausalLM.from_pretrained(model_name)
30
 
31
  # Завантаження датасета (приклад з використанням датасета wiki_text)
32
  # dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
33
- dataset = load_dataset("Aniemore/resd")
34
 
35
  # Завантаження данних з локального тестового файлу
36
- # with open("ilya_klimov_data.txt", "r", encoding="utf-8") as file:
37
- # text_data = file.read().strip()
38
- # dataset = Dataset.from_dict({"text": [text_data]})
39
 
40
  # Функція для токенізації данних
41
  def tokenize_function(examples):
42
- return tokenizer(examples["speech"], truncation=True, padding="max_length", max_length=512)
43
 
44
  # Токенізация датасету
45
- tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=["name", "path", "emotion", "speech"])
46
 
47
  # Створення data collator
48
  data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
 
30
 
31
  # Завантаження датасета (приклад з використанням датасета wiki_text)
32
  # dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
33
+ # dataset = load_dataset("Aniemore/resd")
34
 
35
  # Завантаження данних з локального тестового файлу
36
+ with open("m_and_m.txt", "r", encoding="utf-8") as file:
37
+ text_data = file.read().strip()
38
+ dataset = Dataset.from_dict({"text": [text_data]})
39
 
40
  # Функція для токенізації данних
41
  def tokenize_function(examples):
42
+ return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)
43
 
44
  # Токенізация датасету
45
+ tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)
46
 
47
  # Створення data collator
48
  data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)