Spaces:

vector2000
/

test_finetunning

Paused

vector2000 commited on Aug 27, 2024

Commit

2b42ea0

verified ·

1 Parent(s): 4c75d55

Update finetunning.py

Files changed (1) hide show

finetunning.py CHANGED Viewed

@@ -30,19 +30,19 @@ model = AutoModelForCausalLM.from_pretrained(model_name)
 # Завантаження датасета (приклад з використанням датасета wiki_text)
 # dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
-dataset = load_dataset("Aniemore/resd")
 # Завантаження данних з локального тестового файлу
-# with open("ilya_klimov_data.txt", "r", encoding="utf-8") as file:
-#     text_data = file.read().strip()
-# dataset = Dataset.from_dict({"text": [text_data]})
 # Функція для токенізації данних
 def tokenize_function(examples):
-    return tokenizer(examples["speech"], truncation=True, padding="max_length", max_length=512)
 # Токенізация датасету
-tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=["name", "path", "emotion", "speech"])
 # Створення data collator
 data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

 # Завантаження датасета (приклад з використанням датасета wiki_text)
 # dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
+# dataset = load_dataset("Aniemore/resd")
 # Завантаження данних з локального тестового файлу
+with open("m_and_m.txt", "r", encoding="utf-8") as file:
+    text_data = file.read().strip()
+dataset = Dataset.from_dict({"text": [text_data]})
 # Функція для токенізації данних
 def tokenize_function(examples):
+    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)
 # Токенізация датасету
+tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)
 # Створення data collator
 data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)