Spaces:
Paused
Paused
Update finetunning.py
Browse files- finetunning.py +6 -6
finetunning.py
CHANGED
@@ -30,19 +30,19 @@ model = AutoModelForCausalLM.from_pretrained(model_name)
|
|
30 |
|
31 |
# Завантаження датасета (приклад з використанням датасета wiki_text)
|
32 |
# dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
|
33 |
-
dataset = load_dataset("Aniemore/resd")
|
34 |
|
35 |
# Завантаження данних з локального тестового файлу
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
|
40 |
# Функція для токенізації данних
|
41 |
def tokenize_function(examples):
|
42 |
-
return tokenizer(examples["
|
43 |
|
44 |
# Токенізация датасету
|
45 |
-
tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=
|
46 |
|
47 |
# Створення data collator
|
48 |
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
|
|
|
30 |
|
31 |
# Завантаження датасета (приклад з використанням датасета wiki_text)
|
32 |
# dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
|
33 |
+
# dataset = load_dataset("Aniemore/resd")
|
34 |
|
35 |
# Завантаження данних з локального тестового файлу
|
36 |
+
with open("m_and_m.txt", "r", encoding="utf-8") as file:
|
37 |
+
text_data = file.read().strip()
|
38 |
+
dataset = Dataset.from_dict({"text": [text_data]})
|
39 |
|
40 |
# Функція для токенізації данних
|
41 |
def tokenize_function(examples):
|
42 |
+
return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)
|
43 |
|
44 |
# Токенізация датасету
|
45 |
+
tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)
|
46 |
|
47 |
# Створення data collator
|
48 |
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
|