rshwndsz commited on May 12

Commit

ae4f17e

verified ·

1 Parent(s): 54cc6ff

Upload folder using huggingface_hub

Browse files

Files changed (26) hide show

config.json +5 -5
generation_config.json +4 -4
global_step6644/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
global_step6644/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
global_step6644/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
global_step6644/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
global_step6644/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
global_step6644/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
global_step6644/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
global_step6644/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
latest +1 -1
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +1 -1
rng_state_0.pth +2 -2
rng_state_1.pth +2 -2
rng_state_2.pth +2 -2
rng_state_3.pth +2 -2
scheduler.pt +1 -1
special_tokens_map.json +10 -3
tokenizer.json +2 -2
tokenizer_config.json +15 -5
trainer_state.json +0 -0
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -4,8 +4,8 @@
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "bos_token_id": 128256,
-  "eos_token_id": 128257,
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
@@ -17,7 +17,7 @@
   "num_attention_heads": 32,
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
-  "pad_token_id": 128257,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
@@ -30,7 +30,7 @@
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.50.0",
   "use_cache": false,
-  "vocab_size": 128258
 }

   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "num_attention_heads": 32,
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
+  "pad_token_id": 128258,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
   "use_cache": false,
+  "vocab_size": 128259
 }

generation_config.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "_from_model_config": true,
-  "bos_token_id": 128256,
   "do_sample": true,
-  "eos_token_id": 128257,
-  "pad_token_id": 128257,
   "temperature": 0.6,
   "top_p": 0.9,
-  "transformers_version": "4.50.0"
 }

 {
   "_from_model_config": true,
+  "bos_token_id": 128000,
   "do_sample": true,
+  "eos_token_id": 128001,
+  "pad_token_id": 128258,
   "temperature": 0.6,
   "top_p": 0.9,
+  "transformers_version": "4.51.3"
 }

global_step6644/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de9c96a41bb7295bade4a8f5b984481c186411a3a6279493a6f611c11b9f8d39
+size 24090863678

global_step6644/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fa8d1fff7eb7559bef409dbd7b74ea0e83cdd0db376d1fbd43c36a7a8394319
+size 24090863678

global_step6644/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4ce49a8a1ad5a9c4f7be5987f9a27e1a84872526d7f73f38acf6abcee4b642c
+size 24090863678

global_step6644/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6237c96a4290beb8325f3279112e89f1a0dfa55166911e0997204a65a9ccf94
+size 24090863678

global_step6644/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfb1012d1b786d6c350da25da683a44fa03e607f22a42f0760f1320ccce88422
+size 148837

global_step6644/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:397fff671572295afb702e33aab5a6c47d715e1c6fe8c9ce9b9177800243b964
+size 148837

global_step6644/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5d2bb4c46de5215023d9eeabbddd84ceb1cce9f1a92aaec8a3390097dec76ad
+size 148837

global_step6644/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c85de6347279a7eac67464947839cd5f24608940955ce4a3ccf99e651cff8e6
+size 148837

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1433~~


1	+ global_step6644

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35b32098d5417f56d97bdd235c977a3cefa75546b46065820c83da3295dc8322
-size 4976715056

 version https://git-lfs.github.com/spec/v1
+oid sha256:eaa35b57420ddf65ac29ad4368d81f2c7b9c25abe77355f319fc4b59124a48d3
+size 4976723248

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71e9ab3b81c6ab57d92fe1c3f0f40e08d6c2693e289b0c8ca6aa8acb1bfc54bd
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:62dffe2773f11dba7306cc79bd44d2bce030eabcb22157afe7e7c382111a78e2
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa98c5abc70f6f7dc724967d4f9bfa163601b28e0ff227ca4a8b08fdca856cd2
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:280d3406be717d14e82c97de98c4de1ca5ce5f217ba584147b32159be98dc038
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a11557f1cc838ba4e321812889f4eef8c502b1fc77c12b2f5e2e0b3355c094a1
-size 1168155192

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6e66e66abd55acbb80eb260aed234cceb64630369417f01563279b8278b2dc2
+size 1168163384

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 16060555264
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",

 {
   "metadata": {
+    "total_size": 16060571648
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:955b895101e13c81ba510512313a06782795770a0bf998c90f718166d25f1664
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b184f8fc9facd6e4a6513602952b43b9446784300c3ea2da72aefb029f93aac1
+size 15024

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:096e351ace65ff91008be171a45173ed6369cc639fce73a288f671041e24b0ec
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:937f07b3f415f537fbc809c70f15f64b8410cd6a07adbe7d246f5ca7359b3b49
+size 15024

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f21c61b1a7e793bbdec183de3b52da90042305234bc7e5887986655cd3fc2192
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:07e3f7eacec877950b3dad99b106bf80da30203dda6159b06f954c15b7f5d367
+size 15024

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:348742498d81780506d9760c655a7a7555185b5fbd70a7ae296d88fd9aeecd84
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a5087a11a5f0a226f1607ec68740ea6baa2599559138de38da40f89dd666683
+size 15024

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d427428dba1531aa627ec053886efe6432b8dcbc9cb32283f3906476f030ec86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:69cdfa6cf38acfdff4fd96b9eb8312f5fb0f655877e187208ac9e1500ff67e6f
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -13,9 +13,16 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false
     }
   ],
-  "bos_token": "<|im_start|>",
-  "eos_token": "<|im_end|>",
-  "pad_token": "<|im_end|>"
 }

       "normalized": false,
       "rstrip": false,
       "single_word": false
+    },
+    {
+      "content": "<|pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
     }
   ],
+  "bos_token": "<|begin_of_text|>",
+  "eos_token": "<|end_of_text|>",
+  "pad_token": "<|pad|>"
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:510d12ec255f4cb0304aa5428d699c354c1a49696b427a2748a7b03bb7bbb575
-size 17210296

 version https://git-lfs.github.com/spec/v1
+oid sha256:84d9fd6f8a3b531fcd3641d24db47ac67d512a3ab36abfe835934d19cff30a8d
+size 17210480

tokenizer_config.json CHANGED Viewed

@@ -2063,22 +2063,32 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "additional_special_tokens": [
     "<|im_start|>",
-    "<|im_end|>"
   ],
-  "bos_token": "<|im_start|>",
-  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|im_end|>",
   "extra_special_tokens": {},
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 131072,
-  "pad_token": "<|im_end|>",
   "tokenizer_class": "PreTrainedTokenizer"
 }

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "128258": {
+      "content": "<|pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [
     "<|im_start|>",
+    "<|im_end|>",
+    "<|pad|>"
   ],
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{% if messages[0]['role'] == 'user' or messages[0]['role'] == 'system' %}{{ '<|begin_of_text|>' }}{% endif %}{% for message in messages %}{{ '<|im_start|>' + message['role'] + '\\n' + message['content'] + '<|im_end|>\\n' }}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\\n' }}{% elif messages[-1]['role'] == 'assistant' %}{{ '<|end_of_text|>' }}{% endif %}",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
   "extra_special_tokens": {},
+  "legacy": false,
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 131072,
+  "pad_token": "<|pad|>",
   "tokenizer_class": "PreTrainedTokenizer"
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26685089dbc1e1360633fa418ba012ee63d4f4fda570441a22a1f60758811021
-size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2d401aca38d027e0fcc12ba4910a855c90856823a14406faa548337c8d09812
+size 7160