Initial commit

Browse files

Co-authored-by: tsbpp <tsbpp@users.noreply.huggingface.co>
Co-authored-by: meta-bot <meta-bot@users.noreply.huggingface.co>

Files changed (12) hide show

.gitattributes +36 -0
README.md +49 -0
config.json +69 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +590 -0
preprocessor_config.json +27 -0
webssl_teaser.png +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+webssl_teaser.png filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,49 @@

+---
+library_name: transformers
+license: cc-by-nc-4.0
+inference: false
+---
+# Web-SSL DINO ViT-7B: 8B MetaCLIP data, 224 Resolution
+A 7 billion parameter Vision Transformer (ViT) trained with DINOv2 self-supervised learning on web-scale image data without language supervision. Introduced in ["Scaling Language-Free Visual Representation Learning"](https://arxiv.org/abs/2504.01017) (Fan et al., 2025).
+## Model Details
+- **Architecture**: ViT (4096 width, 32 depth, 32 heads)
+- **Parameters**: 7B
+- **Resolution**: 224×224 pixels
+- **Training**: Self-supervised Web-DINO on 8B image samples from MetaCLIP web data
+## Model Descriptions
+Web-SSL DINO 7B is a 7 billion parameter Vision Transformer model trained using self-supervised learning on 8 billion web images without language supervision. This model demonstrates that pure visual learning, when scaled appropriately, can match or exceed the performance of language-supervised models like CLIP across various vision tasks. It performs well on both traditional vision benchmarks and multimodal tasks including visual question answering and OCR & chart understanding.
+<img src="webssl_teaser.png" alt="WebSSL Model Overview" width="600">
+## Usage
+```python
+from transformers import AutoImageProcessor, Dinov2Model
+import torch
+from PIL import Image
+processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino7b-full8b-224')
+model = Dinov2Model.from_pretrained('facebook/webssl-dino7b-full8b-224')
+# Process an image
+image = Image.open('path/to/image.jpg')
+inputs = processor(images=image, return_tensors="pt")
+with torch.no_grad():
+    outputs = model(**inputs)
+cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
+patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features
+```
+## Citation
+```bibtex
+@article{fan2025scaling,
+  title={Scaling Language-Free Visual Representation Learning},
+  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
+  year={2025},
+  eprint={2504.01017},
+  archivePrefix={arXiv},
+  primaryClass={cs.CV}
+}

config.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+  "apply_layernorm": true,
+  "architectures": [
+    "Dinov2Model"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "block_chunks": 4,
+  "drop_path_rate": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 4096,
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "layer_norm_eps": 1e-06,
+  "layerscale_value": 1.0,
+  "mlp_ratio": 4,
+  "model_type": "dinov2",
+  "num_attention_heads": 32,
+  "num_channels": 3,
+  "num_hidden_layers": 32,
+  "num_layers_per_block": 8,
+  "out_features": [
+    "stage32"
+  ],
+  "out_indices": [
+    32
+  ],
+  "patch_size": 14,
+  "qkv_bias": true,
+  "reshape_hidden_states": true,
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4",
+    "stage5",
+    "stage6",
+    "stage7",
+    "stage8",
+    "stage9",
+    "stage10",
+    "stage11",
+    "stage12",
+    "stage13",
+    "stage14",
+    "stage15",
+    "stage16",
+    "stage17",
+    "stage18",
+    "stage19",
+    "stage20",
+    "stage21",
+    "stage22",
+    "stage23",
+    "stage24",
+    "stage25",
+    "stage26",
+    "stage27",
+    "stage28",
+    "stage29",
+    "stage30",
+    "stage31",
+    "stage32"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "use_swiglu_ffn": true
+}

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11d119d47848de8b98afcc2b5f1aed30c24b1fc5fc8366bed9fb6ef6c15d0ea2
+size 4983207264

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1c63e7dbfb50fbc8a2dbdb2dd997377de3cf4ed20d10b5d7bad326cfdfd9785
+size 4969329664

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e7cec6674f48b74db3cd99dba2d22ac131231344b72d150f2d594aa41a871e9
+size 4835029288

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a2fa5226c9c00c85ca8e617dfa53bfec1ca14916064862f679784d20d3730f0
+size 4835029288

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6437dde982e22e4821856e83f15b51e0010a29d3be73ba81f48042b33d458147
+size 4835029288

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1162220f7ddb8030a25093787717cb3839dce98487f1bfad5e42d6e5ba6187e9
+size 1343124960

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,590 @@

+{
+  "metadata": {
+    "total_size": 25800683520
+  },
+  "weight_map": {
+    "embeddings.cls_token": "model-00001-of-00006.safetensors",
+    "embeddings.mask_token": "model-00001-of-00006.safetensors",
+    "embeddings.patch_embeddings.projection.bias": "model-00001-of-00006.safetensors",
+    "embeddings.patch_embeddings.projection.weight": "model-00001-of-00006.safetensors",
+    "embeddings.position_embeddings": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.0.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.1.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.10.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.11.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.12.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.12.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.12.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.12.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.12.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.12.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.13.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.14.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.15.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.16.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.mlp.weights_in.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.mlp.weights_in.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.mlp.weights_out.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.mlp.weights_out.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.17.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.key.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.key.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.query.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.query.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.value.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.attention.value.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.output.dense.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.attention.output.dense.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.18.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.18.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.18.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.18.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.18.norm1.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.norm1.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.norm2.bias": "model-00003-of-00006.safetensors",
+    "encoder.layer.18.norm2.weight": "model-00003-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.19.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.2.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.20.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.21.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.22.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.mlp.weights_in.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.mlp.weights_in.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.mlp.weights_out.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.mlp.weights_out.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.23.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.key.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.key.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.query.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.query.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.value.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.attention.value.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.output.dense.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.attention.output.dense.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.24.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.24.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.24.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.24.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.24.norm1.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.norm1.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.norm2.bias": "model-00004-of-00006.safetensors",
+    "encoder.layer.24.norm2.weight": "model-00004-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.25.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.26.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.27.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.28.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.mlp.weights_in.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.mlp.weights_in.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.mlp.weights_out.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.mlp.weights_out.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.29.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.3.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.key.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.key.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.query.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.query.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.value.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.attention.value.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.output.dense.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.attention.output.dense.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.layer_scale2.lambda1": "model-00006-of-00006.safetensors",
+    "encoder.layer.30.mlp.weights_in.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.30.mlp.weights_in.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.30.mlp.weights_out.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.30.mlp.weights_out.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.30.norm1.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.norm1.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.norm2.bias": "model-00005-of-00006.safetensors",
+    "encoder.layer.30.norm2.weight": "model-00005-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.key.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.key.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.query.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.query.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.value.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.attention.value.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.output.dense.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.attention.output.dense.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.layer_scale1.lambda1": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.layer_scale2.lambda1": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.mlp.weights_in.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.mlp.weights_in.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.mlp.weights_out.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.mlp.weights_out.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.norm1.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.norm1.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.norm2.bias": "model-00006-of-00006.safetensors",
+    "encoder.layer.31.norm2.weight": "model-00006-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.4.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.value.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.attention.value.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.output.dense.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.attention.output.dense.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.mlp.weights_in.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.mlp.weights_in.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.mlp.weights_out.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.mlp.weights_out.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.norm2.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.5.norm2.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.key.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.key.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.query.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.query.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.norm1.bias": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.norm1.weight": "model-00001-of-00006.safetensors",
+    "encoder.layer.6.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.6.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.7.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.8.norm2.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.key.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.key.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.query.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.query.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.value.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.attention.value.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.output.dense.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.attention.output.dense.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.mlp.weights_in.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.mlp.weights_in.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.mlp.weights_out.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.mlp.weights_out.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.norm1.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.norm1.weight": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.norm2.bias": "model-00002-of-00006.safetensors",
+    "encoder.layer.9.norm2.weight": "model-00002-of-00006.safetensors",
+    "layernorm.bias": "model-00006-of-00006.safetensors",
+    "layernorm.weight": "model-00006-of-00006.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "BitImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

webssl_teaser.png ADDED Viewed

Git LFS Details

SHA256: 06f6b5568bd4bdf00a3d249329ebab11023e475eb30c9249da61d486fc039fe5
Pointer size: 131 Bytes
Size of remote file: 371 kB