Alibaba-NLP
/

gme-Qwen2-VL-2B-Instruct

Sentence Similarity

sentence-transformers

image-text-to-text

text-generation-inference

Model card Files Files and versions Community

kosung commited on 17 days ago

Commit

5b46bc4

·

verified ·

1 Parent(s): 40ed72b

Update custom_st.py (#19)

- Update custom_st.py (89146e49f8e1cd1cd5231642a803167c3868f443)
- Update custom_st.py (23e2bf96c6f5d8b13f352d4ac29cd153f522ab91)
- Update custom_st.py (7a9a21cc961c2fd89de1c56c616a7c64e9cbcd2a)

Co-authored-by: kosung <kosung@users.noreply.huggingface.co>

Files changed (1) hide show

custom_st.py +3 -1

custom_st.py CHANGED Viewed

@@ -1,3 +1,5 @@
 from io import BytesIO
 from typing import Any, Dict, Optional, List
 import torch
@@ -51,7 +53,7 @@ class MultiModalTransformer(BaseTransformer):
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
-            features["inputs_embeds"] = self.auto_model.base_model.embed_tokens(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(

+import math
+import logging
 from io import BytesIO
 from typing import Any, Dict, Optional, List
 import torch
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
+            features["inputs_embeds"] = self.auto_model.base_model.get_input_embeddings()(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(