--- language: - zh - en license: other # 请参考原始 Qwen2.5 模型的许可证 tags: - qwen2.5-vl - multimodal - quantized - w8a16 - text-generation - image-to-text base_model: thesby/Qwen2.5-VL-7B-NSFW-Caption-V4 --- # Qwen2.5-VL-7B-NSFW-Caption-V4 (W8A16 高速量化版) 这是一个对 [thesby/Qwen2.5-VL-7B-NSFW-Caption-V4](https://huggingface.co/thesby/Qwen2.5-VL-7B-NSFW-Caption-V4) 模型进行 W8A16 量化的版本。 通过 W8A16(Weight-Only, 8-bit integer weights, 16-bit float activations)量化技术,本模型在保持原始模型大部分性能的同时,显著降低了显存占用,并极大地提升了推理速度,使其更易于在消费级硬件上部署和运行。 ## ⚠️ 重要警告:内容敏感 ⚠️ **请注意:** 本模型的原始版本 `thesby/Qwen2.5-VL-7B-NSFW-Caption-V4` 是专门为生成图片描述而训练的。因此,本量化模型继承了其全部特性,其输出可能会包含露骨、成人化或令人不适的描述。 请确保您在合适的环境中使用本模型,并了解其潜在输出。**严禁用于任何非法或不道德的活动。使用者需对所有模型输出负责。** ## 性能指标 本模型的核心优势在于其卓越的推理性能。在我们的测试环境中,其表现如下: - **输入处理速度(Prefill Speed)**: 约 **1750 tokens/s** - **输出生成速度(Decode Speed)**: 约 **1470 tokens/s** *请注意:上述速度是在特定硬件NVIDIA RTX 5090和配置下测得的,实际性能可能因您的硬件、软件环境和输入数据而异。* ## 如何使用 请参考代码 [get_vlm_cption.py](https://huggingface.co/thesby/Qwen2.5-VL-7B-NSFW-Caption-V4-W8A16/blob/main/get_vlm_caption.py) ## 局限性与偏见 1. **NSFW 内容**: 如前所述,模型会生成露骨的成人内容。 2. **幻觉**: 与所有大型语言模型一样,本模型可能会产生不准确或完全虚构的描述(“幻觉”)。 3. **偏见**: 模型的训练数据可能包含社会偏见,这些偏见可能会反映在模型的输出中。 4. **上下文理解**: 模型的图像理解能力有限,可能无法准确识别复杂的场景、细微的细节或抽象的概念。