Visual Multi Modal LLM - a samsam55 Collection

samsam55 's Collections

Run on CPU Optimizations

World View Creation (out painting 3D)

Visual Multi Modal LLM

TTS & Speech to Text

Misc

Agents

3D Models & Modeling

Visual Multi Modal LLM

updated 20 days ago

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

Paper • 2510.08565 • Published 28 days ago • 19
Detect Anything via Next Point Prediction

Paper • 2510.12798 • Published 23 days ago • 44
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Paper • 2510.14528 • Published 22 days ago • 83