Interés - a JuanRafap Collection

Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

JuanRafap 's Collections

Memory

Bim

Dataset

Agent

Library

Models

Interés

updated about 1 month ago

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Paper • 2411.02337 • Published Nov 4, 2024 • 36
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Paper • 2411.04996 • Published Nov 7, 2024 • 51
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Paper • 2411.03562 • Published Nov 5, 2024 • 68
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Paper • 2410.08815 • Published Oct 11, 2024 • 47
Game-theoretic LLM: Agent Workflow for Negotiation Games

Paper • 2411.05990 • Published Nov 8, 2024 • 8
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

Paper • 2411.10640 • Published Nov 16, 2024 • 46
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Paper • 2411.19146 • Published Nov 28, 2024 • 17
Snowflake/snowflake-arctic-embed-m-v2.0

Sentence Similarity • 0.3B • Updated Apr 24 • 134k • 90
Snowflake/snowflake-arctic-embed-l-v2.0

Sentence Similarity • 0.6B • Updated Jul 28 • 1.17M • • 210
EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

Paper • 2412.04862 • Published Dec 6, 2024 • 50
ruliad/deepthought-8b-llama-v0.01-alpha

Text Generation • 8B • Updated Dec 7, 2024 • 13 • 146
Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

Paper • 2411.19943 • Published Nov 29, 2024 • 63
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Paper • 2412.02592 • Published Dec 3, 2024 • 24
RL Zero: Zero-Shot Language to Behaviors without any Supervision

Paper • 2412.05718 • Published Dec 7, 2024 • 5
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

Paper • 2412.10704 • Published Dec 14, 2024 • 16
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Paper • 2412.13746 • Published Dec 18, 2024 • 9
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Paper • 2412.11834 • Published Dec 16, 2024 • 8
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

Paper • 2412.13194 • Published Dec 17, 2024 • 12
ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

Paper • 2412.14711 • Published Dec 19, 2024 • 16
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Paper • 2412.15797 • Published Dec 20, 2024 • 18
Progressive Multimodal Reasoning via Active Retrieval

Paper • 2412.14835 • Published Dec 19, 2024 • 73
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design

Paper • 2412.14590 • Published Dec 19, 2024 • 14
Learned Compression for Compressed Learning

Paper • 2412.09405 • Published Dec 12, 2024 • 13
Token-Budget-Aware LLM Reasoning

Paper • 2412.18547 • Published Dec 24, 2024 • 46
ericsonwillians/distilbert-base-uncased-steam-sentiment

Text Classification • 67M • Updated Dec 12, 2024 • 25
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Paper • 2412.18319 • Published Dec 24, 2024 • 39
Personalized Graph-Based Retrieval for Large Language Models

Paper • 2501.02157 • Published Jan 4 • 31
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Paper • 2412.18925 • Published Dec 25, 2024 • 104
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Paper • 2501.04652 • Published Jan 8 • 10
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published Jan 9 • 102
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Paper • 2501.02576 • Published Jan 5 • 15
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 102
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published Jan 6 • 44
Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published Jan 17 • 115
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published Jan 16 • 41
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

Paper • 2501.08617 • Published Jan 15 • 10
The Lessons of Developing Process Reward Models in Mathematical Reasoning

Paper • 2501.07301 • Published Jan 13 • 99
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Paper • 2501.09012 • Published Jan 15 • 10
ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Paper • 2501.06590 • Published Jan 11 • 11
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper • 2501.01257 • Published Jan 2 • 52
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Paper • 2501.10799 • Published Jan 18 • 15
Control LLM: Controlled Evolution for Intelligence Retention in LLM

Paper • 2501.10979 • Published Jan 19 • 6
Autonomy-of-Experts Models

Paper • 2501.13074 • Published Jan 22 • 44
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

Paper • 2501.11110 • Published Jan 19 • 4
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning

Paper • 2412.09078 • Published Dec 12, 2024
LLM2: Let Large Language Models Harness System 2 Reasoning

Paper • 2412.20372 • Published Dec 29, 2024
TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection

Paper • 2412.08024 • Published Dec 11, 2024 • 1
Table as Thought: Exploring Structured Thoughts in LLM Reasoning

Paper • 2501.02152 • Published Jan 4
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 423
Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

Paper • 2501.18119 • Published Jan 30 • 25
Preference Leakage: A Contamination Problem in LLM-as-a-judge

Paper • 2502.01534 • Published Feb 3 • 40
The Differences Between Direct Alignment Algorithms are a Blur

Paper • 2502.01237 • Published Feb 3 • 113
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Paper • 2501.13200 • Published Jan 22 • 69
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles

Paper • 2502.01081 • Published Feb 3 • 14
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Paper • 2502.05664 • Published Feb 8 • 24
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

Paper • 2502.06060 • Published Feb 9 • 38
LM2: Large Memory Models

Paper • 2502.06049 • Published Feb 9 • 30
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Paper • 2502.06781 • Published Feb 10 • 59
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Paper • 2502.06703 • Published Feb 10 • 153
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Paper • 2502.04416 • Published Feb 6 • 12
Goku: Flow Based Video Generative Foundation Models

Paper • 2502.04896 • Published Feb 7 • 106
In-Context Retrieval-Augmented Language Models

Paper • 2302.00083 • Published Jan 31, 2023 • 1
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Paper • 2502.16614 • Published Feb 23 • 27
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Paper • 2502.19361 • Published Feb 26 • 28
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

Paper • 2502.10177 • Published Feb 14 • 6
Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

Paper • 2502.07640 • Published Feb 11 • 10
LoRACode: LoRA Adapters for Code Embeddings

Paper • 2503.05315 • Published Mar 7 • 13
Learning from Failures in Multi-Attempt Reinforcement Learning

Paper • 2503.04808 • Published Mar 4 • 18
docling-project/SmolDocling-256M-preview

Image-Text-to-Text • 0.3B • Updated Sep 17 • 361k • 1.59k
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Paper • 2503.16430 • Published Mar 20 • 34
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Paper • 2503.16905 • Published Mar 21 • 54
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

Paper • 2503.16194 • Published Mar 20 • 8
ELTEX: A Framework for Domain-Driven Synthetic Data Generation

Paper • 2503.15055 • Published Mar 19 • 6
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 52
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

Paper • 2503.16356 • Published Mar 20 • 15
DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

Paper • 2503.15265 • Published Mar 19 • 46
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 141
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

Paper • 2501.11651 • Published Jan 20 • 1
API Agents vs. GUI Agents: Divergence and Convergence

Paper • 2503.11069 • Published Mar 14 • 37
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Paper • 2503.12937 • Published Mar 17 • 30
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models

Paper • 2503.04813 • Published Mar 4 • 1
Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning

Paper • 2502.14356 • Published Feb 20
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

Paper • 2502.02508 • Published Feb 4 • 23
NousResearch/DeepHermes-3-Mistral-24B-Preview

Text Generation • 24B • Updated Mar 13 • 1.69k • 119
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Paper • 2503.08525 • Published Mar 11 • 17
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Paper • 2503.10639 • Published Mar 13 • 53
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Paper • 2503.19855 • Published Mar 25 • 29
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Paper • 2502.01618 • Published Feb 3 • 10
Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published Jan 9 • 54
MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 298
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Paper • 2501.15570 • Published Jan 26 • 25
open-thoughts/OpenThoughts-114k

Viewer • Updated Aug 31 • 228k • 58.4k • 771
Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

Paper • 2502.04295 • Published Feb 6 • 13
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Paper • 2504.00824 • Published Apr 1 • 43
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Paper • 2504.02507 • Published Apr 3 • 88
agentica-org/DeepCoder-14B-Preview

Text Generation • 15B • Updated May 11 • 1.04k • • 680
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Paper • 2504.06261 • Published Apr 8 • 110
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Paper • 2504.05118 • Published Apr 7 • 26
DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Paper • 2504.07128 • Published Apr 2 • 86
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Paper • 2504.08600 • Published Apr 11 • 31
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Paper • 2504.03601 • Published Apr 4 • 17
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Paper • 2504.08736 • Published Apr 11 • 46
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Paper • 2504.11343 • Published Apr 15 • 19
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

Paper • 2502.01142 • Published Feb 3 • 24
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Paper • 2504.08672 • Published Apr 11 • 55
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Paper • 2502.13233 • Published Feb 18 • 15
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Paper • 2502.13922 • Published Feb 19 • 28
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Paper • 2502.08047 • Published Feb 12 • 28
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Paper • 2503.07365 • Published Mar 10 • 61
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Paper • 2505.04842 • Published May 7 • 12
Benchmarking LLMs' Swarm intelligence

Paper • 2505.04364 • Published May 7 • 20
Are Reasoning Models More Prone to Hallucination?

Paper • 2505.23646 • Published May 29 • 24
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

Paper • 2505.15656 • Published May 21 • 15
This Time is Different: An Observability Perspective on Time Series Foundation Models

Paper • 2505.14766 • Published May 20 • 40
ReCIT: Reconstructing Full Private Data from Gradient in Parameter-Efficient Fine-Tuning of Large Language Models

Paper • 2504.20570 • Published Apr 29
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

Paper • 2506.04734 • Published Jun 5 • 20
Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

Paper • 2507.00951 • Published Jul 1 • 24
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

Paper • 2507.04009 • Published Jul 5 • 50
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Paper • 2507.10532 • Published Jul 14 • 88
LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers

Paper • 2507.04404 • Published Jul 6 • 21
IntFold: A Controllable Foundation Model for General and Specialized Biomolecular Structure Prediction

Paper • 2507.02025 • Published Jul 2 • 35
Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models

Paper • 2507.13344 • Published Jul 17 • 56
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

Paper • 2508.09834 • Published Aug 13 • 53
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

Paper • 2509.06861 • Published Sep 8 • 8
Locality in Image Diffusion Models Emerges from Data Statistics

Paper • 2509.09672 • Published Sep 11 • 12
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

Paper • 2509.16596 • Published Sep 20 • 14
Self-Improvement in Multimodal Large Language Models: A Survey

Paper • 2510.02665 • Published Oct 3 • 19

Collection guide
Browse collections

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs