Your Bench

Enterprise

community

huggingface/yourbench

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

sumuks updated a dataset about 11 hours ago

yourbench/childrens_books_questions

sumuks published a dataset about 11 hours ago

yourbench/childrens_books_questions

sumuks updated a dataset about 12 hours ago

yourbench/mckinsey_great_trade_global_report

View all activity

sumuks

updated a dataset about 11 hours ago

yourbench/childrens_books_questions

Viewer • Updated about 11 hours ago • 62

sumuks

published a dataset about 11 hours ago

yourbench/childrens_books_questions

Viewer • Updated about 11 hours ago • 62

sumuks

updated a dataset about 12 hours ago

yourbench/mckinsey_great_trade_global_report

Viewer • Updated about 12 hours ago • 511

sumuks

published a dataset about 12 hours ago

yourbench/mckinsey_great_trade_global_report

Viewer • Updated about 12 hours ago • 511

sumuks

updated a dataset about 13 hours ago

yourbench/aws_bedrock_documentation_demo

Viewer • Updated about 13 hours ago • 1.18k

sumuks

published a dataset about 13 hours ago

yourbench/aws_bedrock_documentation_demo

Viewer • Updated about 13 hours ago • 1.18k

sumuks

updated a dataset about 14 hours ago

yourbench/yourbench-custom-prompts-example-gpt-4.1

Viewer • Updated about 14 hours ago • 55 • 15

sumuks

published a dataset about 14 hours ago

yourbench/yourbench-custom-prompts-example-gpt-4.1

Viewer • Updated about 14 hours ago • 55 • 15

sumuks

updated a dataset about 14 hours ago

yourbench/yourbench-custom-prompts-example-oss-120b

Viewer • Updated about 14 hours ago • 3 • 11

sumuks

published a dataset about 14 hours ago

yourbench/yourbench-custom-prompts-example-oss-120b

Viewer • Updated about 14 hours ago • 3 • 11

thomwolf

authored a paper about 1 month ago

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 64

lvwerra

authored a paper about 1 month ago

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 64

dilekht

authored 7 papers about 2 months ago

YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2 • 22

From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents

Paper • 2410.23555 • Published Oct 31, 2024

Better Slow than Sorry: Introducing Positive Friction for Reliable Dialogue Systems

Paper • 2501.17348 • Published Jan 28

ToolRL: Reward is All Tool Learning Needs

Paper • 2504.13958 • Published Apr 16 • 45

TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons

Paper • 2504.19982 • Published Apr 28

Language Specific Knowledge: Do Models Know Better in X than in English?

Paper • 2505.14990 • Published May 21 • 1

PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents

Paper • 2505.01592 • Published May 2

thomwolf

authored a paper 2 months ago

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

Paper • 2506.01844 • Published Jun 2 • 122

AI & ML interests

Recent Activity

Team members 11

yourbench's activity