model,overall_score,comprehensiveness,insight,instruction_following,readability,citation_accuracy,effective_citations
gemini-2.5-pro-deepresearch,49.71,49.51,49.45,50.12,50.00,78.30,165.34
openai-deepresearch,46.45,46.46,43.73,49.39,47.22,75.01,39.79
claude-research,45.00,45.34,42.79,47.58,44.66,-,-
kimi-researcher,44.64,44.96,41.97,47.14,45.59,-,-
doubao-deepresearch,44.34,44.84,40.56,47.95,44.69,52.86,52.62
langchain-open-deep-research,43.44,42.97,39.17,48.09,45.22,-,-
nvidia-aiq-research-assistant,40.52,37.98,38.39,44.59,42.63,-,-
perplexity-Research,40.46,39.10,35.65,46.11,43.08,82.63,31.20
grok-deeper-search,38.22,36.08,30.89,46.59,42.17,73.08,8.58
sonar-reasoning-pro,37.76,34.96,31.65,44.93,42.42,45.19,9.39
sonar-reasoning,37.75,34.73,32.59,44.42,42.39,52.58,13.37
claude-3-7-sonnet-with-search,36.63,35.95,31.29,44.05,36.07,87.32,24.51
sonar-pro,36.19,33.92,29.69,43.39,41.07,79.72,16.75
gemini-2.5-pro-preview-05-06,31.90,31.75,24.61,40.24,32.76,-,-
gpt-4o-search-preview,30.74,27.81,20.44,41.01,37.60,86.63,5.05
sonar,30.64,27.14,21.62,40.70,37.46,76.41,10.68
gpt-4.1,29.31,25.59,18.42,40.63,36.49,89.85,4.27
gemini-2.5-flash-preview-04-17,29.19,28.97,21.62,37.80,29.97,-,-
gpt-4o-mini-search-preview,27.62,24.24,16.62,38.59,35.27,81.69,4.62
gpt-4.1-mini,26.62,22.86,15.39,38.18,34.49,84.54,4.10
claude-3-5-sonnet-with-search,23.95,21.28,16.20,32.41,29.87,94.06,9.35