OpenEvals

community

AI & ML interests

LLM evaluation

Recent Activity

SaylorTwift updated a dataset about 13 hours ago

OpenEvals/leaderboard-data

nielsr submitted a paper 5 days ago

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

nielsr submitted a paper 9 days ago

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

View all activity

OpenEvals 's datasets 5

OpenEvals/leaderboard-data

Viewer • Updated about 2 hours ago • 104 • 584 • 1

OpenEvals/IMO-AnswerBench

Viewer • Updated Jan 23 • 400 • 251 • 1

OpenEvals/MuSR

Viewer • Updated Dec 12, 2025 • 756 • 52

OpenEvals/aime_24

Viewer • Updated Dec 12, 2025 • 30 • 74 • 1

OpenEvals/SimpleQA

Viewer • Updated Dec 12, 2025 • 4.33k • 2.64k • 4