EvalEval Coalition

community

https://evalevalai.com/

evaluatingevals

Activity Feed Request to join this org

AI & ML interests

We’re building a research coalition on evaluating evaluations (EvalEval)! Hosted by Hugging Face, University of Edinburgh, and EleutherAI.

Recent Activity

EvalEvalBot new activity about 3 hours ago

evaleval/EEE_datastore:Add HELM AIR-Bench v1.16.0 results

Damian96 new activity about 5 hours ago

evaleval/EEE_datastore:Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

EvalEvalBot new activity about 6 hours ago

evaleval/EEE_datastore:[ACL Shared Task] Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

View all activity

in evaleval/EEE_datastore about 3 hours ago

Add HELM AIR-Bench v1.16.0 results

#70 opened about 3 hours ago by

in evaleval/EEE_datastore about 5 hours ago

Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#66 opened about 19 hours ago by

in evaleval/EEE_datastore about 6 hours ago

[ACL Shared Task] Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#69 opened about 6 hours ago by

in evaleval/EEE_datastore about 6 hours ago

Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#65 opened about 19 hours ago by

in evaleval/EEE_datastore about 8 hours ago

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

#63 opened 2 days ago by

in evaleval/EEE_datastore about 8 hours ago

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

#63 opened 2 days ago by

in evaleval/EEE_datastore about 9 hours ago

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

#63 opened 2 days ago by

updated a dataset about 9 hours ago

evaleval/EEE_datastore

Viewer • Updated about 8 hours ago • 11.6k • 6.28k • 19

in evaleval/EEE_datastore about 9 hours ago

[ACL Shared Task] Add Artificial Analysis LLM results

#62 opened 4 days ago by

[ACL Shared Task] Add Arcadia Impact Inspect evaluation results

#57 opened 8 days ago by

updated a Space about 9 hours ago

Eval Cards

Standardized evaluation cards for AI models and benchmarks

in evaleval/EEE_datastore about 10 hours ago

[ACL Shared Task] Add Wordle Arena & Fibble Arena evaluation results

#35 opened about 1 month ago by

updated a dataset about 10 hours ago

evaleval/EEE_datastore

Viewer • Updated about 8 hours ago • 11.6k • 6.28k • 19

in evaleval/EEE_datastore about 10 hours ago

Add HELM Capabilities v1.15.0 results

#64 opened 1 day ago by

in evaleval/EEE_datastore about 10 hours ago

Update Readme to include Bot Command for Hugginface PR

#60 opened 7 days ago by

in evaleval/EEE_datastore about 15 hours ago

[ACL Shared Task] Add BountyBench (DetectWorkflow) evaluation results

#67 opened about 15 hours ago by

updated a dataset about 16 hours ago

evaleval/card_backend

Preview • Updated 22 minutes ago • 6.41k

in evaleval/EEE_datastore about 24 hours ago

Add HELM Capabilities v1.15.0 results

#64 opened 1 day ago by

updated a dataset 1 day ago

evaleval/auto-benchmarkcards

Preview • Updated 1 day ago • 227 • 3

updated a bucket 1 day ago

evaleval/entity-registry-storage