Models

347

Full-text search

Active filters: rl

mradermacher/X-Coder-RL-Qwen2.5-7B-GGUF

8B • Updated Jan 11 • 14

mradermacher/X-Coder-RL-Qwen3-8B-i1-GGUF

8B • Updated Jan 11 • 345 • 2

mradermacher/X-Coder-RL-Qwen2.5-7B-i1-GGUF

8B • Updated Jan 11 • 236

anakin87/LFM2-2.6B-ttt-rl-2

Text Generation • Updated 15 days ago • 9

anakin87/LFM2-2.6B-mr-tictactoe

Text Generation • 3B • Updated 15 days ago • 291

Klingspor/StarPO-4B

Text Generation • 4B • Updated Feb 13 • 18 • 2

Klingspor/StarPO-1.7B

Text Generation • 2B • Updated Feb 13 • 16

mradermacher/Omni-R1-Zero-GGUF

7B • Updated Jan 16 • 103

mradermacher/Omni-R1-GGUF

7B • Updated Jan 16 • 81

mradermacher/Omni-R1-Zero-i1-GGUF

7B • Updated Jan 16 • 214

mradermacher/Omni-R1-i1-GGUF

7B • Updated Jan 16 • 373

sdan/jokegen2-1t-rl

Updated Jan 27 • 9

kabuizuchi-trading/gdpo-qwen-structured-merged

Text Generation • 4B • Updated Feb 12 • 4

mradermacher/Clado-BrowserOS-Action-GGUF

Reinforcement Learning • 4B • Updated Feb 14 • 118 • 2

mradermacher/Clado-BrowserOS-Action-i1-GGUF

Reinforcement Learning • 4B • Updated Feb 19 • 164 • 2

mradermacher/StarPO-1.7B-GGUF

Reinforcement Learning • 2B • Updated Feb 15 • 109

mradermacher/StarPO-4B-GGUF

Reinforcement Learning • 4B • Updated Feb 15 • 111 • 1

jangwon-kim-cocel/BPQL

Reinforcement Learning • Updated Feb 15 • 1

jangwon-kim-cocel/Bayesian-Policy-Distillation

Reinforcement Learning • Updated Feb 15 • 1

jangwon-kim-cocel/UD7

Reinforcement Learning • Updated Feb 15 • 1

mradermacher/StarPO-1.7B-i1-GGUF

Reinforcement Learning • 2B • Updated Feb 15 • 86

mradermacher/StarPO-4B-i1-GGUF

Reinforcement Learning • 4B • Updated Feb 15 • 182 • 1

webbigdata/Qwen3-0.6B_WBD

Text Generation • 0.6B • Updated Feb 22 • 40

camgeodesic/reward_hacker_v1

ihaveadog/qwen25-vl-7b-browser-agent-v6-rl

8B • Updated Feb 27

YongkangZOU/evoxtral-rl

Automatic Speech Recognition • Updated Mar 1 • 12 • 2

mistral-hackaton-2026/evoxtral

Automatic Speech Recognition • Updated Mar 1 • 6 • 2

Phonsiri/gemma-2-2b-Distillation-gemma-2-27b-it

Text Generation • 3B • Updated Mar 3 • 37

Meddies/meddies-pii

Text Generation • 0.4B • Updated Mar 15 • 232

giannisdaras/ddpo-brisque-checkpoints