2 2 7

Abhranil Chandra PRO

abhranil14

AI & ML interests

Reinforcement Learning, Deep Unsupervised Learning, NLP and Bayesian Deep Learning

Organizations

Collections 8

View 8 collections

Papers 5

spaces 1

First Agent Template

⚡

Find the current local time in any timezone

models 60

abhranil14/L8B_on_MBPP_Code_G27B_IT_H_Paraphrased_subset_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 20, 2025

abhranil14/G2B_on_CODE_MBPP_G_601_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 13, 2025

abhranil14/G2B_on_CODE_MBPP_H_774_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 13, 2025

abhranil14/L8B_on_CODE_MBPP_H_774_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 13, 2025

abhranil14/L8B_on_CODE_MBPP_G_601_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 13, 2025

abhranil14/L8B_on_CODE_MBPP_G_601_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 12, 2025

abhranil14/L8B_on_CODE_MBPP_H_774_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 11, 2025

abhranil14/L8B_on_CODE_MBPP_W_354_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 11, 2025

abhranil14/G2B_on_CODE_MBPP_H_774_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

Updated Dec 11, 2025

abhranil14/gemma2_2B_FF_gemini_flash_gold_7114_batch256_lr10e-6_warmup0.1_max_tokens_2048

Updated Aug 17, 2025

View 60 models

datasets 5

Abhranil Chandra PRO

AI & ML interests

Organizations

Collections 8

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Offline Reinforcement Learning for LLM Multi-Step Reasoning

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Offline Reinforcement Learning for LLM Multi-Step Reasoning

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Papers 5

spaces 1

First Agent Template

models 60

abhranil14/L8B_on_MBPP_Code_G27B_IT_H_Paraphrased_subset_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/G2B_on_CODE_MBPP_G_601_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/G2B_on_CODE_MBPP_H_774_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/L8B_on_CODE_MBPP_H_774_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/L8B_on_CODE_MBPP_G_601_subset_wrt_G_601_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/L8B_on_CODE_MBPP_G_601_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/L8B_on_CODE_MBPP_H_774_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/L8B_on_CODE_MBPP_W_354_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/G2B_on_CODE_MBPP_H_774_subset_wrt_W_354_BS_64_lr_2e-5_epoch10_linear_schedule

abhranil14/gemma2_2B_FF_gemini_flash_gold_7114_batch256_lr10e-6_warmup0.1_max_tokens_2048

datasets 5

abhranil14/VideoAgent_Data

abhranil14/syn_qs_and_soln_cleaned_0_and_less20_multiple_soln_per_qs_1937545

abhranil14/syn_qs_and_soln_cleaned_0_and_less20_1_soln_per_qs_131845

abhranil14/instruct-human-assistant-prompt-clean-105k

abhranil14/first-instruct-human-assistant-prompt-clean-33k

Abhranil Chandra PRO

AI & ML interests

Organizations

Collections 8

Papers 5

spaces 1

First Agent Template

models 60 Sort: Recently updated

datasets 5 Sort: Recently updated

models 60

datasets 5