JSALT25-AuGI

community

https://jsalt2025.fit.vut.cz/

Activity Feed Request to join this org

AI & ML interests

Large audio language models, large language models

Recent Activity

Sreyan88 authored a paper 6 days ago

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

Sreyan88 authored a paper 6 days ago

Do Audio-Visual Large Language Models Really See and Hear?

Sreyan88 authored a paper 6 days ago

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

View all activity

authored 3 papers 6 days ago

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

Paper • 2510.12000 • Published Oct 13, 2025 • 1

Do Audio-Visual Large Language Models Really See and Hear?

Paper • 2604.02605 • Published 19 days ago • 7

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Paper • 2604.10905 • Published 9 days ago • 28

authored a paper 7 days ago

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Paper • 2604.10905 • Published 9 days ago • 28

submitted a paper to Daily Papers 8 days ago

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Paper • 2604.10905 • Published 9 days ago • 28

authored a paper about 1 month ago

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 14

authored a paper about 1 month ago

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 14

authored a paper about 1 month ago

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 14

authored a paper about 1 month ago

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 14

submitted a paper to Daily Papers about 1 month ago

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 14

authored 3 papers 2 months ago

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

Paper • 2505.07365 • Published May 12, 2025

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

Paper • 2508.13992 • Published Aug 19, 2025 • 7

Introducing SSBD+ Dataset with a Convolutional Pipeline for detecting Self-Stimulatory Behaviours in Children using raw videos

Paper • 2311.15072 • Published Nov 25, 2023

authored 2 papers 3 months ago

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

Paper • 2508.13992 • Published Aug 19, 2025 • 7

Music Flamingo: Scaling Music Understanding in Audio Language Models

Paper • 2511.10289 • Published Nov 13, 2025 • 19

authored a paper 5 months ago

Music Flamingo: Scaling Music Understanding in Audio Language Models

Paper • 2511.10289 • Published Nov 13, 2025 • 19

authored 3 papers 6 months ago

Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

Paper • 2508.11818 • Published Aug 15, 2025

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Paper • 2510.15870 • Published Oct 17, 2025 • 92

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Paper • 2510.15870 • Published Oct 17, 2025 • 92

authored a paper 8 months ago

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

Paper • 2310.08753 • Published Oct 12, 2023