Audio AI Models in 2026, Capabilities & Comparisons | AIPortalX

Filters

Selected Filters

Audio

Task

Organization

Country

Include Other Tiers

Active Research

Legacy Models

By default, only production models are shown

19 Models found

Gemini 2.5 Deep Think

Domain

Vision+2 more

Task

Language modeling

Language generation

Mathematical reasoning+6 more

Lyria RealTime

By Google DeepMind

Domain

Task

Audio generation

Baichuan-Omni-1.5

Domain

Speech+2 more

Task

Language modeling

Language generation

Question answering+8 more

Gemini 2.0 Flash

By Google DeepMind

Domain

Audio+2 more

Task

Language modeling

Language generation

Question answering+9 more

Gemini 2.0 Pro

By Google DeepMind

Domain

Vision+1 more

Task

Code generation

Language modeling

Language generation+3 more

Whale Bioacoustics Model

By Google Research

Domain

Task

Audio classification

GPT-4o May 2024

Domain

Audio+1 more

Task

Image generation

Audio generation+6 more

Gemini 1.5 Flash May 2024

By Google DeepMind

Domain

Task

Image captioning

Visual question answering+4 more

Gemini 1.5 Flash 8B

By Google DeepMind

Domain

Task

Image captioning

Visual question answering+4 more

MAGNeT

Domain

Task

Audio generation

Gemini Nano-1

By Google DeepMind

Domain

Task

Image captioning

Speech recognition ASR

Lyria

By Google DeepMind

Domain

Task

Audio generation

MultiBand Diffusion

Domain

Task

Audio generation

AudioLM

By Google Research

Domain

Task

Audio generation

MusicGen

Domain

Task

Audio generation