Visual Question Answering AI Models in 2026, Capabilities & Comparisons | AIPortalX

Filters

Selected Filters

Visual Question Answering

Task1

Organization

Country

Include Other Tiers

Active Research

Legacy Models

By default, only production models are shown

65 Models found

Claude Opus 4.5

Domain

Task

Code generation

Language modeling

Language generation+13 more

Claude Sonnet 4.5

Domain

Task

Language modeling

Language generation

Code generation+4 more

Qwen3-Omni-30B-A3B

Domain

Vision+1 more

Task

Language modeling

Language generation

Question answering+6 more

gpt-realtime

Domain

Task

Speech recognition ASR

Speech synthesis

Visual question answering+1 more

Claude Opus 4.1

Domain

Task

Language modeling

Language generation

Question answering+5 more

GLM-4.5-Air

Domain

Task

Language modeling

Language generation

Question answering+4 more

Gemini 2.5 Deep Think

Domain

Vision+2 more

Task

Language modeling

Language generation

Mathematical reasoning+6 more

Aeneas

By Google DeepMind

Domain

Task

Character recognition OCR

Visual question answering

Grok 4

By xAI

Domain

Task

Language modeling

Language generation

Question answering+4 more

Gemini 2.5 Flash-Lite Jun 2024

By Google DeepMind

Domain

Video+1 more

Task

Language modeling

Language generation

Question answering+9 more

Claude Opus 4

Domain

Task

Code generation

Language modeling

Language generation+13 more

Claude Sonnet 4

Domain

Task

Code generation

Language modeling

Language generation+13 more

Gemma 3n

Domain

Task

Language modeling

Language generation

Question answering+7 more

Mistral Medium 3

Domain

Task

Language modeling

Language generation

Visual question answering+3 more

Gemini 2.5 Flash

By Google DeepMind

Domain

Vision+1 more

Task

Language modeling

Language generation

Question answering+9 more