Image Captioning AI Models in 2026, Capabilities & Comparisons | AIPortalX

Filters

Selected Filters

Image Captioning

Task1

Organization

Country

Include Other Tiers

Active Research

Legacy Models

By default, only production models are shown

31 Models found

Claude Opus 4.5

Domain

Task

Code generation

Language modeling

Language generation+13 more

Gemini Robotics-ER 1.5

By Google DeepMind

Domain

Task

Instruction interpretation

Robotic manipulation

Image captioning+5 more

Qwen3-Omni-30B-A3B

Domain

Vision+1 more

Task

Language modeling

Language generation

Question answering+6 more

GLM-4.5-Air

Domain

Task

Language modeling

Language generation

Question answering+4 more

Grok 4

By xAI

Domain

Task

Language modeling

Language generation

Question answering+4 more

Claude Opus 4

Domain

Task

Code generation

Language modeling

Language generation+13 more

Claude Sonnet 4

Domain

Task

Code generation

Language modeling

Language generation+13 more

Gemini 2.5 Flash

By Google DeepMind

Domain

Vision+1 more

Task

Language modeling

Language generation

Question answering+9 more

TerraMind

By IBM

Domain

Task

Image captioning

Crop Mapping+3 more

Gemini 2.5 Pro

By Google DeepMind

Domain

Video+1 more

Task

Language modeling

Language generation

Question answering+6 more

Baichuan-Omni-1.5

Domain

Speech+2 more

Task

Language modeling

Language generation

Question answering+8 more

Aria

Domain

Task

Language modeling

Language generation

Visual question answering+4 more

Grounding Dino L

By Tsinghua University

Domain

Task

Object detection

Image captioning

Cambrian-1-13B

By New York University NYU

Domain

Task

Image captioning

Visual question answering

Character recognition OCR

Claude 3.5 Sonnet

Domain

Task

Image captioning

Code generation+1 more