adjustable glasses illustration

eye chart illustration

clipboard illustration

lenses illustration

GPT-4.1 vs.Qwen 2.5 VL 7B

Passed:

GPT-4.1 70.7% (58/82)

Qwen 2.5 VL 7B 55.6% (45/81)

Average request time:

GPT-4.1 12.46s

Qwen 2.5 VL 7B 45.63s

Summary

Annotation Understanding

GPT-4.1 1 / 2

Qwen 2.5 VL 7B 1 / 2

CAPTCHA

GPT-4.1 0 / 2

Qwen 2.5 VL 7B 2 / 2

Color Identification

GPT-4.1 0 / 1

Qwen 2.5 VL 7B 0 / 1

Defect Detection

GPT-4.1 12 / 15

Qwen 2.5 VL 7B 9 / 15

Document Understanding

GPT-4.1 7 / 10

Qwen 2.5 VL 7B 8 / 10

Localization

GPT-4.1 1 / 1

Qwen 2.5 VL 7B 1 / 1

OCR

GPT-4.1 9 / 9

Qwen 2.5 VL 7B 6 / 9

Object Counting

GPT-4.1 2 / 11

Qwen 2.5 VL 7B 1 / 9

Object Detection

GPT-4.1 2 / 2

Qwen 2.5 VL 7B 1 / 2

Object Measurement

GPT-4.1 0 / 1

Qwen 2.5 VL 7B 0 / 1

Object Understanding

GPT-4.1 7 / 11

Qwen 2.5 VL 7B 5 / 11

Receipt Reading

GPT-4.1 1 / 1

Qwen 2.5 VL 7B 0 / 1

Sign Understanding

GPT-4.1 2 / 2

Qwen 2.5 VL 7B 2 / 2

Spatial Relations

GPT-4.1 15 / 17

Qwen 2.5 VL 7B 11 / 17

Web Action Understanding

GPT-4.1 4 / 4

Qwen 2.5 VL 7B 4 / 4

Contribute a Prompt

Lightbulb

Have an idea for a prompt? Open a pull request on the project repository!