adjustable glasses illustration

eye chart illustration

clipboard illustration

lenses illustration

ChatGPT-4o (Medium Reasoning) vs.Qwen 3.5 0.8B

Passed:

ChatGPT-4o (Medium Reasoning) 75.6% (62/82)

Qwen 3.5 0.8B 32.9% (27/82)

Average request time:

ChatGPT-4o (Medium Reasoning) 20.48s

Qwen 3.5 0.8B 4.36s

Summary

Annotation Understanding

ChatGPT-4o (Medium Reasoning) 1 / 2

Qwen 3.5 0.8B 0 / 2

CAPTCHA

ChatGPT-4o (Medium Reasoning) 2 / 2

Qwen 3.5 0.8B 0 / 2

Color Identification

ChatGPT-4o (Medium Reasoning) 0 / 1

Qwen 3.5 0.8B 0 / 1

Defect Detection

ChatGPT-4o (Medium Reasoning) 12 / 15

Qwen 3.5 0.8B 7 / 15

Document Understanding

ChatGPT-4o (Medium Reasoning) 7 / 10

Qwen 3.5 0.8B 4 / 10

Localization

ChatGPT-4o (Medium Reasoning) 1 / 1

Qwen 3.5 0.8B 0 / 1

OCR

ChatGPT-4o (Medium Reasoning) 9 / 9

Qwen 3.5 0.8B 6 / 9

Object Counting

ChatGPT-4o (Medium Reasoning) 3 / 11

Qwen 3.5 0.8B 1 / 11

Object Detection

ChatGPT-4o (Medium Reasoning) 2 / 2

Qwen 3.5 0.8B 1 / 2

Object Measurement

ChatGPT-4o (Medium Reasoning) 1 / 1

Qwen 3.5 0.8B 0 / 1

Object Understanding

ChatGPT-4o (Medium Reasoning) 8 / 11

Qwen 3.5 0.8B 2 / 11

Receipt Reading

ChatGPT-4o (Medium Reasoning) 1 / 1

Qwen 3.5 0.8B 0 / 1

Sign Understanding

ChatGPT-4o (Medium Reasoning) 2 / 2

Qwen 3.5 0.8B 1 / 2

Spatial Relations

ChatGPT-4o (Medium Reasoning) 15 / 17

Qwen 3.5 0.8B 4 / 17

Web Action Understanding

ChatGPT-4o (Medium Reasoning) 4 / 4

Qwen 3.5 0.8B 2 / 4

Contribute a Prompt

Lightbulb

Have an idea for a prompt? Open a pull request on the project repository!