adjustable glasses illustration

eye chart illustration

clipboard illustration

lenses illustration

GPT-5 (high reasoning) vs.Llama 4 Scout 17B

Passed:

GPT-5 (high reasoning) 73.5% (61/83)

Llama 4 Scout 17B 72.8% (59/81)

Average request time:

GPT-5 (high reasoning) 26.96s

Llama 4 Scout 17B 41.93s

Summary

Annotation Understanding

GPT-5 (high reasoning) 1 / 2

Llama 4 Scout 17B 0 / 2

CAPTCHA

GPT-5 (high reasoning) 0 / 2

Llama 4 Scout 17B 2 / 2

Color Identification

GPT-5 (high reasoning) 1 / 1

Llama 4 Scout 17B 0 / 1

Defect Detection

GPT-5 (high reasoning) 12 / 15

Llama 4 Scout 17B 11 / 15

Document Understanding

GPT-5 (high reasoning) 8 / 10

Llama 4 Scout 17B 9 / 10

Localization

GPT-5 (high reasoning) 1 / 1

Llama 4 Scout 17B 1 / 1

OCR

GPT-5 (high reasoning) 9 / 9

Llama 4 Scout 17B 9 / 9

Object Counting

GPT-5 (high reasoning) 3 / 11

Llama 4 Scout 17B 2 / 9

Object Detection

GPT-5 (high reasoning) 1 / 2

Llama 4 Scout 17B 2 / 2

Object Measurement

GPT-5 (high reasoning) 0 / 1

Llama 4 Scout 17B 0 / 1

Object Understanding

GPT-5 (high reasoning) 9 / 11

Llama 4 Scout 17B 9 / 11

Receipt Reading

GPT-5 (high reasoning) 1 / 1

Llama 4 Scout 17B 0 / 1

Sign Understanding

GPT-5 (high reasoning) 2 / 2

Llama 4 Scout 17B 2 / 2

Spatial Relations

GPT-5 (high reasoning) 15 / 17

Llama 4 Scout 17B 12 / 17

Web Action Understanding

GPT-5 (high reasoning) 4 / 4

Llama 4 Scout 17B 4 / 4

Contribute a Prompt

Lightbulb

Have an idea for a prompt? Open a pull request on the project repository!