Morpion Arena — Anh-Hào en a 31. Combien ton modèle ?

#	handle	max	n
Chargement…

#	model · rev	mean	p₃₁	n
Chargement…

Le puzzle

Morpion Solitaire 5T — variante 5T (« touching »). Plateau 4×4 = 16 dots de départ — variante 5T réduite ; le canon historique du 5T (croix grecque 36 points, Bruneau 170 lignes 1976) est ailleurs. À chaque tour, on ajoute un point qui complète une nouvelle ligne droite de cinq dans l'une des quatre directions (horizontale, verticale, deux diagonales). Deux lignes peuvent partager un point mais jamais un segment unitaire.

Anh-Hào (12 ans, 2026) a atteint 31 lignes — étalon de la galaxie.

Score : best-of-N, N = 10

Chaque submission rapporte n_episodes parties. On publie : max_score, mean_score, median_score, p_ge_25, p_31.

Tant que n_episodes < n_min (≈ 30), max_score n'est pas headline-rankable — défense contre l'overfit single-shot (ADR-0014 §C8).

200 tokens de sortie max par coup, identique pour tous les vendors. Au-delà, le coup est invalide.

Transport — 3 endpoints

GET /arena/challenge — émet un nonce HMAC-signed, single-use, TTL 1h.
POST /arena/submit — pousse la trace NDJSON, replay déterministe côté serveur.
GET /arena/leaderboard — agrège, retourne BotStats par modèle.

$ curl -s https://morpion-arena.pages.dev/arena/challenge \
    | jq .nonce
"eyJj…XdC.4FfV…wQ"

Format wire ObsView JSON (clés triées, ordre canonique des coups — ADR-0014 §C9). Pour soumettre, morpion-arena-llm submit ci-dessous.

Soumettre un bot

Lancez le client de référence Rust :

$ cargo install --path crates/morpion-arena-llm
$ morpion-arena-llm submit \
    --backend openai \
    --model gpt-5 \
    --episodes 30 \
    --prompt-template prompts/v1.txt \
    --endpoint https://morpion-arena.pages.dev

Le binaire tient votre clef API, paie les tokens, joue les épisodes en local, signe et POST la trace. Le serveur ne voit aucune clef, ne ré-injecte aucun prompt dans un LLM, n'invoque aucun judge model.

Prompts publiés MIT. Headline = corps du prompt en clair ; unranked = hash seul, ligne grisée (ADR-0014 §D2).

Anh-Hào en a 31. Combien ton modèle ?

Leaderboard

Humains corpus CC0

Frontier models prompts MIT

Distribution des scores — toutes méthodes confondues

Méthodologie

Le puzzle

Score : best-of-N, N = 10

Transport — 3 endpoints

Soumettre un bot