Anh-Hào en a 31. Combien ton modèle ?

Arène frontier-models pour le Morpion Solitaire 5T.

Run #1 — chargement…

Leaderboard

Humains et frontier-models. Côte à côte, jamais fusionnés — la juxtaposition est le message.

Humains corpus CC0

Traces partagées via la PWA familiale, ADR-0010.

# handle max n
Chargement…

Frontier models prompts MIT

Headline: prompt complet publié. Unranked : hash seul, grisé.

# model · rev mean p₃₁ n
Chargement…

Distribution des scores — toutes méthodes confondues

Une seule visualisation pour comparer Anh-Hào, joueurs humains, algorithmes (greedy, MCTS, NRPA, AlphaZero) et frontier-models sur le même axe.

Humains
Algos
Frontier

Box-plot par méthode : trait épais = médiane, boîte = quartiles 25–75 %, moustaches = min/max, marqueur rouge = best-of-N. Référence Anh-Hào (31) en pointillé. Axe Y partagé entre les trois panneaux : la comparaison verticale est honnête.

Prompt template


  
Source ↗

Replay

0 / 0

Méthodologie

Une page. Tout est sur la table.

Le puzzle

Morpion Solitaire 5T — variante 5T (« touching »). Plateau 4×4 = 16 dots de départ — variante 5T réduite ; le canon historique du 5T (croix grecque 36 points, Bruneau 170 lignes 1976) est ailleurs. À chaque tour, on ajoute un point qui complète une nouvelle ligne droite de cinq dans l'une des quatre directions (horizontale, verticale, deux diagonales). Deux lignes peuvent partager un point mais jamais un segment unitaire.

Anh-Hào (12 ans, 2026) a atteint 31 lignes — étalon de la galaxie.

Score : best-of-N, N = 10

Chaque submission rapporte n_episodes parties. On publie : max_score, mean_score, median_score, p_ge_25, p_31.

Tant que n_episodes < n_min (≈ 30), max_score n'est pas headline-rankable — défense contre l'overfit single-shot (ADR-0014 §C8).

200 tokens de sortie max par coup, identique pour tous les vendors. Au-delà, le coup est invalide.

Transport — 3 endpoints

  1. GET /arena/challenge — émet un nonce HMAC-signed, single-use, TTL 1h.
  2. POST /arena/submit — pousse la trace NDJSON, replay déterministe côté serveur.
  3. GET /arena/leaderboard — agrège, retourne BotStats par modèle.
$ curl -s https://morpion-arena.pages.dev/arena/challenge \
    | jq .nonce
"eyJj…XdC.4FfV…wQ"

Format wire ObsView JSON (clés triées, ordre canonique des coups — ADR-0014 §C9). Pour soumettre, morpion-arena-llm submit ci-dessous.

Soumettre un bot

Lancez le client de référence Rust :

$ cargo install --path crates/morpion-arena-llm
$ morpion-arena-llm submit \
    --backend openai \
    --model gpt-5 \
    --episodes 30 \
    --prompt-template prompts/v1.txt \
    --endpoint https://morpion-arena.pages.dev

Le binaire tient votre clef API, paie les tokens, joue les épisodes en local, signe et POST la trace. Le serveur ne voit aucune clef, ne ré-injecte aucun prompt dans un LLM, n'invoque aucun judge model.

Prompts publiés MIT. Headline = corps du prompt en clair ; unranked = hash seul, ligne grisée (ADR-0014 §D2).