Humains corpus CC0
Traces partagées via la PWA familiale, ADR-0010.
| # | handle | max | n | |
|---|---|---|---|---|
| Chargement… | ||||
Arène frontier-models pour le Morpion Solitaire 5T.
Humains et frontier-models. Côte à côte, jamais fusionnés — la juxtaposition est le message.
Traces partagées via la PWA familiale, ADR-0010.
| # | handle | max | n | |
|---|---|---|---|---|
| Chargement… | ||||
Headline: prompt complet publié. Unranked : hash seul, grisé.
| # | model · rev | mean | p₃₁ | n | |
|---|---|---|---|---|---|
| Chargement… | |||||
Une seule visualisation pour comparer Anh-Hào, joueurs humains, algorithmes (greedy, MCTS, NRPA, AlphaZero) et frontier-models sur le même axe.
Box-plot par méthode : trait épais = médiane, boîte = quartiles 25–75 %, moustaches = min/max, marqueur rouge = best-of-N. Référence Anh-Hào (31) en pointillé. Axe Y partagé entre les trois panneaux : la comparaison verticale est honnête.
Une page. Tout est sur la table.
Morpion Solitaire 5T — variante 5T (« touching »). Plateau 4×4 = 16 dots de départ — variante 5T réduite ; le canon historique du 5T (croix grecque 36 points, Bruneau 170 lignes 1976) est ailleurs. À chaque tour, on ajoute un point qui complète une nouvelle ligne droite de cinq dans l'une des quatre directions (horizontale, verticale, deux diagonales). Deux lignes peuvent partager un point mais jamais un segment unitaire.
Anh-Hào (12 ans, 2026) a atteint 31 lignes — étalon de la galaxie.
Chaque submission rapporte n_episodes parties. On
publie : max_score, mean_score,
median_score, p_ge_25,
p_31.
Tant que n_episodes < n_min (≈ 30), max_score
n'est pas headline-rankable — défense contre l'overfit single-shot
(ADR-0014 §C8).
200 tokens de sortie max par coup, identique pour tous les vendors. Au-delà, le coup est invalide.
GET /arena/challenge — émet un nonce HMAC-signed, single-use, TTL 1h.POST /arena/submit — pousse la trace NDJSON, replay déterministe côté serveur.GET /arena/leaderboard — agrège, retourne BotStats par modèle.$ curl -s https://morpion-arena.pages.dev/arena/challenge \
| jq .nonce
"eyJj…XdC.4FfV…wQ"
Format wire ObsView JSON (clés triées, ordre canonique
des coups — ADR-0014 §C9).
Pour soumettre, morpion-arena-llm submit ci-dessous.
Lancez le client de référence Rust :
$ cargo install --path crates/morpion-arena-llm
$ morpion-arena-llm submit \
--backend openai \
--model gpt-5 \
--episodes 30 \
--prompt-template prompts/v1.txt \
--endpoint https://morpion-arena.pages.dev
Le binaire tient votre clef API, paie les tokens, joue les épisodes en local, signe et POST la trace. Le serveur ne voit aucune clef, ne ré-injecte aucun prompt dans un LLM, n'invoque aucun judge model.
Prompts publiés MIT. Headline = corps du prompt en clair ; unranked = hash seul, ligne grisée (ADR-0014 §D2).