Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-training

Jan 1, 2026·

William Hoy

Binxu Wang

Binxu Wang

,

Xu Pan

· 0 min read

Type

Journal article

Publication

under review at COLM 2026

Last updated on Jan 1, 2026

LLM Reinforcement Learning Science of AI

Binxu Wang

Authors

Research Fellow

← Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer Jan 1, 2026

Neuronal Tuning Aligns Dynamically with Object- and Texture Manifolds across the Visual Hierarchy Jan 1, 2026 →