LLM

1 post in this tag

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-training

Jan 1, 2026

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-training

LLM Reinforcement Learning Science of AI

William Hoy

January 1, 2026

LLM Reinforcement Learning Science of AI

William Hoy, Binxu Wang, Xu Pan (2026). Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-training. under review at COLM 2026.

Related Tags

Zebrafish (1) Waves (1) Variational (1) Tutorial Series (1) Travel (1) Transformer (1) Thesis Defense (1) Thesis (1) Spectral Bias (1) Sleep (1)