Publications

2026

Preprint

MedOS: AI-XR-Cobot World Model for Clinical Perception and Action

Yingcheng Wu, Ming Yin, Baiyu Shi, Zaixi Zhang, Di Yin, Xiaotong Wang, Youjuan Wang, Jigang Fan, Ruofan Jin, Hanchen Wang, Kejun Ying, Kuan Pang, Rebecca Rojansky, Christina Curtis, Zhenan Bao, Mengdi Wang, and Le Cong

medRxiv preprint, 2026

HTML

2025

Preprint

Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions

Ming Yin, Yuanhao Qu, Liu Dyllan, Yang Ling, Le Cong, and Wang Mengdi

biorxiv preprint, 2025

HTML
Preprint

Toward Scientific Reasoning in LLMs: Training from Expert Discussions via Reinforcement Learning

Ming Yin, Yuanhao Qu, Yang Ling, Le Cong, and Wang Mengdi

arXiv preprint arXiv:2505.19501, 2025

arXiv
Preprint

No-Regret Linear Bandits under Gap-Adjusted Misspecification

Chong Liu, Dan Qiao, Ming Yin, Ilija Bogunovic, and Yu-Xiang Wang

2025

arXiv

2024

Preprint

Posterior Sampling via Langevin Monte Carlo for Offline Reinforcement Learning

Thanh Nguyen-Tang, Ming Yin, Masatoshi Uehara, Yu-Xiang Wang, Mengdi Wang, and Raman Arora

2024

HTML

2026

Nature

Humanity’s last exam: A benchmark of expert-level academic questions to assess AI capabilities

HLE Consortium Contributor

Nature, 2026

HTML

2025

ICML

MATH-Perturb: Benchmarking LLMs’ Math Reasoning Abilities against Hard Perturbations

Kaixuan Huang, Jiacheng Guo, Zihao Li, Xiang Ji, Jiawei Ge, Wenzhe Li, Yingqing Guo, Tianle Cai, Hui Yuan, Runzhe Wang, Yue Wu, Ming Yin, Shange Tang, Yangsibo Huang, Chi Jin, Xinyun Chen, Chiyuan Zhang, and Mengdi Wang

International Conference on Machine Learning, 2025

arXiv
STS

On the Statistical Complexity for Offline and Low-Adaptive Reinforcement Learning with Structures

Ming Yin, Mengdi Wang, and Yu-Xiang Wang

Statistical Science Journal, 2025

arXiv
NBME

CRISPR-GPT: LLM Agents for Automated Design of Gene-Editing Experiments

Yuanhao Qu*, Kaixuan Huang*, Ming Yin, Kanghong Zhan, Dyllan Liu, Di Yin, William A Johnson, Xiaotong Wang, Denny Zhou, Russ Altman, Mengdi Wang*, and Le Cong*

Nature Biomedical Engineering, 2025

HTML
L4DC

Rates for Offline Reinforcement Learning with Adaptively Collected Data

Sunil Madhow, Dan Qiao, Ming Yin, and Yu-Xiang Wang

Learning for Dynamics and Control Conference, 2025

HTML

2024

NeurIPS

A Theoretical Perspective for Speculative Decoding Algorithm

Ming Yin, Minshuo Chen, Kaixuan Huang, and Mengdi Wang

Advances in Neural Information Processing Systems, 2024

arXiv
NeurIPS

NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in Network Simulation

Momin Haider, Ming Yin, Menglei Zhang, Arpit Gupta, Jing Zhu, and Yu-Xiang Wang

Advances in Neural Information Processing Systems (Datasets and Benchmarks Track), 2024

arXiv
NeurIPS

Fast Best-of-N Decoding via Speculative Rejection

Ruiqi Zhang*, Momin Haider*, Ming Yin, Jiahao Qiu, Mengdi Wang, Peter Bartlett, and Andrea Zanette

Advances in Neural Information Processing Systems, 2024

arXiv
NeurIPS

Transfer Q*: Principled Decoding for LLM Alignment

Souradip Chakraborty, Soumya Ghosal, Ming Yin, Dinesh Manocha, Mengdi Wang, Amrit Singh Bedi, and Furong Huang

Advances in Neural Information Processing Systems, 2024

arXiv
NeurIPS

Offline Multitask Representation Learning for Reinforcement Learning

Haque Ishfaq*, Thanh Nguyen-Tang, Songtao Feng, Raman Arora, Mengdi Wang, Ming Yin*, and Doina Precup*

Advances in Neural Information Processing Systems, 2024

arXiv
ICML

Learning the Target Network in Function Space

Ming Yin*, Kavosh Asadi*, Shoham Sabach*, Yao Liu*, and Rasool Fakoor

International Conference on Machine Learning, 2024

arXiv HTML
ICML

Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games

Songtao Feng, Ming Yin, Yu-Xiang Wang, Jing Yang, and Yingbin Liang

International Conference on Machine Learning, 2024

arXiv HTML
JSAIT

Towards General Function Approximation in Nonstationary Reinforcement Learning

Songtao Feng, Ming Yin, Ruiquan Huang, Yu-Xiang Wang, Jing Yang, and Yingbin Liang

IEEE Journal on Selected Areas in Information Theory, (short version at ISIT 24) 2024

HTML
CVPR Best Paper Finalist

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, and Wenhu Chen

The IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

arXiv HTML
ISIT

Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs

Dan Qiao, Ming Yin, and Yu-Xiang Wang

IEEE International Symposium on Information Theory 2024

arXiv

2023

NeurIPS

Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation

Ming Yin*, Nikki Kuang*, Mengdi Wang, Yu-Xiang Wang, and Yian Ma

Advances in Neural Information Processing Systems, 2023

arXiv HTML
EMNLP

TheoremQA: A Theorem-driven Question Answering dataset

Wenhu Chen, Ming Yin, Max Ku, Elaine Wan, Xueguang Ma, Jianyu Xu, Tony Xia, Xinyi Wang, and Pan Lu

Conference on Empirical Methods in Natural Language Processing, 2023

arXiv HTML
UAI

No-Regret Linear Bandits beyond Realizability

Chong Liu, Ming Yin, and Yu-Xiang Wang

Uncertainty in Artificial Intelligence, 2023

arXiv HTML
ICML

Non-stationary Reinforcement Learning under General Function Approximation

Songtao Feng, Ming Yin, Ruiquan Huang, Yu-Xiang Wang, Jing Yang, and Yingbin Liang

International Conference on Machine Learning, 2023

arXiv HTML
ICML

Offline Reinforcement Learning with Closed-Form Policy Improvement Operators

Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang, and William Yang Wang

International Conference on Machine Learning (Short version at NeurIPS-22 Offline RL Workshop), 2023

arXiv HTML
ICLR

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient

Ming Yin, Mengdi Wang, and Yu-Xiang Wang

International Conference on Learning Representations, 2023

arXiv HTML
AAAI

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation

Thanh Nguyen-Tan, Ming Yin, Sunil Gupta, Svetha Venkates, and Raman Arora

Association for the Advancement of Artificial Intelligence, 2023

arXiv HTML

2022

ICLR

Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism

Ming Yin, Yaqi Duan, Mengdi Wang, and Yu-Xiang Wang

International Conference on Learning Representations, 2022

arXiv HTML
ICML Spotlight

Sample-Efficient Reinforcement Learning with loglog(T) Switching Cost

Dan Qiao, Ming Yin, Ming Min, and Yu-Xiang Wang

International Conference on Machine Learning, 2022

arXiv HTML
UAI Spotlight

Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality

Ming Yin*, Wenjing Chen*, Mengdi Wang, and Yu-Xiang Wang

Uncertainty in Artificial Intelligence, 2022

arXiv HTML

2021

NeurIPS

Towards Instance-optimal Offline Reinforcement Learning with Pessimism

Ming Yin, and Yu-Xiang Wang

Advances in Neural Information Processing Systems, 2021

arXiv HTML
NeurIPS

Optimal Uniform OPE and Model-based Offline Reinforcement Learning in Time-Homogeneous, Reward-Free and Task-Agnostic Settings

Ming Yin, and Yu-Xiang Wang

Advances in Neural Information Processing Systems (Short version at ICML RL Theory Workshop), 2021

arXiv HTML
NeurIPS

Near-Optimal Offline Reinforcement Learning via Double Variance Reduction

Ming Yin, Yu Bai, and Yu-Xiang Wang

Advances in Neural Information Processing Systems (Short version at ICML RL Theory Workshop), 2021

arXiv HTML
AISTATS Oral Presentation

Near-optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning

Ming Yin, Yu Bai, and Yu-Xiang Wang

International Conference on Artificial Intelligence and Statistics (Short version at Neurips 2020 Offline RL Workshop), 2021

arXiv HTML

2020

AISTATS

Asymptotically Efficient Off-policy Evaluation for Tabular Reinforcement Learning

Ming Yin, and Yu-Xiang Wang

International Conference on Artificial Intelligence and Statistics, 2020

arXiv HTML

2023

ICML-WS

Why Quantization Improves Generalization: NTK of Binary Weight Neural Networks

Kaiqi Zhang, Ming Yin, and Yu-Xiang Wang

ICML workshop in Neural Compression, 2023

arXiv

2022

NeurIPS-WS

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data

Sunil Madhow, Dan Qiao, Ming Yin, and Yu-Xiang Wang

NeurIPS workshop in Offline RL, 2022

HTML

Preprints

2026

2025

2024

Publications

2026

2025

2024

2023

2022

2021

2020

Workshop Papers

2023

2022