Conference

ODRL: A Benchmark for Off-Dynamics Reinforcement Learning.

In Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track, 2024

We introduce ODRL, the first benchmark tailored for evaluating off-dynamics RL methods where one needs to transfer policies across different domains with dynamics mismatch.

Jiafei Lyu , Kang Xu , Jiacheng Xu , Mengbei Yan , Jing-Wen Yang , Zongzhang Zhang , Chenjia Bai^✉ , Zongqing Lu^✉ , Xiu Li^✉

ODRL: A Benchmark for Off-Dynamics Reinforcement Learning.

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies.

In AAAI Conference on Artificial Intelligence (AAAI), 2025

We propose Forward KL regularized Preference optimization for aligning Diffusion policies to align the diffusion policy with preferences, learning to align the policy output with human intents in various tasks.

Zhao Shan , Chenyou Fan , Shuang Qiu , Jiyuan Shi , Chenjia Bai^✉

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies.

Radiology Report Generation via Multi-objective Preference Optimization.

In AAAI Conference on Artificial Intelligence (AAAI), 2025

We propose a new radiology report generation method that aligns the pre-trained model with multiple human preferences via preference-guided multi-objective optimization reinforcement learning.

Ting Xiao , Lei Shi , Peng Liu , Zhe Wang , Chenjia Bai^✉

Radiology Report Generation via Multi-objective Preference Optimization.

Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning.

In International Conference on Learning Representations (ICLR), 2025

We introduce ExpoComm, a scalable communication protocol that leverages exponential topologies for efficient information dissemination among many agents in large-scale multi-agent reinforcement learning.

Xinran Li , Xiaolu Wang , Chenjia Bai , Jun Zhang

Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning.

Discriminator-Guided Embodied Planning for LLM Agent.

In International Conference on Learning Representations (ICLR), 2025

We propose a novel framework that generalizes demonstrations to establish critic-regularized grounding and optimization in the long-term planning of LLMs.

Haofu Qian , Chenjia Bai^✉ , Jiatao Zhang , Fei Wu , Wei Song , Xuelong Li

Discriminator-Guided Embodied Planning for LLM Agent.

Online Preference Alignment for Language Models via Count-based Exploration.

In International Conference on Learning Representations (ICLR), 2025 Spotlight

We propose count-based online preference optimization for LLM alignment that leverages coin-flip counting to encourage exploration in online RLHF.

Chenjia Bai , Yang Zhang , Shuang Qiu , Qiaosheng Zhang , Kang Xu , Xuelong Li^✉

Online Preference Alignment for Language Models via Count-based Exploration.

Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner.

In International Conference on Machine Learning (ICML), 2025

We develop a versatile diffusion planner that can leverage large-scale inferior data that contains task-agnostic sub-optimal trajectories, with the ability to fast adapt to specific tasks.

Chenyou Fan , Chenjia Bai^✉ , Zhao Shan , Haoran He , Yang Zhang , Zhen Wang

Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner.

Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration.

In Annual Meeting of the Association for Computational Linguistics (ACL), 2025

We propose a novel framework for multi-agent collaboration that introduces Reinforced Advantage feedback (ReAd) for efficient self-refinement of plans.

Yang Zhang , Shixin Yang , Chenjia Bai^✉ , Fei Wu , Xiu Li , Xuelong Li , Zhen Wang

Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration.

Online Iterative Self-Alignment for Radiology Report Generation.

In Annual Meeting of the Association for Computational Linguistics (ACL), 2025

We propose an online iterative self-alignment method for radiology report generation that iteratively generates unlimited preference data and automatically aligns with radiologists’ multiple objectives.

Ting Xiao , Lei Shi , Yang Zhang , HaoFeng Yang , Zhe Wang , Chenjia Bai^✉

Online Iterative Self-Alignment for Radiology Report Generation.

Preference Aligned Diffusion Planner for Quadrupedal Locomotion Control.

In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025

We develop a learning framework combining offline diffusion planner and online preference alignment with weak preference labeling for legged locomotion control.

Xinyi Yuan , Zhiwei Shang , Zifan Wang , Chenkai Wang , Zhao Shan , Zhenchao Qi , Meixin Zhu^✉ , Chenjia Bai^✉ , Xuelong Li

Preference Aligned Diffusion Planner for Quadrupedal Locomotion Control.