Junkang Wu's picture

2 5

Junkang Wu

junkang0909

·

https://junkangwu.github.io/

AI & ML interests

LLM alignment

Organizations

None yet

authored 3 papers 3 months ago

Aligning Multimodal LLM with Human Preference: A Survey

Paper • 2503.14504 • Published Mar 18 • 26

Robust Preference Optimization via Dynamic Target Margins

Paper • 2506.03690 • Published Jun 4 • 2

Quantile Advantage Estimation for Entropy-Safe Reasoning

Paper • 2509.22611 • Published Sep 26 • 118

authored 5 papers 10 months ago

RePO: ReLU-based Preference Optimization

Paper • 2503.07426 • Published Mar 10 • 2

Direct Multi-Turn Preference Optimization for Language Agents

Paper • 2406.14868 • Published Jun 21, 2024

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Paper • 2502.10391 • Published Feb 14 • 34

$β$-DPO: Direct Preference Optimization with Dynamic $β$

Paper • 2407.08639 • Published Jul 11, 2024

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization

Paper • 2407.07880 • Published Jul 10, 2024