OptCodeTrans: Boost LLMs on Low-Resource Programming Language Translation (FORGE 2025 - Research Papers)

Who

Jianbo Lin, Yi Shen, Chuanyi Li, Changan Niu, Bin Luo

Track

FORGE 2025 Research Papers

Time Zone

The program is currently displayed in (GMT-04:00) Eastern Time (US & Canada).

Use conference time zone: (GMT-04:00) Eastern Time (US & Canada)Select other time zone

The GMT offsets shown reflect the offsets at the moment of the conference.

Time Band

By setting a time band, the program will dim events that are outside this time window. This is useful for (virtual) conferences with a continuous program (with repeated sessions).
The time band will also limit the events that are included in the personal iCalendar subscription service.

Display full programSpecify a time band

Save

When

Sun 27 Apr 2025 15:18 - 15:24 at 207 - Session1: FM for Code Generation Chair(s): Lili Wei

Abstract

Program translation aims to translate source code from one programming language(PL) to another. Current research on code translation predominantly focuses on high-resource PLs like Python and Java, leaving low-resource languages insufficiently explored. Fortunately, the rapid advancement of Large Language Models(LLMs) has created new opportunities for research on low-resource PLs. To mitigate this gap in the era of foundation models, we introduce OptCodeTrans, a two-phase post-training approach involving continued pre-training and instruction fine-tuning. We provide a high-quality dataset of three low-resource languages representing different programming paradigms, including Cangjie, Julia, and OCaml. Our work provides valuable insights into effective post-training strategies for adapting LLMs to low-resource code translation tasks. Extensive experiments demonstrate the effectiveness of OptCodeTrans, achieving an average improvement of 10.28 in BLEU and 5.15 in functional equivalence across all translation tasks and backbone models.

Jianbo Lin

Nanjing University

Yi Shen

Nanjing University

Chuanyi Li

Nanjing University

China

Changan Niu

Software Institute, Nanjing University

Bin Luo

Nanjing University

China

Time Zone

The program is currently displayed in (GMT-04:00) Eastern Time (US & Canada).

Use conference time zone: (GMT-04:00) Eastern Time (US & Canada)Select other time zone

The GMT offsets shown reflect the offsets at the moment of the conference.

Time Band

Display full programSpecify a time band

Save

Session Program

Sun 27 Apr
Displayed time zone: Eastern Time (US & Canada) change

14:00 - 15:30	Session1: FM for Code Generation Research Papers / Data and Benchmarking at 207 Chair(s): Lili Wei McGill University

14:00 12m Long-paper		RepoHyper: Search-Expand-Refine on Semantic Graphs for Repository-Level Code Completion Research Papers Huy Nhat Phan FPT Software AI Center, Hoang Nhat Phan Nanyang Technological University, Tien N. Nguyen University of Texas at Dallas, Nghi D. Q. Bui Salesforce Research
14:12 12m Long-paper		SoTaNa: An Open-Source Software Engineering Instruction-Tuned Model Research Papers Ensheng Shi Xi’an Jiaotong University, Yanlin Wang Sun Yat-sen University, Fengji Zhang Microsoft Research Asia, Bei Chen Microsoft Research Asia, Hongyu Zhang Chongqing University, Yanli Wang Sun Yat-sen University, Daya Guo Sun Yat-sen University, Lun Du Microsoft Research, Shi Han Microsoft Research, Dongmei Zhang Microsoft Research, Hongbin Sun Xi’an Jiaotong University
14:24 12m Long-paper		Automated Codebase Reconciliation using Large Language Models Research Papers Aneri Gandhi University of Toronto, Sanjukta De Advanced Micro Devices, Marsha Chechik University of Toronto, Vinay Pandit Advanced Micro Devices, Max Kiehn Advanced Micro Devices, Matthieu Chan Chee Advanced Micro Devices, Yonas Bedasso Advanced Micro Devices
14:36 12m Long-paper		AI-Powered, But Power-Hungry? Energy Efficiency of LLM-Generated Code Research Papers Lola Solovyeva University of Twente, Sophie Weidmann University of Twente, Fernando Castor University of Twente
14:48 6m Short-paper		SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation Data and Benchmarking Ivan Petrukha MacPaw, Yana Kurliak MacPaw, Nataliia Stulova MacPaw
14:54 6m Short-paper		SE Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering Research Papers Zhimin Zhao Queen's University
15:00 12m Long-paper		PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback Research Papers Yun Peng The Chinese University of Hong Kong, Akhilesh Deepak Gotmare Salesforce Research, Michael Lyu The Chinese University of Hong Kong, Caiming Xiong Salesforce Research, Silvio Savarese Salesforce Research, Doyen Sahoo Salesforce Research
15:12 6m Short-paper		HyRACC: A Hybrid Retrieval-Augmented Framework for More Efficient Code Completion Research Papers Chuanyi Li Nanjing University, Jiwei Shang Nanjing University, Yi Feng Nanjing University, Bin Luo Nanjing University
15:18 6m Short-paper		OptCodeTrans: Boost LLMs on Low-Resource Programming Language Translation Research Papers Jianbo Lin Nanjing University, Yi Shen Nanjing University, Chuanyi Li Nanjing University, Changan Niu Software Institute, Nanjing University, Bin Luo Nanjing University