标签:大模型对齐

ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
构建探索驱动的人类反馈强化学习对齐框架。原标题:ICLR2025|大模型也需要好奇心,TeleAI提出探索驱动的对齐方法,8B越级胜70B文章来源:机器之心内容字数:7771字中国电信联合清……