Tag: Multimodal Systems
All the articles with the tag "Multimodal Systems".
-   
X-Fusion: Introducing New Modality to Frozen Large Language Models
本文提出X-Fusion框架,通過凍結LLM參數並添加雙塔結構,高效實現多模態理解和生成,同時保留原始語言能力。
 -   
Kimi-Audio Technical Report
本文提出Kimi-Audio,一个开源的音频基础模型,通过结合音频分词、LLM处理和逆分词的统一架构,以及大规模多模态训练,实现了音频理解、生成和对话的多任务SOTA性能。
 -   
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
本文提出DYMU框架,通过动态令牌合并和虚拟取消合并的训练-free方法,显著提高了VLMs的计算效率,同时在多个基准上保持了与完整模型相似的性能。
 -   
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
本文提出MAC-Tuning方法,通过分步微调分离答案预测和置信度估计,提升LLMs在多问题设置下的知识边界意识,显著减少幻觉并改善性能。
 -   
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics
本文提出了一种基于LLM的代理编排机器人系统,通过模块化任务规划和RAG记忆检索实现家庭环境中长程任务的自主执行,并在三个场景中展示了较高的任务规划准确率和记忆召回改进。