Tag: Multimodal Systems

All the articles with the tag "Multimodal Systems".

X-Fusion: Introducing New Modality to Frozen Large Language Models

Published: 4 May, 2025 at 04:31 PM

66.52 🤔

本文提出X-Fusion框架，通過凍結LLM參數並添加雙塔結構，高效實現多模態理解和生成，同時保留原始語言能力。
Kimi-Audio Technical Report

Published: 4 May, 2025 at 04:32 PM

64.70 🤔

本文提出Kimi-Audio，一个开源的音频基础模型，通过结合音频分词、LLM处理和逆分词的统一架构，以及大规模多模态训练，实现了音频理解、生成和对话的多任务SOTA性能。
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Published: 4 May, 2025 at 04:29 PM

63.91 🤔

本文提出DYMU框架，通过动态令牌合并和虚拟取消合并的训练-free方法，显著提高了VLMs的计算效率，同时在多个基准上保持了与完整模型相似的性能。
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness

Published: 4 May, 2025 at 04:32 PM

63.08 🤔

本文提出MAC-Tuning方法，通过分步微调分离答案预测和置信度估计，提升LLMs在多问题设置下的知识边界意识，显著减少幻觉并改善性能。
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics

Published: 7 May, 2025 at 09:32 AM

62.29 🤔

本文提出了一种基于LLM的代理编排机器人系统，通过模块化任务规划和RAG记忆检索实现家庭环境中长程任务的自主执行，并在三个场景中展示了较高的任务规划准确率和记忆召回改进。

Tag: Multimodal Systems

X-Fusion: Introducing New Modality to Frozen Large Language Models

Kimi-Audio Technical Report

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness

LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics