Tag: Multimodal Systems
All the articles with the tag "Multimodal Systems".
-
LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
本文提出LiSTEN框架,通过动态提示选择策略高效适应大型语言模型到音频任务,在减少大规模数据集依赖和训练参数量的同时,实现了多任务学习中的竞争性能和更高的可解释性。
-
Contrastive Learning for Task-Independent SpeechLLM-Pretraining
本文提出了一种基于对比学习的SpeechLLM任务无关预训练方法,通过对齐语音和文本表示,在低资源场景下显著提升了ASR、语音翻译和语音问答任务的性能,并超越了多个专门模型。
-
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging
本文提出一个多模态大语言模型(MLLM)融合基准和改进的任务向量优化方法(WUDI v2),通过低秩近似去除噪声并优化合并向量,在多任务和跨模态融合实验中取得平均2.48%的性能提升,展现了无需数据训练即可构建高性能MLLMs的潜力。
-
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
本文提出LayerMoE算法,通过基于层间语言相似性的专家分配和路由分类器,实现了多语言LLM的高效扩展,以更少的参数显著提升新语言性能并减少旧语言遗忘。
-
You Do Not Fully Utilize Transformer's Representation Capacity
本文提出Layer-Integrated Memory (LIMe),通过学习跨层路由机制整合之前所有层的Key-Value表示,显著缓解Transformer的表示崩塌问题,并在语言建模、推理任务和深层网络中实现更快收敛和更高准确率。