Tag: Multimodality
All the articles with the tag "Multimodality".
-
TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
本文提出了一种基于多头张量化和Tucker分解的框架,通过强制共享高维子空间对大型语言模型的多头注意力权重进行结构化去噪和压缩,显著提升推理能力并实现高达247倍的压缩率。
-
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
本文通过KVFundaBench基准系统评估KV缓存压缩对大型语言模型基本能力的影响,揭示任务依赖性性能降解,并提出ShotKV方法,通过区分预填充和解码阶段压缩策略,在长上下文生成任务上显著提升性能。
-
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
本文通过质疑‘aha moment’模式与推理能力提升的相关性,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段方法,在3B和7B规模的多模态大语言模型上显著提升了多模态推理性能,达到开源模型中的最优水平。
-
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs
RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架,将集成过程建模为马尔可夫决策过程,在多个任务上实现最高3.3%的性能提升,并展现出跨任务泛化能力和计算效率。
-
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
本文首次系统比较了推理型与非推理型大语言模型在自然语言生成评估中的表现,发现推理能力的效果高度依赖模型架构,OpenAI o3-mini 在机器翻译评估中显著优于非推理型模型,而 DeepSeek-R1 仅在文本摘要一致性评估中表现突出,蒸馏模型在 32B 参数规模时仍有效。