Tag: Efficiency
All the articles with the tag "Efficiency".
-
On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration
本文提出软件硬件协同优化框架,通过 AWQ 模型压缩和 FPGA 加速在边缘设备上高效部署 Qwen2.5-0.5B 模型,实现 55.1% 的压缩率和 5.1 tokens/s 的推理速度,同时保持较高准确性。
-
PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning
本文提出PointLoRA方法,通过低秩适配和多尺度令牌选择,实现点云模型的参数高效微调,显著减少可训练参数同时在多个数据集上达到竞争性性能。
-
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability
本文提出Meeseeks多轮指令遵循基准,通过迭代反馈机制系统评估LLMs的自纠错能力,发现模型在多轮互动中性能显著提升。
-
You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects
本文提出ExecutionAgent,一个基于LLM的自主代理,通过meta-prompting和迭代反馈机制自动设置并执行任意软件项目的测试套件,显著提高了测试执行的成功率和准确性。
-
Empirical Evaluation of Progressive Coding for Sparse Autoencoders
本文通过实证评估比较了Matryoshka SAEs和基于字典幂律修剪的方法,以实现SAEs的渐进式编码,提高计算效率、重建保真度和可解释性。