品玩6月12日讯,据 Arxiv 页面显示,上海交大 IPADS 实验室推出了面向手机的大模型推理引擎PowerInfer-2.0。
PowerInfer-2.0 能够在内存有限的智能手机上实现快速推理,让 Mixtral 47B 模型在手机上达到11 tokens/s 的速度。与热门开源推理框架 llama.cpp 相比,PowerInfer-2.0 的推理加速比平均达到 25 倍,最高达 29 倍。
为了充分释放出 PowerInfer-2.0 框架的最大潜力,上海交大团队还提出了配套的大模型优化技术Turbo Sparse,相关论文近期也上传了 arxiv,并且已经在业内引起关注。