据悉,昇思MindSpore开源社区将于 2025 年 12 月 25日在杭州举办昇思人工智能框架峰会。本次大会,昇思MindSpore Lite的核心开发者分享基于MindSpore Lite推理框架在昇腾硬件的模型推理性能优化与部署实践,并在昇思开发者动手实践workshop设立开发者动手实践体验。本文以ViT模型为例对基于MindSpore Lite的高性能推理部署进行深入探讨。
据悉,昇思MindSpore开源社区将于 2025 年 12 月 25日在杭州举办昇思人工智能框架峰会。本次大会,昇思MindSpore Lite的核心开发者分享基于MindSpore Lite推理框架在昇腾硬件的模型推理性能优化与部署实践,并在昇思开发者动手实践workshop设立开发者动手实践体验。本文以ViT模型为例对基于MindSpore Lite的高性能推理部署进行深入探讨。
# 01
背景与挑战
MindSpore Lite作为高性能推理框架,在当前AI产业化落地的背景下,为开源模型的商用部署提供了坚实的技术保障。
在计算机视觉类业务场景中,特征提取通常依赖ViT模型实现。然而,ViT模型包含大量细粒度算子,致使推理过程中算子下发耗时显著超过算子执行耗时。此外,在多路并发场景下,显存占用亦成为制约业务性能的关键瓶颈。
• 推理性能:ViT模型包含逾1900+算子,在基于模型脚本的单算子逐一下发模式下,算子下发已成为推理性能的主要制约因素。同时,海量小算子带来的调度时延亦构成难以突破的性能瓶颈。
• 显存占用:鉴于业务场景对高吞吐、高并发推理的实际需求,面对大规模推理数据与众多模型实例,显存资源成为限制系统吞吐能力的关键要素。当推理请求量从1路增至256路时,显存占用呈线性增长,进而形成显存瓶颈。
为突破上述性能与显存瓶颈,MindSpore Lite提供了基于整图下沉的推理模式,并融合IO免拷贝、算子融合及高复用显存管理等关键技术,形成系统性解决方案,有力保障了业务的商用化落地。
# 02
MindSpore Lite昇腾推理技术方案

MindSpore Lite框架
2.1 方案介绍
MindSpore Lite推理框架提供了功能完备的离线转换工具及简洁易用的推理API接口。
模型转换阶段,MindSpore Lite转换工具可将MindSpore训练框架导出的MindIR模型或第三方框架导出的ONNX模型转换为MindSpore Lite格式的MindIR模型。离线转换过程中,工具首先将用户模型解析为标准MindSpore Lite IR格式,并在此基础上执行算子融合、子图切分、量化压缩等系列优化操作。同时,MindSpore Lite依据目标部署硬件特性,将优化后的IR对接至相应硬件后端,最终导出适用于MindSpore Lite推理部署的MindIR模型文件。
在线推理阶段,MindSpore Lite提供简明高效的API调用接口,通过加载转换后的MindIR模型,实现计算图整图下发至Device侧并执行推理,最终获取推理结果。推理过程中,框架支持多维度混合并行调度、显存管理、数据零拷贝等关键技术,有效提升模型推理性能并保障业务部署的稳定性与功能性。
2.2 关键技术
融合算子:针对VIT模型,MindSpore Lite提供了FlashAttention、LayerNorm等算子的融合能力,将大量小算子融合成整个融合大算子,降低算子的频繁调度时延以及提升算子的计算性能,从而达到模型推理的性能提升。
H2D/D2H免拷贝:为了提升业务吞吐,需要将推理Batch从1提高到256,随着Batch的提升,需要从Host拷贝大量数据到Device侧,以及Device侧拷贝数据到Host侧,为了进一步提升性能,MindSpore Lite提供了Device侧内存预申请的机制,以及后数据后处理入图的优化方式,从而有效的减少了数据拷贝,从而达到推理性能提升目的。
显存管理:为了提升吞吐,需要部署更多的推理实例,此外,推理Batch size业务进行提升,因此,多个实例的部署,以及Batch Size的扩大,导致推理显存成倍增加。因此MindSpore Lite提供了多实例间的权重显存共享,从而有效的降低了多实例带来的显存占用提升。
# 03
性能测试与验证
可以通过MindSpore Lite官网发布包中的converter_lite转换工具,将开源导出的onnx模型转换成mindir的模型,然后通过MindSpore Lite官网发布包中的benchmark工具验证模型的功能与性能数据,详细的验证方法可以参考MindSpore Lite官网教程。(https://www.mindspore.cn/lite/docs/zh-CN/master/mindir/benchmark_tool.html)
# 04
优化方向与展望
• 针对视觉类算法模型在昇腾硬件上的部署推理,MindSpore Lite会持续进行性能优化,降低部署显存,提升推理性能,提升业务吞吐能力,提供更加易用的接口能力。
• 与开源社区共同适配更多更新的开源算法模型,提升推理框架的泛化性能力,与模型推理性能。
开源代码仓库链接:https://gitee.com/mindspore/mindspore-lite
昇思社区官网链接:https://www.mindspore.cn/lite/
本次在杭州举办的昇思人工智能框架峰会,将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表,共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约,携手打造开放、协同、可持续的人工智能框架新生态!



粤公网安备 44010602000162号