2026年4月22日

785

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

随着生成式人工智能技术的持续演进，端侧部署能力逐渐成为模型落地的重要考量。在图像编辑领域，如何兼顾隐私安全与推理效率一直是技术探索的核心命题。传统云端方案虽然计算资源丰富，但存在数据上传的隐私风险和网络延迟带来的体验问题。端侧部署作为一种可行的技术路径，能够在本地设备上完成复杂AI任务，既保护用户隐私，又提升响应速度。

核心架构设计

MNN-Sana-Edit-V2是由电商平台技术团队联合高校研发的端侧图像编辑大模型，专注于漫画风格转换任务。该模型基于Sana图像生成框架和MetaQuery学术成果构建，采用Qwen3-0.6B作为冻结的预训练LLM，通过Learnable Query和Connector模块桥接文本理解与图像生成过程。在架构设计上，模型融合了Linear DiT线性注意力机制和Deep Compression Autoencoder高效编码器，实现了32倍的压缩比，显著降低了计算开销。依托MNN框架的4/8bit量化部署能力，全部模型可运行于手机端本地。

训练策略与优化

MNN-Sana-Edit-V2的网络架构包含四个关键组件。预训练LLM采用Qwen3-0.6B并保持冻结状态，负责深入理解用户输入的Prompt语义；Learnable Query是一组256维可学习参数，作为桥梁连接文本理解与图像生成过程；Connector模块包含Transformer结构的Connector网络和线性投影层Projector，负责将LLM的语义表示对齐到DiT的输入空间；DiT模块则执行去噪扩散过程，结合参考图像的Latent特征完成风格转换。

端侧AI的意义不仅在于技术突破，更在于让AI能力真正普惠每一位用户

“编辑观点”

端侧部署实践

模型训练采用三阶段递进策略。Stage1预训练阶段使用200万文本-图像对数据训练约10万步，仅更新Learnable Query和Connector权重，以对齐LLM与图像生成任务；Stage2微调阶段基于6万内部数据训练1万步，解锁DiT模块权重；Stage3编辑能力训练阶段使用1万对编辑数据训练10万步，引入参考图像作为额外输入，实现精准的图像编辑能力。

性能测试与实际表现

在端侧部署优化方面，团队先将PyTorch模型转换为ONNX格式，再转为MNN格式，利用MNN框架完善的算子支持实现顺畅转换。量化策略上，LLM采用4bit非对称量化以释放更多计算空间，其他模型采用8bit非对称量化，在性能与效果间取得平衡。真机测试显示，在iPhone 17 Pro上处理512×512图像仅需14.7秒，较OpenAI云端方案的38-45秒提速约2.5倍；Android端一加13机型耗时45秒，整体内存占用约5.5GB。

如有侵权，请联系删除。

多模态技术端侧AI 图像编辑大模型部署积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

核心架构设计

训练策略与优化

端侧部署实践

性能测试与实际表现

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

核心架构设计

训练策略与优化

端侧部署实践

性能测试与实际表现

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的 「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者