深度学习归档 | 第2页共6页

Chroma1-HD震撼发布！8.9B参数开源模型如何颠覆文本生成图像领域？

6个月前高效码农

Chroma1-HD：一款强大的开源文本到图像基础模型如果你正在寻找一款高性能、易微调且完全开源的文本到图像生成模型，那么Chroma1-HD或许会成为你的理想选择。这款模型凭借8.9B参数的强大算 …

8B大模型如何塞进手机？MiniCPM4飙速7倍秘籍曝光！

6个月前高效码农

MiniCPM4 与 MiniCPM4.1：把 8B 大模型塞进手机，还能跑得快、想得深适合读者：计算机/电子/通信相关专业毕业生，想快速了解「端侧大模型」到底做到了什么程度，以及自己能不能动手玩起 …

一招搞定艺术风格迁移与主体定制！USO模型让AI绘画精准复刻梵高猫脸

6个月前高效码农

从零开始，用 USO 把“风格迁移”与“主体定制”一次搞定 “我想让 AI 画一只猫，但要用梵高的笔触，还要保留我家那只橘猫的脸，能做到吗？” ——答案是：可以，而且只需一张主体图、一张风格图、一句话 …

MobileCLIP2发布：多模态强化训练实现移动端图像文本模型性能突破

6个月前高效码农

MobileCLIP2：多模态强化训练革新移动端图像-文本模型性能本文将深入解析MobileCLIP2的核心技术突破，重点探讨其在移动端图像-文本模型领域的性能提升与架构创新，帮助开发者快速理解其技 …

从零构建高精度婴儿头部图像分割系统：深度学习赋能新生儿健康监测

6个月前高效码农

婴儿头部图像分割：从零构建高精度医疗影像分析工具医学影像技术与人工智能的完美结合，为新生儿健康监测开辟新途径在新生儿护理和儿科医学领域，精确测量头部发育指标至关重要。传统手工测量方法不仅耗时费力， …

从零掌握Mixture of Experts模型：moellama项目实战全攻略

6个月前高效码农

从零开始理解Mixture of Experts语言模型：moellama项目实战指南你是否曾经好奇，大型语言模型是如何在保持高效的同时不断提升性能的？随着AI技术的快速发展，传统的单一网络架构已经 …

Chain-of-Agents突破AI协作瓶颈：OPPO框架引领团队式智能革命

6个月前高效码农

Chain-of-Agents：让AI像团队一样协作完成任务的新范式 Figure 1: AFM在多个基准测试中表现优异引言：当AI学会”团队协作” 想象你正在策划一场大型活 …

Jet-Nemotron突破53.6倍速度！语言模型效率革命如何实现？

6个月前高效码农

高效语言模型新突破：Jet-Nemotron如何实现速度与精度的完美平衡在人工智能领域，语言模型（Language Models）已成为推动技术进步的核心力量。然而，随着模型规模不断扩大，其计算成本 …

从零构建GPT模型：手把手教你实现大语言模型（含代码）

6个月前高效码农

从零开始构建大语言模型：深入理解GPT类模型的工作原理引言你是否好奇像ChatGPT这样的大语言模型(LLM)是如何工作的？想了解它们背后的技术原理而不只是调用API？《从零开始构建大语言模型》( …

Gemma 3全面指南：手机端部署与高效微调实战技巧

7个月前高效码农

Gemma 3 全面指南：从本地运行到高效微调通俗解读谷歌新一代轻量级AI模型的实战应用 🌟 一、Gemma 3 是什么？ Gemma 3 是谷歌推出的新一代开源轻量级AI模型家族，基于与Gemin …

破解AI模型抄袭黑幕！MDIR技术如何精准揪出LLM剽窃者？

7个月前高效码农

大型语言模型抄袭检测新方法：MDIR技术详解引言随着大型语言模型（LLM）的快速发展，模型权重抄袭问题日益凸显。开发者可能在未授权情况下复制他人模型参数，通过微调、持续预训练等方式伪装原创性。这种 …

用一张证件照生成会说话的视频？Stand-In轻量级AI框架全解析

7个月前高效码农

用几行代码把照片变成会说话的视频：Stand-In 入门与实践 “ 读完本文，你将知道：为什么 Stand-In 能在 1% 额外参数的前提下，比传统“全模型训练”效果更好；如何只用一张证件照，让 …

RynnVLA-001视觉-语言-动作模型解析：机器人操作的未来已来

7个月前高效码农

RynnVLA-001：基于生成先验增强的视觉-语言-动作模型解析本文详细解析了阿里达摩院最新开源的视觉-语言-动作模型RynnVLA-001的技术原理、训练方法和使用指南，无需机器人领域专业知识即 …

突破AI推理天花板！HRM模型如何用大脑层级架构征服复杂问题？

7个月前高效码农

分层推理模型（HRM）：受大脑启发的下一代AI推理系统 “ 深度学习模型在处理复杂推理任务时面临计算深度不足的问题，而受大脑启发的分层推理模型（HRM）通过独特的架构设计，在小样本场景下展现出卓越的推 …

Genie 3震撼发布！Google DeepMind如何用实时生成技术重构虚拟世界？

7个月前高效码农

Genie 3：世界模型的新边疆——实时交互式生成世界的突破本文深入解析Google DeepMind的Genie 3如何通过实时生成技术创造动态虚拟世界，探讨其六大核心能力、技术突破与行业影响，并 …

Qwen-Image突破极限：20B参数多模态模型如何颠覆中文文本渲染与图像编辑？

7个月前高效码农

Qwen-Image：突破文本渲染极限的20B多模态图像大模型阿里巴巴通义千问团队最新发布的20B参数图像基础模型，在复杂文本渲染和精准图像编辑领域实现重大突破为什么Qwen-Image引起广泛关 …

MixGRPO突破性提速71%！AI绘图模型训练效率飙升

7个月前高效码农

MixGRPO：用“混合采样+滑动窗口”让 AI 绘图模型训练快 71% 一句话总结在 FLUX.1-dev 之上，MixGRPO 用“ODE+SDE 混合采样”只优化最关键的 4 步，训练时间比 …

ControlNet Wan2.2深度控制视频生成指南：轻松解决棋盘纹伪影

7个月前高效码农

ControlNet for Wan2.2：深度控制视频生成的实用指南什么是 ControlNet 与 Wan2.2 的结合？在人工智能视频生成领域，Wan2.2 作为一款先进的视频生成模型，已经 …

腾讯新突破！RLVMR框架如何让AI代理效率飙升80%？

7个月前高效码农

RLVMR框架：提升长程代理效率的新方法在人工智能领域，构建能够自主完成复杂长程任务（如家庭环境操作、科学实验）的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架，通过案例和实验数据 …

RLVMR框架突破强化学习瓶颈：腾讯创新提升长程代理效率83.6%

7个月前高效码农

RLVMR框架：提升长程代理效率的新方法在人工智能领域，构建能够自主完成复杂长程任务（如家庭环境操作、科学实验）的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架，通过案例和实验数据 …