对话式导读 “有没有可能用一张家用显卡,跑出 GPT-4 级别的数学题?” ——有。MBZUAI 最新开源的 K2-Think 只用 32B 参数,就在 AIME 2024/2025、HMMT25、O …
Kwai Keye-VL 1.5:重新定义视频理解的多模态大模型 概述:为什么视频理解如此困难? 视频理解一直是人工智能领域最具挑战性的任务之一。与静态图像不同,视频不仅包含丰富的空间信息,还具有复杂 …
EmbeddingGemma:重新定义设备端嵌入模型的高效与隐私 EmbeddingGemma_Banner 在人工智能快速发展的今天,如何在资源有限的设备上实现高效、低延迟的文本嵌入,同时保障用户数 …
rStar2-Agent: 探索代理推理在数学问题解决中的应用 大家好,我是这篇博客的作者。今天,我想和大家聊聊 rStar2-Agent 这个项目。它是一个专注于代理强化学习(agentic rei …
MiniCPM-V 4.5:手机可运行的GPT-4o级多模态模型——全面解析与实用指南 如果你正在寻找一款既能在手机上流畅运行,又具备GPT-4o级别视觉语言能力的多模态模型,那么面壁最新推出的Min …
Deca 3 Alpha Ultra:重新定义大型语言模型的未来 在人工智能飞速发展的今天,大型语言模型(LLM)已经成为推动技术边界的重要力量。它们不仅在研究和工业应用中表现卓越,也逐步融入我们的日 …
从零开始读懂 DeepSeek-V3.1:一份给技术新人的混合推理模型说明书 “ 如果你刚拿到一台新电脑,拆箱后第一件事是翻说明书; 如果你第一次接触 DeepSeek-V3.1,这篇文字就是你的“说 …
Ovis2.5:一张图告诉你,为什么它能在小模型里做大事情 对话式阅读指南,写给准备上手或正在评估多模态大模型的你 开场白:先弄清楚三个问题 你可能的疑问 一句话回答 Ovis2.5 是什么? 阿里巴 …
Galileo:一台真正“全能”的遥感预训练模型 “ 给地球做一次多维度体检,只需要一个模型 目录 为什么要用 Galileo? Galileo 到底“看”到了什么 模型结构:像搭积木一样灵活 自监督 …
NVIDIA Parakeet TDT 0.6B V2:一款高精度英语语音识别模型解析 引言 在人工智能技术飞速发展的今天,语音识别(ASR)已成为人机交互、智能助手、会议记录等场景的核心技术。NVI …
近年来,大型语言模型(LLM)如ChatGPT的崛起让Transformer架构家喻户晓。然而,随着对话长度的增加,Transformer的“记忆负担”问题逐渐暴露——生成响应时延迟变高、计算成本飙升 …
MAGI-1:自回归视频生成模型的技术解析与实战指南 一、MAGI-1的核心技术架构 1.1 自回归分块处理机制 MAGI-1创新性地将视频分割为24帧的独立单元(Chunk),采用分块生成策略: 流 …
Bytedance Seed-Thinking-v1.5:突破性推理模型的技术解析与应用前景 引言:推理模型的进化里程碑 2025年4月,Bytedance正式发布Seed-Thinking-v1.5 …