Chrome重磅升级!Gemini AI全面接入,这10大智能功能将颠覆你的上网习惯?

1个月前 高效码农

你是否曾经在打开无数个标签页后感到迷失?是否希望浏览器能更懂你,帮你自动完成那些繁琐的线上任务?现在,这一切正在成为现实。 2025年9月18日,Chrome 进行了其有史以来最大规模的升级,将 Go …

DeepSeek-R1:通过强化学习激励大语言模型推理能力

1个月前 高效码农

摘要 DeepSeek-R1 是 DeepSeek-AI 团队提出的一种基于强化学习(Reinforcement Learning, RL)的大语言模型(LLM),其核心目标是通过 RL 框架激励模型 …

大规模多模态模型能看懂网络漫画幽默吗?PixelHumor数据集揭秘AI笑点盲区

1个月前 高效码农

目录 引言 为什么研究“漫画幽默” PixelHumor 数据集的诞生 数据来源 幽默风格分类 标注流程 数据分析 实验设计与任务设置 幽默识别 幽默分类 幽默解释 顺序识别 实验结果 识别幽默:容易 …

3-5倍提速!Set Block Decoding让大语言模型推理飞起来

1个月前 高效码农

Set Block Decoding:让大语言模型推理速度提升3-5倍的新方法 一、背景:语言模型推理为什么需要加速? 大家在用大语言模型聊天或写代码时,有没有遇到过这样的尴尬: 输出一长段代码时卡顿 …

Hermes 4 14B震撼发布!开源大语言模型推理能力再升级,如何引领AI助手新革命?

1个月前 高效码农

Hermes 4 14B:更强大、更易用的开源大语言模型 在人工智能迅猛发展的今天,大语言模型(LLM)已成为推动技术进步的核心力量。无论是进行复杂的逻辑推理,还是辅助日常的创意写作,一个能力强、易操 …

IBM 发布 Granite-Docling-258M:一款开源且企业级的文档 AI 模型

1个月前 高效码农

Granite Docling Logo 在现代企业中,每天都有海量的文档需要处理——无论是合同、报告、学术论文还是技术手册。传统的光学字符识别(OCR)技术虽然能够提取文字,却常常丢失文档的核心结构 …

MapAnything:把任意照片变成带尺度的 3D 模型,只需一次前向计算

1个月前 高效码农

——Meta Reality Labs 与卡内基梅隆大学联合开源的通用度量三维重建模型 一、为什么需要“通用”三维重建? 过去要做一套**度量级(metric)**三维场景,得把 pipeline 拆 …

AI视频转录器如何实现30+平台语音秒转文字?技术大牛亲授跨平台处理秘籍

1个月前 高效码农

AI视频转录器:多平台视频语音转文字与智能摘要工具全指南 本文欲回答的核心问题:什么是AI视频转录器?它能实现哪些功能?如何安装、配置并高效使用这款工具处理来自不同平台的视频内容? 在信息爆炸的时代, …

HuMo 全景解读:用文本+图片+声音“零演员”拍真人短片

1个月前 高效码农

核心问题:没有专业团队、没有摄影棚,只靠一段文字、一张照片和一段语音,能否在 8 分钟内生成 480P 的口型同步真人视频? 答案:HuMo 开源框架已经做到,且支持 720P、17 亿参数版本,本地 …

Ring-mini-2.0高效推理:16B MoE模型如何突破代码生成与长上下文瓶颈?

1个月前 高效码农

摘要 本文深入解析了 inclusionAI 团队最新发布的 Ring-mini-2.0 模型——一个基于 Ling 2.0 架构深度优化的高性能混合专家模型(MoE)。该模型仅使用 16B 总参数和 …

VoxCPM:无分词器的 TTS 模型,用于高级语音合成

1个月前 高效码农

作者 / 团队 / 机构 作者:Yixuan Zhou、Guoyang Zeng、Xin Liu、Xiang Li、Renjie Yu、Ziyang Wang、Runchuan Ye、Weiyue S …

CUDA推理引擎新突破:qwen600如何实现QWEN3-0.6B模型高性能推理?

1个月前 高效码农

qwen600.cu —— 从零构建的轻量级 CUDA 推理引擎 qwen600 banner 在学习和实践 CUDA 与 GPGPU 的过程中,有了这样一个想法:能不能自己从头实现一个推理引擎?于是 …

AP2协议破解未来商业闭环:可信AI支付生态如何重塑数字经济?

1个月前 高效码农

摘要 本文深入解析Google推出的Agent Payments Protocol (AP2)——一个为AI代理经济设计的开放支付协议。AP2通过密码学凭证(Verifiable Credential …

当AI成为伴侣:Reddit社区中人类与人工智能的情感联系研究

1个月前 高效码农

引言 想象一下这样的场景:你打开聊天界面,原本只是为了寻求一些工作上的帮助或娱乐,却在不知不觉中与对话另一端的人工智能建立了深厚的情感联系。这不是科幻电影《她》(Her)中的情节,而是正在全球范围内发 …

解锁多模态AI新能力:使用Unsloth进行视觉强化学习训练

1个月前 高效码农

引言 在人工智能快速发展的今天,视觉与语言相结合的多模态模型正成为技术前沿的热点。无论是解析复杂图表中的数学问题,还是理解图像中的语义内容,这些模型都展现出了令人惊叹的能力。然而,训练这类模型通常需要 …

AIPex:用自然语言掌控浏览器的终极自动化工具

1个月前 高效码农

重新定义浏览器自动化:AIPex 如何用自然语言解放你的双手 浏览器自动化不再是开发者的专属领域。AIPex 作为一款革命性的 Chrome 扩展,通过自然语言命令和人工智能技术,让任何人都能像与助手 …

提升AI回答质量的秘密武器:分层分块技术如何革新检索增强生成系统

1个月前 高效码农

你是否遇到过这样的问题:向AI提问时,它给出的答案总是支离破碎?或者明明文档里有完整答案,AI却只找到零星片段?这背后隐藏着一个关键问题——文档分块质量。今天我们将深入探讨一项突破性技术:分层分块(H …

昇腾NPU上的多模态大模型MindVL:架构、训练与性能解析

1个月前 高效码农

“ 华为昇腾团队研发的MindVL模型,在1/10训练数据下实现与Qwen2.5-VL相当的性能表现,本文深度解析其技术架构与训练策略。 一、MindVL的核心技术创新 1. 原生分辨率视觉处理 传统 …

生成式AI重塑教育:Learn Your Way开启个性化学习新时代

1个月前 高效码农

教材是教育的基石,但它们也有明显的局限性。传统教材往往是一种“一刀切”的模式,需要大量人工编写和编辑,缺乏多样化的表达形式和个性化的学习体验。结果是,许多学生在面对相同的内容时,难以根据自己的兴趣和水 …

Claude 正式登陆 Xcode:把“写代码”变成“聊代码”

1个月前 高效码农

一、先回答你最想问的 3 个问题 问题 一句话答案 Claude 进 Xcode 是真是假? 真的,Anthropic 官网 2025 年 9 月 16 日官宣,Xcode 26 已内置登录入口。 要 …