科技归档 | 第7页共23页

GLM-TTS评测：3秒克隆声音、情感秒杀传统TTS，2025年开源语音新王登基！

3个月前高效码农

GLM-TTS：开源零样本情感语音合成新标杆核心问题：2025 年底，还有没有一个真正开源、可零样本克隆、情感表现力强、还能实时流式的中文 TTS？答案是：有了，而且就在今天——GLM-TTS 正 …

UniUGP终结自动驾驶长尾困境！看懂、想到、开出，一套方案搞定罕见场景“翻车”

3个月前高效码农

让长尾场景不再“翻车”——UniUGP 如何一次性把“看懂、想到、开出”做成闭环核心问题：自动驾驶在罕见场景里为何总掉链子？UniUGP 用一套“理解-生成-规划”统一框架，把大模型的语言推理、世界 …

AI终于有USB了！Google官宣Model Context Protocol（MCP），4大首发服务揭秘

3个月前高效码农

解锁AI代理潜能：Google官方MCP支持连接真实世界工具 “ 摘要：Google正式推出Model Context Protocol (MCP)官方支持，为AI代理提供统一接口访问Google M …

AI能力飙升，网络弹性怎么破？OpenAI用这三招构筑“铜墙铁壁”

3个月前高效码农

随着AI能力提升，如何加强网络弹性？摘要随着AI模型的网络安全能力快速提升，OpenAI通过增强模型防御能力、构建多层安全保障、开展生态合作等方式，在助力防御者的同时限制滥用，持续强化网络弹性，为 …

AI视频换脸革命！LivingSwap突破影效极限：参考原视频保真光影表情

3个月前高效码农

想象一下这样的场景：一位演员因故无法完成一部电影的剩余拍摄，或者导演希望在后期为某个角色更换更合适的演员面孔。在过去，这要么意味着高昂的重拍成本，要么只能依靠耗时且极易“穿帮”的逐帧手动修图。如今，人 …

Wan-Move革新：用一条潜在轨迹教你精准控制视频生成运动，图像瞬间动起来！

3个月前高效码农

一句话摘要：Wan-Move 是一种创新的运动可控视频生成框架，它通过将像素空间的点轨迹映射到潜在空间，并沿轨迹复制第一帧的特征来注入运动引导，无需修改基础模型架构或添加额外运动编码器。该框架基于 W …

大规模关键词监控遇上限？SEO工程师教你3天抓50万词实战方案

3个月前高效码农

用 SE Ranking API 在受限配额下完成大规模关键词抓取的实战方案一文读懂：为何会触发 processing_limit_exceeded（429）、如何设计容错调度与限流架构，以及在 3 …

Google LiteRT NeuroPilot：将手机NPU变为设备端大模型的“一等公民”

3个月前高效码农

在追求更快、更私密的AI体验时代，设备端运行大型语言模型（LLM）是关键的下一步。但将动辄数十亿参数的模型塞进手机，并流畅运行，一直是开发者的巨大挑战。最近，Google与MediaTek联手推出的L …

AlphaEvolve：当Gemini开始“自我进化”，谷歌云放出的这颗AI“算法炼丹炉”究竟能干什么？

3个月前高效码农

一句话摘要 AlphaEvolve把Gemini变成会写代码、会自己改代码、还能越改越好的“算法炼丹炉”，已在谷歌内部把数据中心闲置算力捞回0.7%，并让4×4复矩阵乘法停滞56年的纪录首次降到48次 …

PaCo-RL：如何用成对强化学习解决AI作图的视觉一致性难题？

3个月前高效码农

PaCo-RL：通过成对奖励建模推进一致图像生成的强化学习摘要 PaCo-RL是一种创新的强化学习框架，专为一致图像生成而设计，解决了在多个图像中保持身份、风格和逻辑一致性的核心挑战。该框架集成了P …

突破瓶颈！深度解析大模型从“模仿”到“辨别”的CAPO课程优势优化法

3个月前高效码农

从模仿到辨别：通用课程优势机制如何提升大模型跨领域推理能力摘要：本文介绍CAPO（课程优势策略优化），一种创新的强化学习训练范式。它通过分阶段的课程学习，先利用正优势样本进行模仿学习建立稳定基础，再 …

吊打7B！EMMA：华为诺亚只用4B参数，重写多模态大模型游戏规则

3个月前高效码农

EMMA：可能是2025年最聪明的统一多模态模型（只用4B参数） 2025年，多模态大模型的竞争已经彻底白热化。几乎每周都有新模型宣称自己“统一了理解与生成”，但真正做到又快又强、还能同时搞定图像编辑 …

联发科NPU逆袭：手机跑1600 token/s大模型，教你一招搞定端侧AI部署

3个月前高效码农

把 LLM 塞进手机：MediaTek NPU × LiteRT NeuroPilot Accelerator 全栈落地笔记 “ 核心问题：在碎片化边缘硬件上，怎样“一次训练、多端秒级部署”大模型，同 …

★如何让AI在教育场景中真正“懂你”：用实体链接（Entity Linking）治好RAG的“选择困难症”★

3个月前高效码农

你有没有遇到过这种情况：问一个专业问题，比如“亚当·斯密在《国富论》中是怎么定义分工的？”，普通的RAG系统却给你检索出一堆提到“Smith”的无关内容——可能是经济学家，也可能是完全同名的其他人， …

LiveAvatar深度拆解：5张显卡如何让14B大模型实现20FPS无限时直播？

3个月前高效码农

把 14B 大模型塞进 5 张显卡：LiveAvatar 如何让“数字人”无限时长直播？日期：2025-12-08 一句话速览 LiveAvatar 用 4 步扩散、流水线并行和“滚动锚帧”技术，把 …

Banana Slides：让AI PPT生成像聊天一样自然的创作革命

3个月前高效码农

🍌 Banana Slides：让想法自然流动成一份完整的 PPT —— 一个更接近真实创作方式的 AI 演示文稿生成工具很多人制作 PPT 的困境并不是“不懂设计”，而是“没有时间”。脑子里有内 …

Gemini 3 Pro如何用视觉革命颠覆AI？揭秘谷歌多模态模型的4大杀手级应用

3个月前高效码农

Gemini 3 Pro：当 AI 学会“看”与“想”，多模态智能的范式革命核心问题：谷歌最新发布的Gemini 3 Pro模型究竟带来了哪些根本性的能力跃迁？它如何超越传统的图像识别，实现真正的视 …

因果推理如何让自动驾驶更安全？Alpamayo-R1破解长尾场景难题

3个月前高效码农

突破长尾场景：Alpamayo-R1如何用因果推理提升自动驾驶安全性自动驾驶技术正从实验室走向真实道路，但安全关键的长尾场景（如突然切入的车辆、施工区域避让）仍是行业痛点。传统端到端模型在稀疏监督和 …

我为什么把主力浏览器换回Chrome：Gemini AI助手的革命性体验

3个月前高效码农

Gemini Chrome 深度体验：我为什么把主力浏览器换回 Chrome 过去五六年来，我一直把 Microsoft Edge 当作日常主力浏览器，直到三个月前第一次用上 Gemini for C …

LatentMAS：颠覆传统！多智能体协作效率提升700%的潜在空间革命

3个月前高效码农

人工智能多智能体协作本文欲回答的核心问题：为什么传统文本驱动的多智能体系统效率低下？LatentMAS如何通过潜在空间协作实现性能与效率的双重突破？这一技术革新对实际应用有何意义？在人工智能快速发 …