当 AI 开始自己写论文:AI-Researcher 如何把整个实验室装进一台电脑

“如果一位本科生就能在 24 小时内完成一次顶会级别的实验、从 0 到成稿,会发生什么?”
AI-Researcher 正在把这句玩笑话变成日常。


目录

  1. 它到底能做什么?——一句话说清
  2. 把科研流程拆成 3 个阶段,看看它是怎样跑的
  3. 动手跑一次:零基础也能把论文写完整
  4. 常见疑问 FAQ
  5. 与人工团队相比,差距在哪里?
  6. 现在就能用:安装、配置、跑通全流程
  7. 真实案例速览:6 个领域、7 篇自动生成论文

1. 它到底能做什么?——一句话说清

AI-Researcher 是一套 “一键科研” 系统:
你给它 10~15 篇参考文献,或者干脆只说一句“我想改进 VQ-VAE”,它就能

  • 读文献 → 找缺口 → 提出新思路
  • 写代码 → 跑实验 → 记录结果
  • 画图表 → 写论文 → 生成可直接投稿的 PDF

整个过程不需要人盯守,平均 6~12 小时给出一份带实验结果的完整手稿。


2. 把科研流程拆成 3 个阶段,看看它是怎样跑的

阶段 内部角色 关键动作
① 文献综述 & 找选题 知识采集代理 + 资源分析师 自动爬 arXiv/GitHub → 筛高引用/高星仓库 → 提炼公式与代码片段
② 算法设计 & 实验 代码代理 + 顾问代理 把数学公式翻译成 PyTorch → 用 1~2 epoch 做可行性验证 → 全数据跑 benchmark
③ 论文写作 写作代理 按 ICLR 格式模板输出摘要、引言、方法、实验、结论

用户只需要在开始时选 Level-1(已给明确想法)Level-2(完全开放探索),剩下全部交给系统。


3. 动手跑一次:零基础也能把论文写完整

3.1 准备环境(两种方式任选其一)

方式 命令
uv(推荐) curl -LsSf https://astral.sh/uv/install.sh | sh && uv venv --python 3.11 && uv pip install -e .
Docker docker pull tjbtech1/airesearcher:v1

3.2 填好 API 配置

复制 .env.template.env,把下面三处换成自己的 key:

OPENROUTER_API_KEY=你的key
GITHUB_AI_TOKEN=你的token
COMPLETION_MODEL=claude-3-5-sonnet-20241022   # 也可换成 GPT-4o

3.3 一条命令开始 Level-1 任务

python run_infer_plan.py \
  --instance_path ../benchmark/final/vq/one_layer_vq.json \
  --task_level task1 \
  --model claude-3-5-sonnet-20241022

跑完后,工作目录会出现:

  • project/ —— 完整可复现的代码
  • paper.tex —— 自动生成的论文源文件
  • figures/ —— 训练曲线、可视化

3.4 如果想让 AI 自己找选题(Level-2)

--task_level 改成 task2,其余参数不变即可。


4. 常见疑问 FAQ

Q1:会不会只是“抄”已有论文?
A:系统在做匿名化处理——把原论文里模型名替换成 “proposed model”,并删除任何指向原论文的直接线索,确保不会触发记忆。

Q2:生成的代码质量如何?
A:在 22 篇 benchmark 上测得平均 93.8 % 完整运行率2.65/5 正确率(高于中位数)。Claude-3.5 作为 backbone 时表现最好。

Q3:能跑大规模实验吗?
A:目前默认先用 1~2 epoch 做冒烟测试,验证思路可行后再全量训练;显存不足时会自动降低 batch size。

Q4:写作水平够投稿吗?
A:对比人类顶会论文,GPT-4o 评审给出 78.9 % 的“可接受”比例;Claude 系列稍严,但仍有 20 % 以上被评为“与人类作者相近”。


5. 与人工团队相比,差距在哪里?

维度 AI-Researcher 人类团队
创新深度 擅长组合式创新,罕见突破性理论 可提出全新范式
实验细节 自动调参、记录完整 需要人力维护
写作 结构工整、引用规范 更具故事性
耗时 6~12 小时 数周至数月
成本 一杯咖啡的 API 费用 人力+算力

一句话总结:把脏活累活交给 AI,人类专注提出“好问题”


6. 现在就能用:安装、配置、跑通全流程

6.1 网页 GUI(最友好)

python web_ai_researcher.py

浏览器打开 http://localhost:7860,上传参考文献或直接输入一句话即可。

6.2 纯命令行(可脚本化)

任务 脚本位置
Level-1(给定想法) research_agent/run_infer_level_1.sh
Level-2(开放探索) research_agent/run_infer_level_2.sh
仅写作 paper_agent/run_paper.sh

6.3 一键 Docker

docker run --gpus '"device=0"' \
  -e OPENROUTER_API_KEY=你的key \
  -v $(pwd)/workplace:/workspace \
  tjbtech1/airesearcher:v1 \
  python run_infer_plan.py --task_level task1 ...

无需本地 Python 环境,连 GPU 驱动都帮你装好。


7. 真实案例速览:6 个领域、7 篇自动生成论文

领域 任务 亮点 在线阅读
向量量化 VQ-VAE 梯度改进 旋转+缩放让梯度可传 paper.pdf
扩散模型 Flow Matching 连续归一化流一次采样 paper.pdf
图神经网络 NodeFormer 可扩展全连接 GNN paper.pdf
推荐系统 知识图谱增强 元网络个性化迁移 paper.pdf
推荐系统 对比学习去噪 自适应增强视图 paper.pdf
图像压缩 有限标量量化 用标量量化代替 VQ paper.pdf

每篇论文都附带完整代码仓库,点击即可复现。


写在最后

AI-Researcher 不是来取代科学家,而是把 “从 0 到 1” 的漫长过程压缩成一次夜间跑批。
当你早晨打开邮箱收到一份“草稿已生成”的提醒,真正的科研才刚刚开始——提出下一个值得 AI 通宵的好问题。

论文链接:https://arxiv.org/abs/2505.18705
开源仓库:https://github.com/HKUDS/AI-Researcher
在线文档:https://auto-researcher.github.io/docs