科研突围秘籍：深度解析Intern-S1多模态科学推理模型

Q: Intern‑S1 相较于其它开源多模态模型有什么优势？

在科学任务中多项基准得分开源最高，拥有大规模专业领域预训练，对专业文本与图像理解更精准，且完全兼容 OpenAI API。

Q: 如何选择合适的参数与精度格式？

推荐使用 BF16 精度，超参数 top_p=1.0、top_k=50、temperature=0.7；显存敏感时可尝试 FP8。

高效码农

3 月前

Intern‑S1：开源多模态科学推理模型深度解读

“

引言：
随着人工智能在科研领域的应用越来越广泛，研究人员对能够理解多模态（文本、图像、视频）并专注于专业科学任务的开源模型需求也迅速攀升。Intern‑S1 正是在这样的背景下诞生：它不仅拥有通用 AI 助手的强大能力，还在化学、蛋白质、地震信号等专业场景中表现出色。本篇文章将以通俗易懂的方式，带你系统了解 Intern‑S1 的核心架构、训练策略、关键特性与性能亮点，并提供上手示例、部署指南和常见问题解答，让你秒懂如何在自己的项目中使用这款开源利器。

背景与定位
核心架构与训练数据
关键特性一览
模型版本与下载方式
性能基准与对比
快速上手指南
- •
  
  文本推理示例
- •
  
  图像推理示例
- •
  
  视频推理示例
部署与生产环境集成
进阶玩法：工具调用（Tool Calling）
FAQ 常见问题
附录：示例超参数与推荐配置

背景与定位

•

为什么需要专业科学模型？
传统大型语言模型（LLM）虽然在对话、写作、问答等通用任务上表现抢眼，但它们往往缺乏对化学结构、蛋白质序列等“专业科学文法”与“领域概念”的精准理解。Intern‑S1 致力于填补这一空白，让开源模型也能稳定完成科研级别的推理与生成。
•
Intern‑S1 的目标用户
- •
  
  科研人员：化学、材料、生命科学等方向的研究者
- •
  
  AI 开发者：需在专业场景中融入多模态智能的工程团队
- •
  
  教育者与学生：希望通过 AI 辅助学习科学知识

“

“我想让模型直接读懂分子式并规划合成路径”，
“我希望 AI 能帮我做蛋白质序列分析”……
这些在过去或许只能交给专用软件完成，如今 Intern‑S1 也能轻松应对。

核心架构与训练数据

1. 模型规模与组成

Intern‑S1 由两部分核心组件构成：

模块	规模	说明
MoE 语言模型	235B 参数	基于Mixture of Experts (MoE) 原理设计，增强推理能力[^1]
视觉编码器	6B 参数	专门针对科学图像（分子结构、显微图）预训练

“

Mixture of Experts (MoE)： 一种将模型内部分成多组“专家”子网络的技术，使不同专家网络专注不同任务或数据领域，从而在大规模模型中实现更优的性能与参数效率。了解更多→

2. 数据规模与领域分布

•

总训练数据量： 5T Token
•

科学领域 Token： 超过 2.5T，涵盖化学、蛋白质、地震、材料科学等
•

数据来源： 多模态科研文献、公开数据库、专利与报告摘要

这种大规模领域预训练，让模型在“通用能力”与“专业深度”之间找到平衡：

•

通用能力： 对话理解、常规问答、写作润色
•

专业深度： 化学结构解析、合成路径规划、蛋白质序列预测

关键特性一览

科学任务一流表现
- •
  
  解析化学式、理解分子图谱
- •
  
  蛋白质序列分析与功能预测
- •
  
  地震波形与材料显微图像识别
多模态理解与推理
- •
  
  同时处理文本+图像+视频输入
- •
  
  动态分词器支持分子式、氨基酸序列等自定义词汇
易用性与兼容性
- •
  
  完全兼容 OpenAI 接口，代码可复用
- •
  
  HuggingFace & ModelScope 双平台一键下载
开源社区友好
- •
  
  Apache 2.0 协议，全功能免费使用
- •
  
  即将发布详细技术报告，方便科研复现

模型版本与下载方式

格式	HuggingFace	ModelScope
BF16	internlm/Intern‑S1	Shanghai_AI_Laboratory/Intern-S1
FP8	internlm/Intern‑S1‑FP8	Shanghai_AI_Laboratory/Intern‑S1‑FP8
GGUF	internlm/Intern‑S1‑GGUF	—

“

Tip：

•

BF16：适合大部分 GPU 推理场景

•

FP8：更省显存，但需硬件/框架支持

•

GGUF：便于本地脱机部署

性能基准与对比

下表展示了 Intern‑S1 在多项通用与科学基准上的成绩，以及与其它主流模型的对比，✅ 表示开源模型最高，👑 表示所有模型中最低延迟或最高得分。

评测任务	Intern‑S1	InternVL3-78B	Qwen2.5-VL-72B	Grok‑4
MMLU‑Pro	83.5 ✅	73.0	72.1	85.9
MMMU	77.7 ✅	72.2	70.2	77.9
GPQA	77.3	49.9	49.0	87.5
MathVista	81.5 👑	79.0	74.8	72.5
ChemBench	83.4 👑	61.3	61.6	83.3
ProteinLMBench	63.1	61.6	61.0	66.2

“

说明：

•

通用任务如 MMLU‑Pro 上表现优异，证明优秀的通用理解能力。

•

专业基准如 ChemBench、ProteinLMBench 中多项取得开源最高成绩，体现强大的领域适应性。

快速上手指南

下面示例展示如何在 Python 中使用 Intern‑S1 进行多模态推理。请确保安装 transformers >= 4.53.0。

环境准备

pip install transformers torch

超参数推荐

top_p = 1.0
top_k = 50
min_p = 0.0
temperature = 0.7

“

这些配置在大多数场景下都能取得较好平衡，既保证多样性，又控制生成质量。

文本推理示例

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

model_name = "internlm/Intern-S1"
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map="auto", torch_dtype="auto", trust_remote_code=True
)

messages = [
    {"role": "user", "content": [{"type": "text", "text": "解释一下化学平衡的概念。"}]}
]
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=512)
answer = processor.decode(outputs[0, inputs["input_ids"].shape[1]:], skip_special_tokens=True)
print(answer)

图像推理示例

messages = [
    {
      "role": "user",
      "content": [
        {"type": "image", "url": "http://images.cocodataset.org/val2017/000000039769.jpg"},
        {"type": "text", "text": "这张分子结构图中显示了哪些功能基团？"}
      ],
    }
]
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(outputs[0, inputs["input_ids"].shape[1]:], skip_special_tokens=True))

视频推理示例

“

注意：需安装 decord 库 (pip install decord)。

from transformers import AutoProcessor, AutoModelForCausalLM

messages = [
  {
    "role": "user",
    "content": [
      {"type": "video", "url": "https://huggingface.co/datasets/hf-internal-testing/fixtures_videos/resolve/main/tennis.mp4"},
      {"type": "text", "text": "视频中运动员使用的击球方式是什么？"}
    ],
  }
]

inputs = processor.apply_chat_template(
  messages,
  return_tensors="pt",
  add_generation_prompt=True,
  video_load_backend="decord",
  tokenize=True,
  return_dict=True,
).to(model.device, dtype=torch.float16)

outputs = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(outputs[0, inputs["input_ids"].shape[1]:], skip_special_tokens=True))

部署与生产环境集成

Intern‑S1 兼容多种推理引擎，以下示例均可一键启动 HTTP 服务，兼容 OpenAI API 协议。

lmdeploy (>=0.9.2)

lmdeploy serve api_server internlm/Intern-S1 \
  --reasoning-parser intern-s1 \
  --tool-call-parser intern-s1 \
  --tp 8

vLLM (即将支持)

“

vLLM 正在开发对多模态模型的适配，敬请期待官方更新。

SGLang

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
python3 -m sglang.launch_server \
  --model-path internlm/Intern-S1 \
  --trust-remote-code \
  --mem-fraction-static 0.85 \
  --tp 8 \
  --enable-multimodal \
  --grammar-backend none

Ollama

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull internlm/interns1

# 运行服务
ollama run internlm/interns1

进阶玩法：工具调用（Tool Calling）

Tool Calling 能让模型在对话中“调用”外部函数或 API，扩展模型能力。以下示例展示如何通过 OpenAI API 接入自定义温度查询函数：

from openai import OpenAI
import json

# 定义工具接口
tools = [
  {
    "type": "function",
    "function": {
      "name": "get_current_temperature",
      "description": "获取实时温度",
      "parameters": {
        "type": "object",
        "properties": {
          "location": {"type": "string", "description": "地点，格式：City, Country"},
          "unit": {"type": "string", "enum": ["celsius","fahrenheit"], "description": "温度单位"}
        },
        "required": ["location"]
      }
    }
  }
]

client = OpenAI(api_key="YOUR_KEY", base_url="http://localhost:11434/v1")
model_name = "internlm/Intern-S1"

messages = [{"role":"user","content":"请告诉我北京当前的温度。"}]

response = client.chat.completions.create(
  model=model_name,
  messages=messages,
  tools=tools
)
print(response.choices[0].message)

“

通过这一机制，你可以让模型直接“执行”查询、计算、数据库检索等操作，打造更智能的业务流程。

FAQ 常见问题

Q1: Intern‑S1 相较于其它开源多模态模型有什么优势？

A1:

•

在科学任务（如 ChemBench、MathVista）中多项基准得分开源最高👑
•

大规模科学领域预训练（2.5T+ Token），对专业文本与图像理解更精准
•

完全兼容 OpenAI API，开发成本低

Q2: 如何选择合适的参数与精度格式？

A2:

•

BF16：首选，兼容性好、速度与精度均衡
•

FP8：显存敏感场景优选，但需硬件/框架支持
•

超参数：推荐 top_p=1.0, top_k=50, temperature=0.7，可根据生成质量微调

Q3: 模型推理时显存不足怎么办？

A3:

•

降低精度至 FP8 或启用分布式张量切分（Tensor Parallelism）
•

使用更小 batch size，或分步生成

Q4: 能否离线脱机部署？

A4:

•

可使用 GGUF 格式与 Ollama 实现本地脱机运行
•

亦可自行打包 Docker 容器，集成到内网环境

附录：示例超参数与推荐配置

参数	推荐值	说明
`top_p`	1.0	样本截断概率
`top_k`	50	保留最可能的 k 个标记
`temperature`	0.7	控制生成多样性，高值更随机
`min_p`	0.0	最低概率截断


---

> **结语：**  
> Intern‑S1 将多模态通用能力与深度科学理解完美融合，无论是在科研场景下解析专业结构，还是在产品应用中提供多模态助手，都是一款值得尝试的开源模型。立即动手，让 AI 助力科研创新！