Qwen3 从零实现：轻松上手大型语言模型

在人工智能快速发展的今天，大型语言模型（LLM）已成为科技领域的热门话题。Qwen3 0.6B 作为一款从零实现的模型，为开发者提供了一个深入了解和使用大型语言模型的机会。本文将详细介绍如何安装、配置和使用 Qwen3 0.6B，以及如何进行性能优化，以实现高效的文本生成。

一、Qwen3 0.6B 是什么？

Qwen3 0.6B 是一个基于 Python 的从零实现的大型语言模型，具有 0.6B（6 亿）参数，可以用于文本生成和推理任务。它提供了两种模式：推理模型和基础模型，分别适用于需要思维能力的任务和一般文本生成任务。

二、安装步骤

环境准备

确保你的开发环境中已安装 Python 和 pip。建议使用 Python 3.8 或更高版本，以便兼容相关库。

安装必备包

在命令行中运行以下命令安装所需的 Python 包：

pip install llms_from_scratch tokenizers

其中，llms_from_scratch 是基于本项目源码的 PyPI 包，tokenizers 用于文本的分词和编码。

三、模型和文本生成设置

（一）选择模型

你可以在推理模型和基础模型之间进行选择：

推理模型（USE_REASONING_MODEL = True）：该模型适用于需要进行推理和思考的复杂任务，它能够更好地理解上下文并生成更具逻辑性的文本。
基础模型（USE_REASONING_MODEL = False）：适用于一般的文本生成任务，具有较高的生成速度。

（二）基本文本生成参数

你可以根据需求设置以下文本生成参数：

MAX_NEW_TOKENS：表示模型在生成文本时最多可以生成的 token 数量。例如，设置为 150 时，模型大约需要 1.5 GB 内存。
TEMPERATURE：控制生成文本的随机性。值越低，生成的文本越确定；值越高，随机性越大。
TOP_K：用于控制采样时考虑的候选词数量。值为 1 时，模型每次只选择概率最高的词。

四、模型权重下载与加载

下载权重文件

from llms_from_scratch.qwen3 import download_from_huggingface

repo_id = "rasbt/qwen3-from-scratch"

if USE_REASONING_MODEL:
    filename = "qwen3-0.6B.pth"
    local_dir = "Qwen3-0.6B"
else:
    filename = "qwen3-0.6B-base.pth"
    local_dir = "Qwen3-0.6B-Base"

download_from_huggingface(
    repo_id=repo_id,
    filename=filename,
    local_dir=local_dir
)

上述代码会根据你的模型选择，从 Hugging Face 仓库下载相应的权重文件到本地目录。

加载模型权重

from pathlib import Path
import torch

from llms_from_scratch.qwen3 import Qwen3Model, QWEN_CONFIG_06_B

model_file = Path(local_dir) / filename

model = Qwen3Model(QWEN_CONFIG_06_B)
model.load_state_dict(torch.load(model_file, weights_only=True, map_location="cpu"))

device = (
    torch.device("cuda") if torch.cuda.is_available() else
    torch.device("mps") if torch.backends.mps.is_available() else
    torch.device("cpu")
)
model.to(device)

这段代码首先加载模型的配置文件，然后将权重文件加载到模型中，并将模型移动到可用的设备（如 GPU 或 CPU）上。

五、初始化分词器

分词器用于将文本转换为模型可以理解的 token 序列。初始化分词器的代码如下：

from llms_from_scratch.qwen3 import Qwen3Tokenizer

if USE_REASONING_MODEL:
    tok_filename = "tokenizer.json"
else:
    tok_filename = "tokenizer-base.json"

tokenizer = Qwen3Tokenizer(
    tokenizer_file_path=tok_filename,
    repo_id=repo_id,
    add_generation_prompt=USE_REASONING_MODEL,
    add_thinking=USE_REASONING_MODEL
)

根据模型选择，使用不同的分词器配置文件，并初始化分词器对象。

六、文本生成

以下是如何使用 Qwen3 0.6B 生成文本的代码示例：

编码输入提示

prompt = "Give me a short introduction to large language models."
input_token_ids = tokenizer.encode(prompt)

将输入的文本提示转换为 token 序列。

生成文本

from llms_from_scratch.ch05 import generate
import time

torch.manual_seed(123)

start = time.time()

output_token_ids = generate(
    model=model,
    idx=torch.tensor(input_token_ids, device=device).unsqueeze(0),
    max_new_tokens=150,
    context_size=QWEN_CONFIG_06_B["context_length"],
    top_k=1,
    temperature=0.
)

total_time = time.time() - start
print(f"Time: {total_time:.2f} sec")
print(f"{int(len(output_token_ids[0])/total_time)} tokens/sec")

if torch.cuda.is_available():
    max_mem_bytes = torch.cuda.max_memory_allocated()
    max_mem_gb = max_mem_bytes / (1024 ** 3)
    print(f"Max memory allocated: {max_mem_gb:.2f} GB")

output_text = tokenizer.decode(output_token_ids.squeeze(0).tolist())

print("\n\nOutput text:\n\n", output_text + "...")

上述代码设置随机种子以确保结果的可重复性，然后调用生成函数开始文本生成。生成完成后，会输出生成所花费的时间、每秒生成的 token 数、使用的内存大小（如果使用 GPU）以及生成的文本内容。

运行推理模型时，输出可能如下所示（在 A100 GPU 上运行的结果）：

Time: 6.35 sec
25 tokens/sec
Max memory allocated: 1.49 GB


Output text:

 <|im_start|>user
Give me a short introduction to large language models.<|im_end|>
Large language models (LLMs) are advanced artificial intelligence systems designed to generate human-like text. They are trained on vast amounts of text data, allowing them to understand and generate coherent, contextually relevant responses. LLMs are used in a variety of applications, including chatbots, virtual assistants, content generation, and more. They are powered by deep learning algorithms and can be fine-tuned for specific tasks, making them versatile tools for a wide range of industries.<|endoftext|>Human resources department of a company is planning to hire 100 new employees. The company has a budget of $100,000 for the recruitment process. The company has a minimum wage of $10 per hour. The company has a total of...

七、推理模型与基础模型的区别

推理模型和基础模型在设计和应用场景上存在一些差异：

（一）推理模型

适用于需要进行复杂推理的任务，如问题解答、逻辑推理等。
在生成文本时，会更多的考虑上下文信息和逻辑关系。
生成的文本通常更具连贯性和逻辑性。

（二）基础模型

适用于一般的文本生成任务，如内容创作、文本补全等。
生成速度相对较快，适合对实时性要求较高的场景。
生成的文本可能相对简单，但在大多数情况下能够满足基本需求。

八、性能优化技巧

为了进一步提升 Qwen3 0.6B 的性能，可以尝试以下优化技巧：

（一）编译模型

通过使用 PyTorch 的 torch.compile 功能，可以对模型进行编译，从而获得高达 4 倍的速度提升。只需将模型移动到设备的代码替换为以下内容：

model = torch.compile(model)
model.to(device)

需要注意的是，编译过程会有几分钟的延迟，且速度提升会在首次调用生成函数后生效。

在 A100 GPU 上的性能对比如下：

项目	Tokens/sec	内存使用
Qwen3Model	25	1.49 GB
编译后的 Qwen3Model	101	1.99 GB

（二）调整文本生成参数

根据具体任务需求，合理调整 MAX_NEW_TOKENS、TEMPERATURE 和 TOP_K 等参数，可以在生成文本质量和性能之间取得平衡。

（三）使用合适的硬件

如果可能，使用性能更强的 GPU 或其他硬件加速设备，可以显著提高模型的运行速度和效率。

九、常见问题解答（FAQ）

Q1：Qwen3 0.6B 支持哪些操作系统？

A1：Qwen3 0.6B 可以在 Windows、Linux 和 macOS 等主流操作系统上运行，只要系统支持 Python 和相关的依赖库。

Q2：如何选择推理模型和基础模型？

A2：如果你的任务需要模型进行复杂的推理和思考，例如回答问题、解决问题等，建议选择推理模型。如果你的任务主要是简单的文本生成，如生成描述、补全文本等，基础模型可能更适合你的需求。

Q3：生成文本时总是出现错误，怎么办？

A3：首先检查你的代码是否正确，确保模型权重文件和分词器文件已正确下载和加载。然后检查输入的文本提示是否符合要求。如果问题仍然存在，可以尝试调整文本生成参数或更新相关的软件包。

Q4：如何提高模型的生成速度？

A4：可以通过编译模型、使用更高端的硬件、优化代码等方式来提高模型的生成速度。此外，合理设置文本生成参数也能在一定程度上影响生成速度。

十、总结

Qwen3 0.6B 作为一个从零实现的大型语言模型，为开发者提供了一个宝贵的学习和实践机会。通过本文的介绍，你应该已经掌握了如何安装、配置和使用 Qwen3 0.6B，以及如何进行性能优化。希望你能利用 Qwen3 0.6B 实现自己的创意和想法，探索大型语言模型的无限可能。

在使用过程中，如果你遇到任何问题或有进一步的需求，可以参考官方文档或社区资源，与其他开发者交流经验和见解。

Qwen3 0.6B教程：手把手教你从零玩转6亿参数大语言模型