开源LLM评估框架Opik：如何轻松优化AI应用性能？

高效码农

9 月前

Opik：开源LLM评估框架的全方位指南

在当今人工智能领域，大型语言模型（LLM）的应用日益广泛，从RAG聊天机器人到代码助手，再到复杂的代理流水线等，都离不开LLM的支持。然而，如何评估、测试和监控这些LLM应用程序，成为了开发者们面临的一个重要挑战。Opik作为一个开源平台，为解决这一问题提供了有效的解决方案。本文将详细介绍Opik的相关信息，包括其功能、安装方法、快速上手步骤以及如何为其做出贡献等内容。

一、Opik简介

Opik是一个由Comet构建的开源平台，专门用于评估、测试和监控LLM应用程序。它可以帮助开发者构建高效、快速且低成本的LLM系统，并且具备追踪、评估和仪表板功能。无论是在开发过程中还是在生产环境中，Opik都能发挥重要作用。

（一）Opik的应用场景

Opik可以在多个方面帮助开发者更好地处理LLM应用程序，具体如下：

开发方面
- 追踪：在开发和生产过程中，Opik可以跟踪所有LLM调用和追踪。开发者可以通过快速入门和集成文档了解详细的操作方法。这有助于开发者了解LLM的运行情况，及时发现问题并进行优化。
- 注释：开发者可以通过 Python SDK 或 UI 来记录反馈分数，对LLM调用进行注释。这样可以方便开发者对LLM的输出进行评估和分析。
- 沙盒：在提示沙盒中，开发者可以试用不同的提示和模型，从而找到最适合自己应用的组合。
评估方面
- 数据集与实验：Opik允许开发者存储测试用例并运行实验。通过数据集和评估您的LLM应用文档，开发者可以了解如何进行数据集的管理和实验的运行。
- LLM评审指标：Opik提供了多种LLM评审指标，用于处理幻觉检测、内容审核和RAG评估等复杂问题。例如，幻觉检测、审核、答案相关性和上下文准确性等。
- CI/CD集成：开发者可以使用Opik的 PyTest集成将评估过程集成到CI/CD流程中，实现自动化评估。

二、Opik的安装

Opik有两种获取方式，一种是作为完全开源的本地安装版本，另一种是使用Comet.com提供的托管解决方案。下面将分别介绍这两种安装方式。

（一）使用Comet.com托管解决方案

最简单的入门方式是通过在 comet.com 创建一个免费的Comet账户。注册完成后，就可以使用Comet提供的Opik服务。

（二）本地安装Opik

如果开发者希望自建Opik，可以克隆仓库并使用Docker Compose启动平台。不同操作系统的安装步骤如下：

Linux或Mac系统

# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git

# 进入仓库目录
cd opik

# 启动Opik平台
./opik.sh

Windows系统

# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git

# 进入仓库目录
cd opik

# 启动Opik平台
powershell -ExecutionPolicy ByPass -c ".\opik.ps1"

在安装过程中，如果遇到问题，可以使用 --help 或 --info 选项来排查。启动后，开发者可以在浏览器中访问 localhost:5173 来使用Opik平台。

（三）更多安装选项

除了上述两种安装方式外，Opik还支持其他安装方式，具体如下：

安装方式	文档链接
本地部署
Kubernetes

开发者可以根据自己的需求选择合适的安装方式。

三、Opik的快速上手

在完成Opik的安装后，就可以开始快速上手使用了。下面将介绍如何安装Python SDK、进行配置以及记录追踪信息等步骤。

（一）安装Python SDK

首先，需要安装Python SDK，使用以下命令：

pip install opik

（二）配置Opik

安装SDK后，运行 opik configure 进行配置：

opik configure

开发者也可以在Python代码中调用 opik.configure(use_local=True) 来配置本地安装。

（三）记录追踪信息

配置完成后，就可以使用 Python SDK 开始记录追踪信息了。Opik支持多种集成方式，具体如下：

集成方式	描述	文档链接	在线试用
OpenAI	记录所有OpenAI LLM调用追踪信息	文档	在线试用
LiteLLM	使用OpenAI标准格式调用任意LLM模型	文档	在线试用
LangChain	记录所有LangChain LLM调用追踪信息	文档	在线试用
…	…	…	…

如果开发者使用的框架不在上述列表中，可以提交问题反馈或通过PR添加集成支持。

如果不使用上述框架，也可使用 track 装饰器记录追踪信息，示例代码如下：

import opik

opik.configure(use_local=True) # 本地运行

@opik.track
def my_llm_function(user_question: str) -> str:
    # 在此编写LLM代码
    return "Hello"

需要注意的是，track 装饰器既可与任何集成一起使用，也可用于嵌套函数调用的追踪记录。

（四）LLM评价指标

Opik的Python SDK包含多种LLM评价指标，帮助开发者评估LLM应用。详情请参阅评价指标文档。

例如，使用幻觉检测指标的示例代码如下：

from opik.evaluation.metrics import Hallucination

metric = Hallucination()
score = metric.score(
    input="法国的首都是哪里?",
    output="巴黎",
    context=["法国是位于欧洲的国家."]
)
print(score)

Opik还包括许多预构建的启发式指标，并且支持创建自定义指标。更多信息请参阅评价指标文档。

（五）LLM应用评估

Opik允许开发者在开发过程中通过数据集和实验评估自己的LLM应用程序。

开发者还可以通过Opik的 PyTest集成在CI/CD流水线中运行评估，实现自动化评估流程。

四、在GitHub上关注Opik

如果开发者觉得Opik有用，可以考虑给Opik的GitHub仓库一个Star（点赞/加星标）。用户的支持有助于Opik壮大社区并持续改进产品。同时，用户还可以通过GitHub上的相关链接查看Opik的GitHub Star历史等信息。

五、为Opik贡献

Opik是一个开源项目，欢迎广大开发者为其做出贡献。以下是几种常见的贡献方式：

提交Bug报告和功能请求：如果开发者在使用Opik的过程中发现了Bug或者有新的功能需求，可以提交 Bug报告和功能请求。
改进文档：通过审查文档并提交 Pull Request 来改进文档，使文档更加完善，方便其他开发者使用。
撰写相关文章：开发者可以撰写和发布与Opik相关的文章，并通过联系我们分享给Opik团队。
支持受欢迎的功能请求：通过支持受欢迎的功能请求来表达对项目的支持。

有关详细的贡献方法，请参阅贡献指南。

六、总结

Opik作为一个开源的LLM评估框架，为开发者提供了丰富的功能和便捷的使用体验。通过追踪、评估和监控LLM应用程序，Opik可以帮助开发者构建高效、快速且低成本的LLM系统。无论是开发过程中的调试和优化，还是生产环境中的监控和评估，Opik都能发挥重要作用。同时，Opik还支持多种安装方式和集成方式，方便开发者根据自己的需求进行选择。此外，Opik是一个开源项目，欢迎广大开发者为其做出贡献，共同推动LLM评估技术的发展。

希望本文能够帮助开发者更好地了解Opik，并在实际项目中充分发挥其优势。如果开发者在使用过程中遇到任何问题，可以参考相关文档或提交问题反馈，Opik团队会及时提供支持和帮助。