打开 100GB 数据文件不用再等半天:Dataset Viewer 体验手记

“当我第一次把 112 GB 的 Parquet 文件拖进 Dataset Viewer,不到 2 秒就能看到表头,那一刻我以为电脑坏了。”
—— 某数据科学家在内部群的原话


一、为什么传统工具打不开大文件?

常见场景 传统做法 典型痛点
几十 GB 的 CSV Excel / Numbers 卡死、内存爆炸
Parquet 文件 Pandas + Jupyter 先读 10 分钟才能看一眼
压缩包里的数据 手动解压再打开 解压 20 GB 耗时半小时
远程 HuggingFace 数据集 wget+本地打开 下载、解压、导入三步走

一句话总结:磁盘 I/O、内存和渲染管线三座大山,让“想看一眼数据”变成高门槛任务。


二、Dataset Viewer 是什么?

一句话定义:
Dataset Viewer 是一款轻量级跨平台数据查看器,基于 Tauri(Rust)+ React 构建,专为“秒开 100 GB 级文件”设计。

核心关键词(方便你后续搜索)

  • 数据查看器 / Data Viewer
  • 秒开 Parquet / 秒开 CSV
  • 压缩包流式浏览 / ZIP 免解压
  • 毫秒级搜索 / 实时高亮
  • Tauri 数据工具

三、核心能力拆解

1. 超大文件“秒开”原理

技术点 通俗解释
虚拟化渲染 只渲染你眼前那一屏,100 GB 也只占几 MB 内存
Rust 后端 磁盘 I/O 和内存调度用 Rust 写,比 Python 快一个量级
分块加载 文件切成若干 4 MB 小块,按需拉取

2. 毫秒级实时搜索

  • 搜索范围:当前文件全部行列
  • 高亮方式:黄色底 + 黑色字,一眼定位
  • 性能:官方示例 1.2 亿行 CSV,搜索延迟 < 300 ms

3. 压缩包直接预览

支持的格式 可以做到的事
ZIP 双击即可浏览内部文件,点进去就像本地文件夹
TAR 同上,连 tar.gz 都不用手动解压

4. 多格式原生支持

文件类型 打开体验
Parquet 表结构、列统计、分页浏览
CSV / Excel 可排序、可筛选、虚拟滚动
JSON / YAML 折叠节点、语法高亮、搜索键值
Markdown 直接渲染,支持深色/浅色主题
代码文件 Python、Java、Rust… 语法高亮

四、界面速览

下列截图均来自官方仓库,点击即可放大查看。

连接管理 JSON 折叠查看
连接设置 JSON查看器
代码高亮 数据表格
代码查看器 数据表格
3D 点云预览 压缩包浏览器
点云查看器 压缩包浏览器

五、安装与上手

Step 1:下载

  1. 打开 GitHub 发布页
    http://github.com/stardustai/dataset-viewer/releases/latest
  2. 选择对应系统:

    • Windows:dataset-viewer_x64-setup.exe
    • macOS:dataset-viewer_x64.dmg
    • Linux:AppImage 或 deb 包

Step 2:安装

系统 提示
Windows 双击 exe,下一步到底
macOS 拖拽到 Applications
Linux chmod +x *.AppImage && ./AppImage

Step 3:第一次打开

  1. 左侧栏会提示“选择文件或连接”。
  2. 直接把 100 GB 的 train-00000-of-00123.parquet 拖进去,2 秒内出现表头。
  3. 按下 Ctrl+F(macOS 用 Cmd+F)输入关键字,体验毫秒级搜索。

六、FAQ:你可能想问的 12 个问题

提问 回答
需要联网吗? 完全离线运行,除非连接 WebDAV 或 HuggingFace
支持中文路径吗? 支持,UTF-8 无压力
内存占用多少? 打开 100 GB Parquet 大约 70 MB
能写回文件吗? 当前版本只读,后续版本考虑支持
有插件机制吗? 暂无,全部功能内置
能打开图片/视频吗? 可以预览,不能编辑
能连接 S3 吗? 目前支持 OSS、WebDAV,S3 在 Roadmap
有深色主题吗? 一键切换,跟随系统
能导出筛选结果吗? 复制到剪贴板,或另存为新 CSV
有 CLI 吗? 暂无,纯图形界面
开源协议? MIT,可商用
如何反馈 Bug? 在 GitHub Issues 提交即可

七、典型使用场景

场景 操作路径 省下的时间
数据科学家探索特征 拖拽 Parquet → 搜索列名 10 min → 5 s
运维排查 50 GB 日志 打开 log.tar.gz → 搜索 ERROR 30 min → 20 s
产品经理看用户行为表 双击 Excel → 筛选日期 5 min → 30 s
算法同学浏览 HF 数据集 粘贴数据集 URL → 预览 下载+解压 20 min → 0

八、技术亮点速记

  • 100 % AI 生成代码:项目本身就是 AI 辅助开发的范例
  • Tauri + Rust:跨平台、原生性能、包体 < 20 MB
  • 虚拟滚动 + 分块加载:再大的表也只占几 MB
  • 流式解压:ZIP/TAR 不解压就能看内部文件

九、如何贡献(简明版)

  1. 发现 Bug:打开 Issues,贴复现步骤 + 文件样本
  2. 想要功能:同上,写清楚使用场景
  3. 提代码:Fork → 新分支 → PR → 自动 CI 跑测试
  4. 文档改进:直接改 README、截图、写教程皆可

十、小结

Dataset Viewer 把“数据查看”这件小事做到了极致:

  • 打开 100 GB 文件像打开记事本一样快
  • 搜索、筛选、压缩包预览一步到位
  • 安装包 20 MB,跨平台,完全免费

如果你经常和 Parquet、CSV、ZIP 打交道,它值得常驻 Dock 栏。

下载地址再贴一次:
http://github.com/stardustai/dataset-viewer/releases/latest


用 ❤️ 和 🤖 AI 制作的工具,也希望帮你把时间花在真正的数据分析上,而不是等待进度条。