使用方法

安装与启动

Label Studio 提供多种安装方式,最直接的是通过 Python 的 pip 包管理器。在终端执行 pip install label-studio 即可完成安装。安装完成后,运行 label-studio start 命令启动本地服务器,默认监听 8080 端口。首次启动会引导创建管理员账户,之后便可通过浏览器访问 http://localhost:8080 进入主界面。对于需要容器化部署的场景,官方也提供了 Docker 镜像,使用 docker run -it -p 8080:8080 heartexlabs/label-studio 可快速启动。两种方式均支持数据持久化,启动时可通过 --data-dir 参数指定存储路径。

创建项目与配置标签

登录后点击“创建项目”按钮,输入项目名称和描述。接着进入“标签配置”步骤,这是决定标注类型的关键环节。Label Studio 内置了丰富的模板,涵盖图像分类、目标检测、文本分类、语义分割、音频转写等常见任务。选择模板后,可以在右侧的代码编辑器中直接修改 XML 格式的配置。例如,将图像分类的选项列表从“猫、狗”修改为“正面、负面、中性”,保存后即可生效。配置完成后,系统会自动生成对应的标注界面。若需要更复杂的标注逻辑,如嵌套标签、正则约束或动态样式,可直接编辑配置代码,官方文档提供了每个标签属性的详细说明。

导入数据

项目创建后,进入“数据导入”页面。支持批量上传文件或通过 URL 导入。文件格式需根据标注类型准备:图像任务支持 JPEG、PNG;文本任务支持 CSV、JSON、TXT;音频视频则支持 WAV、MP4 等常见格式。导入时,Label Studio 会解析数据并生成任务列表。如果数据量较大,可以使用云端存储(如 AWS S3、Google Cloud Storage)的连接功能,避免本地磁盘空间不足。导入完成后,可在“数据”页面预览每个任务的原始内容,检查是否有解析错误。对于需要预标注的数据,可以在导入的 JSON 文件中包含预标注结果,系统会自动填充到界面中。

标注操作

点击任意任务即可进入标注界面。界面布局分为三部分:左侧是工具面板,中央是数据展示区,右侧是结果区域。以目标检测为例,在左侧选择矩形框工具,在图像上框出目标对象,随后在弹出菜单中指定类别。Label Studio 支持快捷键操作,如按“1”切换到第一个标签、按“D”删除选中标注。标注过程中,可以随时撤销或重做操作。对于文本分类任务,直接点击文本中的片段并分配标签即可。音频标注则提供波形和频谱视图,支持段落分割和标签关联。完成一个任务后,点击“提交”保存当前结果,系统自动进入下一个未标注任务。标注记录会实时保存,不会因浏览器意外关闭而丢失。

导出标注结果

标注完成后,在项目页面点击“导出”按钮。Label Studio 支持多种导出格式,包括 JSON、CSV、COCO、YOLO、Pascal VOC、音频的 RTTM 等。选择格式后点击“导出”即可下载压缩包。导出的 JSON 格式包含了每个任务的原始数据路径、标注结果、标注元数据(如时间戳、标注者账号)。如果需要导出为 COCO 格式,系统会自动将框坐标转换为标准格式,并生成对应的类别映射文件。对于大型项目,可以使用命令行工具 label-studio export 指定项目 ID 和格式,实现无界面导出。导出数据可直接用于模型训练或第三方工具,无需额外转换。

高级用法:API 与自动化

Label Studio 提供 REST API,允许通过脚本批量创建项目、导入数据、获取标注结果。先在“账户设置”中生成个人访问令牌,然后使用 curl 或 Python 的 requests 库调用 API。例如,用 POST /api/projects 创建项目,POST /api/projects/{id}/import 导入数据。获取标注结果时,可指定 GET /api/projects/{id}/export 并添加参数 export_type=JSON。此外,Label Studio 支持与机器学习模型集成,通过“机器学习后端”功能,在标注界面中实时调用模型进行预标注。配置方法是在项目设置中添加一个自定义后端 URL,官方提供了 TensorFlow、PyTorch 的示例镜像。这种方式能显著减少重复标注工作,尤其适用于大规模数据项目。

团队协作与管理

在项目设置中,可以邀请其他用户加入协作。Label Studio 支持基于角色的权限控制:管理员可管理所有项目,标注员只能标注被分配的任务。每位成员在标注界面中都有独立的标注记录,互不干扰。项目页面会实时显示标注进度条和每个用户的完成量。如果需要多人标注同一任务并采用多数投票机制,可以在项目设置中开启“一致性检查”功能,系统会自动计算标注重合度并生成报告。对于企业级部署,Label Studio 支持 SSO 单点登录和 LDAP 集成,方便与现有组织架构对接。

常见问题处理

遇到标注界面加载缓慢时,首先检查数据文件大小,过大的图像或长音频会增加渲染负担,建议压缩或切片后导入。如果标签配置错误导致界面无法显示,可以回到项目设置中重置为默认模板,再逐步修改。导出时若出现格式错误,通常是因为标注类型与导出格式不兼容,例如将多边形标注导出为 YOLO 格式时,YOLO 只支持矩形框,此时需要先转换标注类型。官方社区和 GitHub Issues 中收录了大量实际案例,可作为参考。