在日新月异的人工智能领域,精确且高品质的标注数据对于成功训练语言模型具有举足轻重的地位。数据标注,即为原始数据赋予具有解释性的标签的过程,可能是一项既具挑战性又耗费时间的任务。随着对带标注数据的需求不断攀升,对高效且用户友好的工具的需求亦愈发显得不可或缺。
Doccano是一款功能强大且具备多样性的开源软件,其设计初衷在于简化文本标注流程。通过提供一系列实用功能,Doccano协助数据科学家与开发人员实现对大量文本数据的高效标注。借助其直观易用的网络界面,用户得以迅速标注文本条目,从而构建出标记数据集,为机器学习模型的训练提供坚实基石。
在众多注释工具中,为何 Doccano 脱颖而出?
1. 便捷的安装与设置:Doccano 提供简洁明了的安装流程,使用户能够迅速启动标注工作,避免陷入繁琐的设置环节。
2. 开源与高度可定制:作为一款开源工具,Doccano 允许用户根据自身项目的特定需求进行定制和扩展,实现灵活应用。
3. 团队协作与高效沟通:Doccano 支持协作式注释项目,使得多个用户能够同时处理同一数据集,提升团队工作效率。
4. 丰富的注释类型:Doccano 支持多种注释类型,广泛适用于各类自然语言处理(NLP)任务。
5. 强大的数据可视化与质量控制:该平台提供数据可视化工具,协助用户深入分析和验证其标注数据的质量与准确性。
要开始使用 Doccano 之旅,您首先需要在本地计算机或服务器上安装该平台。 Doccano 使用 Python 和 Django 构建,使其与各种操作系统兼容。
请按照以下步骤安装 Doccano:
1.先决条件:
在安装 Doccano 之前,请确保您的系统上已安装以下必备软件:
Python (仍然建议Anaconda3)
pip(Python 包管理器)
虚拟环境(可选但推荐)
2. 创建虚拟环境(可选):
创建虚拟环境是一种很好的做法,因为它将项目的依赖项与系统上的其他 Python 项目隔离开来。要创建虚拟环境,请打开终端或命令提示符并执行以下命令:
python3 -m venv doccano-env
此命令创建一个名为doccano-env的新虚拟环境。如果愿意,您可以替换doccano-env为您想要的名称。
3.安装Doccano:
激活虚拟环境后(如果您选择创建虚拟环境),您现在可以使用pip.在终端或命令提示符中运行以下命令:
pip install doccano
(这里可能会报错,多执行几次)
4.初始化数据库(我直接跳过了这一步):
SQLite 3 是 Doccano 使用的默认数据库,如果愿意,用户可以将其配置为替代数据库。例如,如果您更喜欢使用 PostgreSQL 而不是 SQLite 3,请使用以下命令安装其依赖项:
pip install 'doccano[postgresql]'
并将DATABASE_URL环境变量设置为:
DATABASE_URL="postgres://${POSTGRES_USER}:${POSTGRES_PASSWORD}@${POSTGRES_HOST}:${POSTGRES_PORT}/${POSTGRES_DB}?sslmode=disable"
要初始化数据库,请运行:
doccano init
5. 创建超级用户(管理员用户):
要访问 Doccano 管理界面并管理项目,您需要通过运行以下命令来创建超级用户帐户:
doccano createuser --username admin --password pass
如果您愿意,可以更改--username和参数。--password
设置正确的现实是这样:
注意:很多人这里会出现报错,是因为django版本不给力,最新版本的django,更新了一部分,导致了无法登录,需要提前运行下列指令:
pip install --upgrade django==4.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
然后就可以正常创建超级管理员了
6.启动任务队列
启动任务队列允许您在 Doccano 中上传和下载文件,这是此用例所必需的,因为我们不从数据库导入数据。
要启动任务队列,请在单独的终端中运行(记住,一定单独运行这个指令,不然后面无法导入数据):
doccano task
7.运行Doccano
一切设置完毕后,您现在就可以启动 Doccano 了。运行以下命令:
doccano webserver --port 8000
输入用户名:admin,密码:pass(这是之前你设置的超级管理员账号)。
登录进去就可以开始新建项目、创建标签、导入数据、进行数据标注和导出数据了。
doccano-labelling支持团队工作,给你的小伙伴们创建账号后就可以一起用了。