

喜讯:国内、香港、海外云服务器租用特惠活动,2核/4G/10M仅需31元每月,点击抢购>>>
百度智能云全功能AI开发平台BML-序列标注标注说明
1.标注体系说明
在序列标注任务中,一般会定义一个标签集合,来表示所有可能取到的预测结果。
标签是对字符串的token序列进行的表示:
对于英文字符串而言,token可以是一个单词(e.g. baidu),也可以是一个字符(e.g. b);
对于中文字符串而言,token可以是一个分词后的词语,也可以是单个汉字字符;
当前平台支持主流的IOB、IO、IOE、IOBES四种标注体系:
IOB: 标签B用于文本块的开始,标签I用于文本块中的字符,标签O用于文本块之外的字符
IOE: 标签I用于文本块中的字符,每个文本块都以标签E结尾,标签O用于文本块之外的字符
IOBES: 包含了全部的5种标签,使用S标签表示文本块由单个字符组成;由一个以上的字符组成时,首字符总是使用B标签,尾字符总是使用E标签,中间的字符使用I标签
IO: 只使用I和O标签,如果文本中有连续的同种类型实体的文本块,使用该标签方案不能够区分这种情况
可参考如下案例了解四种标注体系的区别和使用:
| 中 | 韩 | 对 | 抗 | 赛 | 中 | , | 于 | 大 | 宝 | 的 | 进 | 球 | 帮 | 中 | 国 | 队 | 获 | 胜 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IOB | CN-B | KR-B | O | O | O | O | O | PER-B | PER-I | PER-I | O | O | O | O | ORG-B | ORG-I | ORG-I | O | O |
| IO | CN-I | KR-I | O | O | O | O | O | PER-I | PER-I | PER-I | O | O | O | O | ORG-I | ORG-I | ORG-I | O | O |
| IOE | CN-E | KR-E | O | O | O | O | O | PER-I | PER-I | PER-E | O | O | O | O | ORG-I | ORG-I | ORG-E | O | O |
| IOBES | CN-S | KR-S | O | O | O | O | O | PER-B | PER-I | PER-E | O | O | O | O | ORG-B | ORG-I | ORG-E | O | O |
英文的标注案例,请参考如下实例,注意由于ERNIE是由超大规模的中文知识语料进行的预训练模型,如果您需要在英文数据集上做序列标注任务,建议使用非ERNIE的任务进行训练。
====== ====== ====== ===== == ============ ===== ===== ===== == ========= Li Ming works at Agricultural Bank of China in Beijing. ====== ====== ====== ===== == ============ ===== ===== ===== == ========= IO I-PER I-PER O O I-ORG I-ORG I-ORG I-ORG O I-LOC IOB B-PER I-PER O O B-ORG I-ORG I-ORG I-ORG O B-LOC IOE I-PER E-PER O O I-ORG I-ORG I-ORG E-ORG O E-LOC IOBES B-PER E-PER O O B-ORG I-ORG I-ORG E-ORG O S-LOC ====== ====== ====== ===== == ============ ===== ===== ===== == =========
2.标注数据格式说明
本文以平台推荐的IOB标注体系进行详细讲解。在平台上传数据集过程中,提供了快递关键信息抽取场景的示例数据以供参考,Demo数据下载,详见下方截图位置:

2.1 定义标签集合
在本示例场景中,针对需要被抽取的“姓名、电话、省、市、区、详细地址”等实体,标签集合可以定义为:
label = {P-B, P-I, T-B, T-I, A1-B, A1-I, A2-B, A2-I, A3-B, A3-I, A4-B, A4-I, O}
标签集合将会在后续上传平台时放在json文件中用到,详见下方“平台数据准备模块”
每个标签的定义分别为:
| 标签 | 说明 |
|---|---|
| P-B | 姓名起始位置 |
| P-I | 姓名中间位置或结束位置 |
| T-B | 电话起始位置 |
| T-I | 电话中间位置或结束位置 |
| A1-B | 省份起始位置 |
| A1-I | 省份中间位置或结束位置 |
| A2-B | 城市起始位置 |
| A2-I | 城市中间位置或结束位置 |
| A3-B | 县区起始位置 |
| A3-I | 县区中间位置或结束位置 |
| A4-B | 详细地址起始位置 |
| A4-I | 推荐:TOP云智能建站优惠活动,仅880元即可搭建一个后台管理五端合一的智能网站(PC网站、手机网站、百度智能小程序、微信小程序、支付宝小程序),独享百度搜索SEO优势资源,让你的网站不仅有颜值有排面,更有排名,可以实实在在为您带来效益,请点击进入TOP云智能建站>>>,或咨询在线客服了解详情。
相关阅读
猜您喜欢
|



湘公网安备43019002001857号
备案号:
客服1