

喜讯:国内、香港、海外云服务器租用特惠活动,2核/4G/10M仅需31元每月,点击抢购>>>
百度智能云全功能AI开发平台BML-文本实体数据去重策略
重复样本的定义
一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
以下3条都是文本实体抽取任务的重复样本,样本示例如下:
| 文本内容 | 实体类别 |
|---|---|
| 今天北京的空气不错 | 北京:loc |
| 今天北京的空气不错 | 今天:date |
| 今天北京的空气不错 | 北京:local |
上述两个表中,都代表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。
Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。
平台去重策略
平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。
当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:
数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
推荐:TOP云智能建站优惠活动,仅880元即可搭建一个后台管理五端合一的智能网站(PC网站、手机网站、百度智能小程序、微信小程序、支付宝小程序),独享百度搜索SEO优势资源,让你的网站不仅有颜值有排面,更有排名,可以实实在在为您带来效益,请点击进入TOP云智能建站>>>,或咨询在线客服了解详情。


湘公网安备43019002001857号
备案号:
客服1