找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1229|回复: 0

火车头采集:全局敏感词替换、近义词替换

[复制链接]
发表于 2019-1-19 12:03:09 | 显示全部楼层 |阅读模式
火车头采集:全局敏感词替换、近义词替换

全局敏感词替换&近义词替换,功能可以把要替换的词写成一个txt,遇到要替换的标签,只需要选择下就可以了,一次设置,多次使用。
第一步:设置同义词替换词库
通过上图,高级==》同义词替换管理,来编辑替换词库。如下图:
给词库命个名,然后点击“保存”按钮来保存。
两词之间我们设置的是以“,”号分隔,这个是可以随意设置的。
保存格式为一行一个同义词和一个或多个同义词。
按照上面的设置,我们在左侧侧空白处写了2个例子,现在解释下用途。
高兴,开心 :在采集结果中遇到“高兴”就会替换成“开心”;
吃饭,睡觉,火车采集器,下班 :在采集结果中遇到“吃饭”就会从后面的“睡觉”“火车采集器”“下班”,三个词中任意选择一个替换。
大家可以看到他们其实并不是同义词关系,这个功能虽然叫同义词替换,其实采集器是不区分到底它们是不是同义词,这样就不仅仅用作同义词的替换,还可以替换别的,发散思维。
这样一行一行设置好了,点击“保存修改”按钮保存。
通过上面的设置,会生成一个txt文件在采集器的\Configuration\Synonym目录下,如下图
直接在这里编辑删除操作。
第二步,在规则里面选择使用
标签编辑的数据处理那里,添加==》高级功能==》同义词替换,如下图
选择:
这里有个双向替换 的选项框,有使用介绍,自己看下。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|站长网 网站备案:鄂ICP备13006300号-4

GMT+8, 2024-4-26 07:43 , Processed in 0.040613 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表