admin 发表于 2019-1-19 12:03:09

火车头采集:全局敏感词替换、近义词替换

火车头采集:全局敏感词替换、近义词替换
全局敏感词替换&近义词替换,功能可以把要替换的词写成一个txt,遇到要替换的标签,只需要选择下就可以了,一次设置,多次使用。第一步:设置同义词替换词库http://www.zzarea.com/d/file/2015-11-03/1446551675290063.jpg通过上图,高级==》同义词替换管理,来编辑替换词库。如下图:http://www.zzarea.com/d/file/2015-11-03/1446551675844549.jpg给词库命个名,然后点击“保存”按钮来保存。两词之间我们设置的是以“,”号分隔,这个是可以随意设置的。保存格式为一行一个同义词和一个或多个同义词。按照上面的设置,我们在左侧侧空白处写了2个例子,现在解释下用途。高兴,开心 :在采集结果中遇到“高兴”就会替换成“开心”;吃饭,睡觉,火车采集器,下班 :在采集结果中遇到“吃饭”就会从后面的“睡觉”“火车采集器”“下班”,三个词中任意选择一个替换。大家可以看到他们其实并不是同义词关系,这个功能虽然叫同义词替换,其实采集器是不区分到底它们是不是同义词,这样就不仅仅用作同义词的替换,还可以替换别的,发散思维。这样一行一行设置好了,点击“保存修改”按钮保存。通过上面的设置,会生成一个txt文件在采集器的\Configuration\Synonym目录下,如下图http://www.zzarea.com/d/file/2015-11-03/1446551676216995.jpg直接在这里编辑删除操作。第二步,在规则里面选择使用标签编辑的数据处理那里,添加==》高级功能==》同义词替换,如下图http://www.zzarea.com/d/file/2015-11-03/1446551676742670.jpg选择:http://www.zzarea.com/d/file/2015-11-03/1446551676777053.jpg这里有个双向替换 的选项框,有使用介绍,自己看下。
页: [1]
查看完整版本: 火车头采集:全局敏感词替换、近义词替换