我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字段的所有内容都替换为某个固定的内容。使用场景如:我们从某网站上采集城市名称,然后城市名称示例为:浙江省杭州市,但我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。
下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:
如上图,我们想要将包含百度的标题 内容更替换为“常用搜索网站”,则写成如下格式:
运行结果为:
上述就是数据抓取时将某字段所有内容自动分类的使用方法,在操作中还需要注意的是:
1、一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。
2、若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:
学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。