网页数据抓取之自动分类功能

2016-09-10 14:17:52 浏览:7776

我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字的所有内容都替换为某个固定的内容。使用场景如:我们从网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。

下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:

1.png

 

如上图,我们想要将包含百度的标题 内容更替换为常用搜索网站,则写成如下格式:

2.png

 

运行结果为:

3.png

 

就是数据抓取时将某字段所有内容自动分类的使用方法,在操作需要注意的是

1一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。

2若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

 

4.png


学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。

扫码关注微信