对部分行业垂直搜索引擎的横向测评

由于金融危机影响,极大的推动了搜索引擎市场,其中垂直搜索的概念一度被炒的很火,涌现了一大批以垂直搜索技术为核心的网站,现在来看看一些垂直搜索引擎的发展情况。

??? 垂直搜索的核心技术实际上就是智能网络爬虫的技术,也就是说如何将定向或者非定向的网页内容抓取下来并进行分析后得到格式化数据的技术。那么如何衡量一个垂直搜索引擎的好坏呢?对于衡量一个垂直搜索引擎的好坏根据以往用户需求整理主要有以下几个标准:

??? 1、数据的更新频率,就是网络爬虫从目标网站上爬取网页数据的频率。用户来访问网站,就是为了获取最新的数据,如果隔天访问过来的数据仍未有更新,或者A网站上数据的更新慢于B网站,必然会造成用户的流失。

??? 2、所在行业信息数据是否全面,信息来源是否广泛,针对行业是否深入及专注。网站所获取的网页数据需要针对某个行业有比较好的覆盖面,至少应该包括该行业的几个比较知名的网站信息内容。

??? 3、查询信息的速度,查询速度的衡量是针对搜索后搜索结果的速度,获取信息的时间。要做到类似百度和Google那样的搜索速度,其实还是有可能的,毕竟垂直搜索引擎只是针对某一个行业的数据,个人感觉现在像“去哪儿”那样逐渐展现的模式,用户也还是可以接受的。

??? 4、信息抽取的完整率和准确率。此项指标的重要度不言而喻,信息的准确率和完整率直接关系到整个搜索引擎搜索结果的质量。特别是准确率,如果没有了这个标准,用户不会根本不会带来任何回头流量。

??? 现有的垂直搜索网络爬虫分为2种基本模式:

??? 1、定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。

??? 优势:基于模版的信息提取技术,能提供更加精准的信息以及垃圾信息比较少,能够进行比较好的过滤,比如机票价格,房屋面积,时间,职位,公司名等等。

??? 劣势:目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,如果要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。

??? 2、语义爬虫全网爬取,爬虫根据语义识别,自动进行信息格式化分析,并存储。

??? 优势:全网非定向抓取目标网站,有效的保证信息数据量;不需要人工参与定制和维护模板,有效的保证了自身的人力和维护成本。

??? 劣势:相对于第一种模板匹配,根据语义来进行数据抓取,准确率略有下降、垃圾信息及重复信息比较多。

??? 下面从数据的更新频率、信息全面性、获取信息速度、信息抽取完整率和准确率、产品易用性等5个方面,对各个行业中几个比较有代表性的垂直搜索引擎进行横向测评。

点此下载全文



无觅相关文章插件,快速提升流量

评论已关闭!