分析垂直搜索引擎与深度挖掘

通过关键字”垂直搜索引擎”在google查一下,在返回结果中可以看到不少的投资公司很看好这一领域,即使百度的发言人也在演讲中提到垂直搜索引擎,而一些国外软件巨头例如Google和Microsoft也在这一领域有所动作,据说Microsoft的一个研究购物的小组最近就推出了一个购物垂直搜索引擎,像目前国内垂直搜索主要有普加(www.pojaa.com),口碑(www.koubei.com)以及google生活搜索。

首先,谈谈垂直搜索引擎的基本原理,垂直搜索引擎针对某个特定领域,招聘、购物、blog、新闻等方面都是垂直搜索的潜在领域,假想一下,如果网络上有非常便利的产品垂直搜索引擎、新闻垂直搜索平台,以后上网就不会漫无目的了,现在许多的行业门户做的很红火,而垂直搜索引擎的模式本身就是一种很好的门户网站.

接下来谈谈垂直搜索引擎的技术,垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导入本地库,而垂直搜索引擎主要是以网页的形式展现给用户,通用搜索引擎主要是利用一个spider程序到网络上爬行,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有一个spider程序,但该程序只在一些特定的网络上爬行,并不会对每一个链接都感兴趣,相对来说,垂直搜索引擎的收录范围大大缩小了,但并不意味着内容的缩小,通用搜索引擎对一些动态脚本是不敏感的,例如***asp?id=***之类的网页一般不被收录,而恰恰是这类动态网页包含了丰富的内容,垂直搜索引擎是必须收录这些动态脚本的,这就需要在技术上做一些特殊处理,另外由于目前网页中的链接形式非常多,不但有动态脚本也有flash做的链接,这些链接方式通过传统的spider程序是很难解析出来的,在垂直搜索引擎中也应该解决.

点此下载全文

评论已关闭!