◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
随着网络信息的不断增加搜索引擎的发展将会是什么路途
Post by ys861030, 2011-6-5, Views:分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎的基本功
能进行分析,并从聚类方式、聚类结果展示形式和聚类效果三个角度进行测评,提出“以用户为中心”的
聚类2.0搜索是未来聚类搜索引擎乃至搜索引擎的发展趋势。
1前言
网络信息的迅猛增长,信息用户行为的不断变化,致使网络检索需求在原有的全面性和准确性的基础
上,朝着新颖化、个性化的趋势发展,从而给搜索引擎的发展带来了机遇与挑战。聚类搜索引擎的突出特
点是有利于提高检索精度,根据某一属性,对搜索引擎返回的结果进行聚类,从而使用户迅速定位所需信
息。在当前网络环境下,现有的聚类搜索引擎能否满足日益变化的检索需求,其今后的发展态势如何呢?
本文将对上述问题进行探讨。
2聚类搜索引擎发展现状分析
2.1搜索引擎发展轨迹
随着搜索技术的不断发展,新型异质的搜索产品层出不穷。作者将搜索引擎近十多年的发展大致分为
三个阶段,即从目录式搜索(第一代搜索引擎),发展到基于Robot的搜索(第二代搜索引擎),进而到智能
化、个性化搜索(第三代搜索引擎)。智能化搜索采用中文自动分类、自动聚类等人工智能技术,使用内容
分析及区域智能识别技术,增强了搜索引擎的查询能力,产生了元搜索引擎(如Dogpile、mamma等)、聚类
搜索引擎(如Clusty、KartOO及比比猫等)、自然语言处理搜索引擎(如Lexxe)以及语义网搜索引擎(如
Swogle)等。在满足用户个性化检索需求方面,产生了如移动搜索引擎(如Ask Mobile、儒豹等)、桌面搜
索引擎(如Coogle Desktop、百度硬盘搜索等)、可视化搜索引擎(如SearchMe、RedZee)、垂直搜索引擎(
如ZabaSearch、沱沱网)以及多内容搜索引擎(博客、视频、音频、地图等)。
搜索引擎的发展可从其紧密关联的两个对象——互联网资源(搜索引擎的搜索对象)和用户(搜索引擎
的使用者)来分析。搜索引擎前两个发展阶段主要聚焦在资源,从第三代开始逐渐注重用户的搜索体验,
搜索引擎发展的最终目的是“所得即所需”(What You Get is What You Want)。
2.2国内外聚类搜索引擎发展现状
作为第三代搜索引擎的代表——聚类搜索引擎正在蓬勃发展:2000年出现的Vivisimo可称为国内外最
早的聚类搜索产品之一,2004年Clusty在其基础上得到了进一步发展;2003年问世的Mooter被人们广泛看
好;近期出现的KartOO(Ujiko及KVisu)、Quintura、KoolTorch和WebBrain等多款可视化聚类搜索引擎带
给用户全新的视觉感受;可视化音乐电影聚类搜索引擎Liveplasma的出现使聚类搜索向垂直化趋势迈进。
相对于国外来说国内聚类搜索引擎的发展则滞后得多,其中最具竞争力和发展潜力是2005年创立的比比猫
(Bbmao),它集聚类、去重、收藏等多重功能于一身,是社会化的聚类元搜索引擎;5iseek及SeekXun目前
处于聚类的起始阶段,只提供搜索结果聚类这一功能。
3国内外聚类搜索引擎功能分析
本文从聚类搜索引擎的基本功能和聚类功能两个角度分析国内外已有成熟聚类搜索引擎产品。
3.1聚类搜索引擎的选取及基本功能分析
笔者以Read Write Web.com发起的“The Top 100Alternative Search Engines”评选结果为标准,
并借助调研和实验,选取了较具代表性的聚类搜索引擎作为分析对象,如表1所示:
通过以上分析可以看出,目前聚类搜索引擎得到了快速发展并取得了一定的成果:①聚类搜索引擎几
乎均为元搜索引擎,检索对象已不单单为网页,更触及到图像、视频、博客、地图、维基及工作等;②将
社会性网络(SNS)的相关概念和技术充分融合其中,如Tag、收藏及掘客等;③在提供个性化服务方面各具
特色,其中iBoogie及国内的比比猫提供的服务形式使人眼前一亮,如iBoogie的用户可根据自己的偏好,
在博客、游戏、军事及旅游等大类下选择已提供的信息源,形成个性化的搜索对象,比比猫在页面右侧将
相关图片、新闻、购物及下载等与网页检索结果一并呈现给用户。
3.2聚类搜索引擎的聚类功能测评
聚类功能的测评主要从聚类方式、聚类结果展示形式及聚类效果三个角度来分析。
3.2.1聚类方式尽管所选取网站的聚类形式不尽相同,但大体上可归纳为三种:目录结构、层次聚类
结构和树状及网状结构。目录结构即将聚类类目简单地罗列;层次聚类采用“自下而上”的方式将聚类结
果再进行聚类,直到满足“类内最大相似,类间最大差异”的聚类目的;树状和网状结构是将聚类结果进
行一系列的控制和优化处理,将类目间的关系揭示出来。表2归纳了各聚类搜索引擎的聚类方式:
3.2.2聚类结果的展现形式传统聚类搜索引擎主要通过类目列表的形式来展示搜索结果,即将类目按
照一定的组织形式(如类目大小)通过列表呈现给用户,如Clusty、iBoogie、Carrot2以及比比猫;可视化
技术在聚类结果展示方面发挥了巨大的作用,消除了传统列表形式不够“易用”的缺陷,使用户能够更方
便地理解和使用聚类结果,如Mnemomap、Webbrain及Quintu-ra。笔者认为Quintura在聚类结果可视化方
面较具特色且效果较好,其采用Quintura Cloud可视化地图技术展现聚类结果(见图1),类目名称的大小
及颜色的深浅代表该类目下搜索结果的多少,字体愈大、颜色愈深表示其结果越多,反之则越少。
在这里介绍一下KVisu引聚类搜索引擎及其Car-tographic Surfaces可视化技术。它使用聚类地图更
形象地展示聚类结果,一块区域代表一个类目,区域面积的大小代表类目下结果的多少,面积愈大表明结
果愈多,反之愈少。在地图上类目的远近代表类目间关系的紧密程度,愈近则表示类目间关系越密切,进
而形成聚类组(Clustering Group)。
3.2.3聚类的效果聚类搜索引擎的聚类效果至关重要,笔者选取两个方向作为评价的内容,即类目的
逻辑关系和类目名称的有效性,并选取Java作为关键词展开实验,Java有三种含义,即:爪哇岛(印尼)、
爪哇产的咖啡及面向对象的程序开发语言。类目的逻辑关系指的是类目之间以及类目与其下位类之间是否
存在一定的逻辑关系;类目名称的有效性是指类名是否能概括聚类的主题,并与其他聚类相区别,对用户
而言是可识别并且有意义的。
类目划分应依据聚类的内容而不仅依据字面的差异。通过实验可看出,目前聚类搜索引擎仍旧依据网
页所包含的相应关键词作为类目名称,尚未依据网页内容来聚类,导致无法体现类目间的逻辑关系,如老
牌聚类搜索引擎Clusty,通过搜索Java得到包括Down-10ads、Tutorials、Language及Sun Microsystems
等39个类目,类目之间并无关联;类目的名称虽是高频词(组),但对于用户来说并无实际意义,如类
Additions、List ofJava及links等,用户无法了解该聚类的明确主题,反而增加了用户的负担,类似的
情况也出现在Carrot、iBoogie及比比猫等搜索引擎上。部分聚类搜索引擎在此问题上做了一些改进,如
WebBrain按照父类、子类、兄弟类及相关类来组织类目;Mnemomap按照标签、翻译、邻居和同义词组织聚
类;iseek依照主题、人、地点、组织、时间、缩写、发布时间以及来源控制聚类。虽然它们还是依据关
键词来聚类,但通过对聚类的控制使类目间有了一定的关联。
4.1目前聚类搜索引擎存在的问题
聚类搜索引擎虽取得了阶段性的巨大进步,但在聚类方式、结果展现形式以及聚类效果等方面存在不
足,如聚类所需时间长、聚类效果不佳、聚类结果展示形式单一等。可以说,目前聚类搜索引擎所关注的
是互联网资源,即如何更全面、更准确地处理互联网信息,而针对用户设计的产品功能目前只是试探性的
,并未产生实质性的革新与突破。
4.2未来聚类搜索引擎的发展趋势——聚类2.0搜索
Web2.0的出现使网络步入“全民织网”的时代,用户已从被动信息接受者转变为主动提供者。聚类搜
索引擎的发展同样应在关注互联网资源的基础上,将用户放在与其同等重要的地位。Vivisimo公司创始人
兼CEO——Raul Valdes-Perez2008年1月提出了Clus-tering 2.0的概念,即通过“Remix Clustering”在
原有搜索结果上再一次聚类来满足用户的个性化需求。由此可看出,聚类2.0搜索是通过用户的参与将更
智能化的聚类结果以更形象的展现形式来满足用户的个性化搜索需求。聚类2.0搜索将在继承传统聚类搜
索引擎已有成果基础上朝以下4个方向发展。
4.2.1聚类结果——智能化这里的智能搜索有别于基于人工智能的智能搜索引擎,是指聚类的智能化
。利用语义分析、智能化的文本挖掘技术及去重技术,通过词形、词性以及词义的处理去除重复网页,进
行真正的基于内容的聚类,并使类目之间建立一定的逻辑关系而不是简单的罗列,类目名称能够反映此类
目下所含资源的主题。通过聚类,达到减轻用户负担,用户快速定位所需搜索结果的目的。虽然目前尚未
有智能化聚类搜索产品问世,但这是未来聚类搜索最重要的发展趋势。
4.2.2结果呈现——可视化时至今日,已有部分聚类搜索引擎在聚类结果可视化方面进行了有益的尝
试,如Mnemomap、Webbrain、KartOO、Quintura、Liveplas-ma及KVisu等等。可以说后三种可视化聚类搜
索引擎在某种程度上代表了未来的发展方向。利用聚类地图等形式使类目面积的大小、类目间距离的远近
以及类目的颜色等具有一定的意义,如类目的大小代表该类目下搜索结果的多少,类目间的距离代表类目
间关系的远近,类目的不同颜色代表该类目下搜索结果受关注程度的差异。通过这种更为形象的可视化方
式,使用户能够方便地掌握聚类结果的整体情况。
4.2.3用户参与——社会化社会化搜索是聚类搜索引擎乃至搜索引擎按照自身逻辑发展的必然结果,
社会化聚类搜索并不是“社区+聚类搜索”的简单交叉。提供社会性书签功能、网页收藏功能并将具有相
似检索兴趣的用户组成社群网络,分享交流彼此的搜索结果及经验,这只是社区化搜索在网页聚类搜索功
能上的横向补充与扩展。社会化聚类搜索则试图以用户参与的方式优化搜索结果的聚类,让用户根据自身
浏览体验对搜索结果的聚类进行评价,在杜绝作弊的情况下,可以让用户判断搜索结果所属类目的精度,
使聚类效果得到不断优化。
4.2.4服务提供——个性化个性化搜索是发展社会化搜索的另一思路。满足用户个性化的检索需求,
提供个性化的检索体验是每个搜索引擎所追求的最大目标。用户可以选择和添加聚类信息源、设置搜索对
象(如包含图片、视频及博客等)、设置聚类数量等,使搜索成为一种普遍性的服务,根据用户需求分化出
许多异质的搜索产品。不仅如此,用户逐渐可以拥有自己的聚类搜索产品,随心所欲地设计各种聚类属性
。每个人的聚类搜索引擎都不相同,反映出各自的兴趣和习惯,最终每个人都可以经营自己的垂直聚类搜
索引擎,提高检索精度,增强用户体验。
5结语
通过对已有聚类搜索引擎功能的分析,可以看出聚类搜索得到了快速蓬勃的发展,无论是在聚类方式
、结果展现形式等方面都取得了巨大的进步。在当今的网络环境下,聚类搜索引擎的局限及不足也是显而
易见的。随着Web2.0思想不断渗透到聚类搜索引擎当中,聚类2.0搜索必将是未来的发展趋势。聚类结果
的智能化、结果呈现的可视化、用户参与的社会化以及服务提供的个性化将是未来聚类搜索发展的方向。
或许你还对下面的文章感兴趣
- 谷歌说它的邮箱系统被国内黑客攻击了,你信吗? (2011-6-3 11:4:56)
- qq.com打不开了,百度后续有人啊 (2011-5-31 15:29:55)
- 苏州seo告诉你怎么让谷歌不跳转到hk域名 (2011-2-25 15:27:16)
- 百度群起而攻之,侯小强做了个头 (2010-11-13 13:7:17)
Comments
- 1.仿站
- http://www.chsi-cn.com
- 不仅如此,用户逐渐可以拥有自己的聚类搜索产品
- 2011-7-11 22:56:52 回复
