中文XML论坛--Evolving Web, Evolving Search

贴子主题： Evolving Web, Evolving Search

本主题类别: Ontology Engineering

最近发现版上大家对于语义搜索进行广泛而热烈的讨论，我想以此篇帖子作为开篇来谈谈我对搜索特别是语义搜索的看法。随着Web的不断演化，各种数据也逐渐出现，而搜索作为有效的工具可以使得用户快速找到相关的文档甚至答案，从而避免用户淹没在海量的数据或信息中。在不同Web时期，用户对于搜索的期望不同，基于不同数据的搜索形态使用的技术也不完全相同，这样搜索的技术以及其应用也是在不断演化和进步的。这就是本贴题目的由来。下面分别从Web 1.0的特点，对搜索的需求以及典型的搜索应用出发给大家做一个介绍。

Web 1.0是由网页组成的，这些网页一般都是由纯文本构成，使用超文本标记语言HTML。它的特点是：1) 网页的数目非常大，而且不断地迅速增长。Google作为这个时代最有影响力的搜索引擎，虽然已经索引了十多亿张网页，但这仍然只是互联网络信息海洋中的很小一部分。而一些实际的测量结果表明：每周，互联网上的网页大约会有10%是全新产生的。这样大的数字，这么快的增长规模；使得任何一个人都无法单独的浏览完所有的网页。因此，出现了搜索引擎，帮助大家快速检索到需要的资源。2) 网页上的文字，最终是给用户阅读的。也就是说，这些文字在计算机看来，除了是一些特定的ASCII编码以外，并不知晓其中真正的含义。不论是上面的新闻、或者是笑话、亦或是图片，这些页面只有被广大的互联网用户浏览了，才起到了信息传播的作用。3) 由于HTML语言的特殊性，它除了一般的文本和图片等信息外，还包括一种超链接信息。使得网页之间相互连通。

针对上面这些特点，这个阶段的搜索引擎主要考虑的问题是：
如何进行网页爬取？使系统能够尽可能多地收集网页的数据。
如何提高搜索的相关度？使得用户输入一个简单查询以后，可以在第一页的最前几条就是用户希望找到的信息。进一步的问题就是如何对网页进行排名。
如何使得搜索的交互尽可能地简单明了。因为只有简单的交互才能吸引更多的用户。

这一个阶段的搜索功能（包括商业的搜索引擎和学术界研究的搜索引擎）主要有：
通用搜索引擎，像百度、Google这样的；
垂直搜索引擎，是针对某一个行业或某一领域的专业搜索引擎，如专家搜索，根据用户输入的研究领域或者技能，在给定数据集甚至在开放的Web上找到相应的专家，近几年，TREC Expert Search Track得到了很多关注也得到了长足的进步。另一个例子是事件搜索和跟踪，输入对某一个事件的描述，返回事件的一些详细信息以及出处，同时展现在时间和空间的分布等。
元搜索引擎，它在其它搜索引擎的结果中进行后续处理，是一种调用其它独立搜索引擎的引擎。最常见的包括搜索结果聚类，通过获取某一通用搜索引擎的前100个结果（考虑网络的延迟和开销，仅取top的相关结果），根据特征抽取和相似度比较进行flat或者层次化聚类，将相似的结果合并在一个cluster中，并给用户可读的cluster label信息。

最近两三年里，Web2.0的出现给互联网带来了新的活力；使得互联网经济在2001年泡沫破裂以后得以复苏。而且成为近期的一个热门话题。在我们看来，Web2.0融入和社会化的理念，使更多的用户能够很方便的在网络上发布信息，它的出现扩大了Web的用户群。

把原来的传统Web称为Web1.0的话，对比Web2.0，我们就可以发现：
1) 原先在Web1.0上，只能由懂技术的人发布信息；现在在Web2.0上，则是由懂技术的人提供平台，鼓励更多的用户来参与一起发布信息；
2) 原先在Web1.0上，个人用户只能通过建立个人网站的方式来发布自己的信息。虽然这吸引了很多用户自学HTML、CSS、ASP、JSP、PHP等语言来编写自己的网页，但是依然有绝大多数用户不会使用这些技术。而Web2.0提供了很多丰富的平台，用户需要做的只是要去申请一个博客，然后通过轻点鼠标来定制页面，再写下自己想要发布的信息，就可以了。
3) 原先在Web1.0上，多个用户进行协作编写文档，需要Content Management Systems，这些系统通常都有专门的程序，需要部署以后才能使用；而且设置麻烦。而在Web2.0里面就可以通过建立维基站点来完成。
4) 有了维基系统，原来的在线百科全书的功能就被Wikipedia部分取代了。原来的百科全书是由专家修订的，对新鲜事物的接收过程比较缓慢；而在Wikipedia中，借助全体网民的力量，许许多多最新鲜的概念都能在这里面查到；做到了名副其实的百科全书。
5)原先在Web1.0上，有一种目录服务(如Yahoo的Directory)，就是通过专家把网址归类的方法，让用户进行点击浏览；在Web2.0中，这些归类的不再是专家了，而是普通用户；而归类也演化成添加社会化标签(Social Tagging，在del.icio.us和Flickr等中体现)的方法。
纵观这些Web2.0带来的新事物，我们可以看到Web的技术壁垒被不断降低；对用户专业技能的需求也越来越低；用户群越来越大。

相对应的，在Web2.0上面作搜索就需要考虑如何把用户的参与考虑到搜索中来。其典型的搜索应用包括博客搜索、维基搜索和使用社会化标签搜索等。博客不仅仅是网页那么简单，除了内容以外，写博客的那位“博友”通常都会有一些特定的偏好，或者说是兴趣；他在博客上围绕自己特有的兴趣写博文。因此，给搜索带来一些新的东西。我们可以根据兴趣，主题来进行搜索，同时可以看到相关兴趣以及他的社会化网络（即具有相似兴趣的其他博客）。维基百科利用群众的力量编辑获得大量高质量的结构化信息，其中类别信息由于覆盖面广和粒度适当，被用于各种目录浏览，也被用于提供多视角搜索(Multi-faceted Search)，如用户输入Apple, 系统返回如beverage（饮料），foods（食品），desserts（甜点），home computers（家用电脑），apple computer（苹果电脑）等各种纬度来展现与关键字相关的方方面面，也从一定程度上改善了用户搜索体验和对于关键字去歧义。前面已经提到，在Web2.0的时代出现了用户对网页进行标注的形式，其中del.icio.us就是这样一个工具；它允许用户自己收藏网页，并对网页内容进行简单的标注。
利用这种标注，可以找到文档中没有匹配查询关键字，而在标签中出现的高质量文档信息，同时展示相关标签以及用户等信息。

前面我们介绍了传统的Web 1.0和Web 2.0的特点以及在这些环境下如何做搜索。传统的Web以网页为主，Web2.0降低了使用的门槛，使得数据更加多样化，内容也更丰富。接下看我们看看未来的Web可能会使什么样子的；以及在那样的环境中，如何进行搜索？
2001年Tim Berners-Lee在《科学美国人》杂志上首先提出了对下一代网络的畅想。他认为下一代的互联网应该是所谓的“语义网”。在语义万维网中，Web的主角从文档转换为对象，原先文档之间的超链接(hyperlink)变为了对象之间的显式的语义关联。不仅如此，各种描述领域知识的本体数据不断出现，他们为搜索带来了新的挑战和机遇。这里主要列出4点：(1) 可扩展性: 由于Semantic Web比传统的Web对于事物的刻画粒度更细，数据的规模更加大，无论是Data Web search (billion of triples)还是Hybrid Search(结合document和matadata作为语义标注的)，都将遇到前所未有的效率性能考验；(2) 异构性: 在前面也提到，Web中的大量Deep Web信息未被挖掘，然而现实中有很多复杂查询需要整合多个数据源或对象描述或文档信息来回答它，如查找研究数据库的人对语义Web的书评等复杂查询；(3) 不确定性: 更加robust和flexible的ranking机制来处理来自方方面面的不确定性(e.g. 数据抽取带来的，数据源的可靠性，查询的不精确性）; (4) 可用性: 有了更多的语义数据，如何展现这些数据，整合到现有结果展现框架中，以及提供更加友善的用户查询接口（如自然语言，关键字等）来帮助用户表达他复杂且不精确的查询需求。

先写到这里，下面会分不同帖子来介绍Semantic search。


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	109.375ms