新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → Evolving Web, Evolving Search 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 23542 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: Evolving Web, Evolving Search 举报  打印  推荐  IE收藏夹 
       本主题类别: Ontology Engineering    
     whfcarter 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机学士学位(贵宾)
      文章:143
      积分:2145
      门派:XML.ORG.CN
      注册:2005/3/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给whfcarter发送一个短消息 把whfcarter加入好友 查看whfcarter的个人资料 搜索whfcarter在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看whfcarter的博客11
    发贴心情 

    搜索一般是针对文档,使用的输入为关键字,索引使用倒排索引。
    查询一般是针对结构化数据,使用的输入是结构化查询,索引使用B-tree或者变种。
    随着XML数据的流行,搜索和查询的界限越来越模糊,同时各种整合关键字和结构化(甚至语义的)查询输入,对于两者的融合,当然也包括索引的整合起到的推动的作用。
    现在回到语义搜索,如果我们是知识工程师,需要根据某一个查询需求获得相关的本体数据(ontology reuse),那么我可以输入关键字匹配某一个类别,某一个关系或者实例信息,并将包含的本体文件以一种snippet片断的方式返回。这类的典型代表包括Swoogle, Falcons, Sindice和Watson。如果我需要根据某一个包含关键字和结构化约束的复杂查询需求,并且返回相应的实例信息,那么需要考虑混合的索引结构,当然这里的结构可以是分离的,一部分用B-tree的形式一部分用倒排索引,也可以都使用倒排索引,这类的典型代表包括SWSE, SearchWebDB和Microsearch。其中Microsearch是Yahoo提出的一种整合user contributed metadata和现有document search的一种hybrid search,希望通过metadata来提高搜索的精度和覆盖。他的实现基本是inverted index + sesame。他也提到了效率问题,速度是需要进一步提高的。所以正如楼上提到的,你增加了新的功能,不可能性能不受影响,或者现有的索引结构不支持。这里永远是一个tradeoff, 特别是那些loose couple的系统,他们虽然比较容易实现和扩展(flexibiliy比较好,但是performance特别是efficiency是很大的瓶颈),而tight coupled的系统都是针对具体问题specific tailor的,他们速度快,但是就是解决具体的问题。这个时候当我们做选择时就要看哪个更加重要。这里提到google就是具体问题具体分析的成功案例。最后谈一下web 2.0对于搜索引擎的影响。Web 2.0的数据量比原先的数据大了很多,这样对于搜索引擎提高效率提出了新的要求,其次在于link analysis的不同,有了很多新的link,回顾一下在web 1.0时,hyperlink是唯一的Link, 而web 2.0仅以social tagging为例,你有user和tag之间的link, tag与page之间的link,page与user之间的link,这些是不同类型的links,那么他们的权重以及对搜索的影响呢?其次是搜索模型的不同,ranking是search的核心,那么如何将这些数据嵌入到查询与文档相关性的匹配计算中?有兴趣大家可以看一下大家使用social tagging作为metadata来提出新的language model smoothing, 也有使用learning to rank来设计更加合理的ranking function。当然从SW的角度来看,metadata当然可以作为某种约束来改善搜索结构,正如microsearch所作的,但是这样的效力还没有完全显示出来,不仅仅是因为metadata数量还是少,其次他的质量也不高所致。Web 2.0的核心是user,抓住了这个才能做好的搜索,这里的语义搜索是指personalized或者community-based recommendation而非search了。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/6 19:42:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客12
    发贴心情 
    这样看来,语义搜索引擎中的所谓“语义索引”事实上还是传统的倒排档式索引,很难在短期内出现较大变化。从数据结构角度讲,采用图结构,不论采取哪种方法检索,效率一定会比普通倒排挡大为降低。但是对于处理各种不同类型链接,在爬虫程序中定制处理方法似乎是可行的。这样就可以减轻语义搜索引擎索引模块的压力。
    除了语义索引和语义检索之外,语义搜索引擎的另外一大特别之处就是语义消岐了。不过我觉得语义搜索引擎与传统搜索引擎相比在这方面具备先天的优势。在遭遇二义性词汇时大不了让用户选择所要表达的意思。而语义搜索的关键之处还是集中于对网络文档的索引和检索。

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/7 9:41:00
     
     viaphone 帅哥哟,离线,有人找我吗?
      
      
      等级:大三(要不要学学XML呢?)
      文章:149
      积分:674
      门派:XML.ORG.CN
      注册:2005/3/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给viaphone发送一个短消息 把viaphone加入好友 查看viaphone的个人资料 搜索viaphone在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看viaphone的博客13
    发贴心情 
    简单一点说,
    web1.0以数据为中心,web2.0则是面向服务,web3.0还离我们多远?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/8 0:55:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/29 8:53:59

    本主题贴数13,分页: [1] [2]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    46.875ms