以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web架构 』   (http://bbs.xml.org.cn/list.asp?boardid=66)
----  Google正在研究Web结构化数据[转帖]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=66&rootid=&id=77943)


--  作者:kanechen1
--  发布时间:10/25/2009 2:59:00 PM

--  Google正在研究Web结构化数据[转帖]
互联网的搜索引擎们把主要精力都放在采集Web页面的文本信息上,但是Google却在研究如何分析和组织结构化数据方面小有所成,该公司的一位科学家上周五表示。

“在Web之外存在着大量的结构化数据,但我们却并没有很好地将这些数据展示给用户。”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中,Alon Halevy在一次谈话中这样说道。

Halevy还谈到了所谓的“深Web”源,比如为Cars.com或者Realtor.com这类表单驱动型网站做后台支撑的数据库资源。Google一直都在不停的向各种表单提交查询请求,然后对返回的结果进行分析,最后将有用的内容加入到索引当中。

但是该公司仍然希望Web站点们能够将数据存放到结构化的表格中供google分析,Halevy说,例如在Web页面上提供一个表格列举出历任美国总统。

但是这样的表格也是数量巨大的,据Halevy说,Google的索引中已经收录了140亿个。他“很快就意识到其中有超过98%的内容是用户不感兴趣的,”但即使经过了仔细的筛选之后,仍然有1亿5400万个表格值得被Google索引。

Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户,特别是像“越南旅游”这种比较宽泛的关键字,而不是“越南人口”这种非常具体的关键字,Halevy说,前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息。

Kosmix已经在做这个点子了,但是Google将会做的更多,Halevy说,“Kosmix的确能够展示出‘方面’,但是它依赖于特定的信息源。”

在Kosmix上搜素“越南旅游”,它会给你提供一个结果集,包括纽约时报关于酒店的评论,来自雅虎和Flickr的图片,来自Shopping.com的购物信息以及来自Google的其他信息。

“而我们则不同,各方面信息都来自于Web的搜索结果,但会以不同的方式组织起来。”Halevy说。


--  作者:Humphrey
--  发布时间:10/26/2009 11:26:00 AM

--  
谷歌所研究的结构化数据应该和我们所说的本体数据有很大差别的吧。
谷歌似乎更偏重于数据库和数据表一类的数据吧。
--  作者:zq490391612
--  发布时间:11/12/2009 3:03:00 PM

--  
学习了 谢谢分享
--  作者:liuliang9767
--  发布时间:10/25/2010 1:50:00 PM

--  
http://www.taocaibang.com/job.php?mod=view&jid=65082
数码公社互动运营专员
ss
搜狐公司
公司类型:外资(欧美) 公司规模:500人以上 ss
发布时间 :2010-10-16 工作年限 :不限 工作方式 :全职 薪金待遇 :面议 性别要求 :不限 学历要求 :本科 招聘人数 :2 到期时间 :2010-11-15 户口要求 :无要求

W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
46.875ms