来自Google的Alon Halevy在麻省理工学院进行的“新英格兰数据库日(New England Database Day)”会议上承认:在管理“结构化数据”方面Google做得还不够好。Halevy所说的“结构化数据”指的是“深度网络(deep web)”——那些隐藏在表格和网站搜索框后边的网络资源,这些资源无法通过被动手段建立索引。
Google深度网络搜索的负责人Halevy称“表层网络(Shallow Web)”包含约500万个网页,而“深度网络”所包含的网页数是这个数字的500倍。目前这个隐藏的网络一部分通过Google的自动系统建立索引。系统向各种数据库发出检索请求,并为检索结果建立索引。也就是所谓的垂直搜索(vertical searching), 此外,Halevy还介绍了深度网络的另外两种类型:语义搜索和产品搜索。
Google希望从这些结构化表格中检索数据,就拿网页上列有美国总统的表格来说,网络上这样的表格大约有140亿个,并且经过过滤之后,大约有1.54亿个表格值得建立索引。
现在的问题依旧是Google现有的搜索技术能否满足深度网络检索的需求。Google搜索现在使用的是大表格(Big Table)数据库和MapReduce框架。Halevy列出了Google在分析数据库方面面临的一些挑战: 构架自动完成(schema auto-complete)、同义词发现、创建实体列表、实例和方面(aspect)之间的关联、以及数据级同义词发现。Infobright公司的技术已经解决了这些问题,但是“Google需要花大力气才能解决这些问题”。
此外Google还打算对查询数据的“方面(aspect)”进行管理。
Google的竞争对手雅虎也面临着同样的挑战。12月,雅虎宣布将在公司内部使用自己的SearchMonkey技术,自动提取网页中的结构化信息,从而让雅虎的搜索结果更加全面。
在深度网络搜索方面没有绝对的强者,但只要该领域内的领先者不是Google,人们不会轻易切换搜索引擎。毕竟Google已经成为了搜索的代名词。只有Google复制或者收购这项发明之后,人们才会买账。
但是,说Google不行还为时尚早。Google的领先地位是通过努力奋斗、聪明的员工以及技术创新得来的。毫无疑问他们在深度网络搜索方面也会有所建树。希望如此。
【本文翻译仅为外语学习及阅读目的,原文作者个人观点与译者及译言网无关】