分节阅读 4(1 / 1)

解你想要找什么吗?解答这个问题的一个方法是通过图林(turing)测试,这也许就是计算机处理的最高理想。

何为图林测试?它是英国数学家艾伦·图林(alanturing)于1950年在一篇开创性的论文中提出的。这篇文章中,图林提出了一个模型,用于测试一台机器是否是智能的。学术界对这种测试本身及其具体的操作规程一直争论不休,不过我们可以了解一下它大致的工作原理。我们先将一台问答器与一台机器和一个人分别连接起来。提问者并不知道哪端连着机器,哪端连着人。这名提问者要通过向两者提问来判断哪个是机器,哪个是人。如果一台机器可以骗过提问者,使其相信自己是人类,那么它就通过了图林测试,可以被认为是具有智能的。

图林预言,到2000年,计算机就能变得足够聪明,具备严肃挑战图林测试的实力。人们确实在认真和努力地尝试通过图林测试了,但是迄今为止,即使是计算机领域最优秀最聪明的人们也都没有能成功的通过这个测试。1990年,一位有钱的怪人--休·罗纳(hughloebner)出资一百万美元来奖励第一个通过这项测试的计算机。每一年,人工智能公司争先恐后地来争夺这笔奖金,然而,哪一年也没有人能把这笔钱带回家。

出现这种情况的原因非常多,不过一个非常大的可能性是,人们分析这个问题的思路是错误的。目前,参赛者们的重点都放在个体机器人研究上,他们将数百万种可能的问题回答序列编入这台机器人的程序中,希望它可以为每个可能的问题提供一个合理的答案。9这类尝试中最负盛名的成果是"cyc"(源于"encyclopedia"发音很像psych)。它是人工智能先驱道格·莱纳特(douglenat)毕生努力的结晶。cyc将成千上万条常识性的原则编入程序,这些原则包括山脉先上升后下降,山谷位于山头或山脉之间等等常识。然后,它在这些简单的原则基础之上构建一个坚固的模型。cyc试图通过这种方式来解决人工智能技术领域最致命性的问题。丝毫不令人惊讶,cyc设计的参与者,斯里尼贾·斯里尼瓦桑(srinijasrinivasan)成为了雅虎最早的雇员之一,并几乎从一开始就管理雅虎的以网页目录为基础的搜索产品。

目前所有单个组织的蛮干都失败了,而且它们将来成功的希望也非常渺茫。而搜索更有可能被智能化。通过巧妙地利用各种算法,开发和整合网络上业已存在的智能,也就是由数以百万计的程序处理,话语,行为以及链接这个构成网络的基石汇聚而成的人类意图数据库。归根结底,这是google起步的方式。如果真有一家公司能够宣称自己发明了智能化的搜索引擎,这家公司就是google。

希尔维斯通告诉我:"google同其它各家搜索企业的目标就是为人们提供有价值的信息。开篇第一个问题就是,要实现这个目标的话,搜索引擎是否必须达到人类的理解水平。我的答案是肯定的。"

这个世界需要什么?建立一家全方位解答这个问题的公司,你就能够揭开市场营销,商业运作甚至是人类文明领域(尽管对此人们还存有疑义)的众多未解之谜。过去几年中间,google似乎就建立起了这样一家公司。

第8节:早期的搜索1

作者:[美]约翰·巴特利

第三章

前google时代搜索

altavista不是第一个搜索引擎,可是,它处理搜索问题的方式却显著地改进了这项艺术。

--微软公司著名工程师加里·弗雷克(garyflake)博士

早期的搜索

一般认为,第一个网络搜索引擎的荣耀属于archie。这个前网络时代用户搜索程序是由麦吉尔(mcgill)大学的一名叫做艾伦·埃姆塔基(alanemtage)的学生在1990年发明的。1990年以前,搞学术和科研的人经常使用因特网来存储论文、技术规范和计算机上其他文件,以便他人可以通过公共途径获得这些文件。可是,除非你知道计算机的确切地址和文件名,否则根本不可能找到这些档案文件。archie所做的就是,捕获因特网上的所有档案文件(英语单词拼写是archive,因此程序叫做archie)然后为每个被找到的文件建立一个索引。

根据因特网的普通文件传输协议(ftp)标准,archie的体系结构同大部分的现代搜索引擎类似--捕获网络资源,建立索引,再提供一个搜索界面。不过,前网络时代不是一个用户界面友好的时代。只有真正的技术人员和搞学问的人在使用archie,不过在这些人中间它确实很受欢迎。一个典型的用户通过一个命令控制端口直接同archie服务器连接起来,然后向引擎发出查询请求。如果他们认为某些关键词在匹配的文件名中,就向archie发出包含这些关键词的查询请求,然后,会收到一张地址列表,说明某个匹配的文件可能被保存在这些地址。然后,他们再同这台机器建立连接,在上面查找自己想要找的文件。并不是非常好用,但总比什么都没有强。

archie这个名字里有奇异的吸引力,非常适合年轻的因特网。1993年,内华达大学的学生发明了veronica。这个名字是对漫画书上这对夫妇名字玩笑式的模仿。veronica的工作方式同archie大致相同,但是它采用的是gopher协议,而不是ftp。gopher协议是一个比ftp更成熟的,且被普遍使用的因特网文件共享标准。veronica使搜索更进一步接近我们目前对搜索的期待,因为gopher协议使搜索用户可以直接同他查询的文件建立连接,而不是仅仅同保存这个文件的计算机连接。步子不大,不过毕竟是进步。

第9节:早期的搜索2

作者:[美]约翰·巴特利

archie和veronica都缺乏语义功能,也就是说它们不能够索引文件全文,而只是索引文件名。这意味着,搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个"日程表",而文件的文件名是"今天的任务",那么你肯定找不到这个文件,即使实际上这个文件的第一个词就是"日程表"。随着网络的兴起,人们很快就不再使用archie和veronica了。

网络一出现,搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候,找东西的问题还只是局限在一定范围内。但是1993~1996年期间,网络上的网站数目从130激增到600000。马萨诸塞(massachusetts)技术学院的研究人员马修·格雷(matthewgray)一直在观察因特网的成长。作为一位先行者,他发明了最早的网络搜索引擎万维网wanderer。

格雷发现,人类的认识远远跟不上网络发展的步伐,wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道:"我编写wanderer的目的是让他系统性地在网络中来回移动,收集所有网站。鉴于网络成长迅速,我的重心很快转移到以图表记录网络的成长过程。

wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序,制作了一个方便用户查找所有这些索引的界面。格雷的wanderer程序还有一个之前人们没想到的作用。网络形成之初,频带宽度是一种稀缺资源。许多网站管理员都认为wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题,后来格雷对这个网页捕获器做了一些细微的改进,采用一种宽度算法,使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说:"这并非最好的搜索引擎,却是最早的。"

wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿(brainpinkerton)开发的webcrawler。平克顿是1994年在为史蒂夫·乔布(stevejob)的公司next工作时无意中发明webcrawler的。(像大多数先驱计算机公司一样,乔布公司的next机器及其开发的nextstep软件都领先市场水平五年左右。这家公司开发的许多项技术,包括内置以太网,高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。)当时,平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学,而他的工作任务是为nextstep操作系统开发新一代的网络浏览器,包括其内置的搜索功能。

平克顿渐渐对搜索技术,尤其是其中对网页进行索引的技术着了迷。这一步并不太难,就是让网页捕获器像网络浏览器那样提取url。平克顿创造出一个还处于雏形阶段的网页捕获器webcrawler,并开始用它索引网站。

当时,google的pagerank算法还未问世,不过,平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多,或者说,在其他站点上拥有最多的指向该站点的链接(用今天的话讲,就是最googlejuice)。排名第一的是cern的一个万维网项目的主页。gern是设在瑞士日内瓦的一所重要的原子物理实验室。

webcrawler在搜索引擎发展史上占据重要地位,因为是它开创了对网络文件进行全文索引的先河。1994年4月,平克顿把自己的这个课外发明上传到了网上。截至当年11月份,它接受的查询就多达一百万条。平克顿把这项发明称为"核武器设计和研究"。1995年6月,美国在线以100万美元的价格购买了webcrawler技术。当时,美国在线还没有任何同网络相关的资产。这次收购也预示着同搜索相关的收购战役即将打响。平克顿回忆说:"当时对于因特网将要变成什么样子,大家都茫然无知。"

webcrawler为网上冲浪者们,尤其是美国在线的用户,开启了一个新世界。它提供全文搜索服务以及简单的以浏览为基础的界面。自此,网络迈出了重要的一步,不再局限于学术研究人员和技术精英的圈子,而是进入了主流消费市场。

第10节:第一个真正好的搜索引擎

作者:[美]约翰·巴特利

第一个真正好的搜索引擎

因特网还是新生事物之时,整个网络上不过有区区1000万张网页,雅虎只不过是一组时髦的链接,而'google'不过是一个巨大的数字的错误拼写形式。这个时候,路易斯·莫尼尔(louismonier)只用一台计算机就可以装下整个网络。

对于altavista网站的建立有一个这样的传说:数字设备公司(dec)刚刚开发出来处理速度非常快的阿尔法处理机,正处心积虑想要找到一种方式来证明它的威力。信息技术商务市场的核心问题就是对巨型数据库的处理,dec需要一个庞大的数据库,在上面进行搜索。公司处境艰难,几乎没有什么好消息,所以期待出现一个公共关系天使,重塑其技术创新公司的形象,以鼓舞士气。dec设在加利福尼亚州帕洛阿尔托的western实验室的研究人员路易斯·莫尼尔建议开发一个搜索引擎:先把整个因特网这个巨大的数据库放到阿尔法计算机上,然后再开发一个程序来显示阿尔法速度的优越性(这就是搜索引擎了)。很快,altavista就诞生了,它的使命是证明dec公司在硬件生产领域的统治地位。然而,同大多数创业故事(我想到易趣的pezdispenser糖果贩子传奇1。)一样,这个故事仅道出了一半的事实。

"这完全是事后的推论!"路易斯·莫尼尔声明。在回忆altavista最初的日子的时候,莫尼尔从来不会含糊其辞。我们在帕洛阿尔托一家小咖啡馆喝咖啡时,他告诉我:"dec当时正陷入死亡漩涡。不管有多少东西,他们都能搞得一团糟。从莫内尔的名字可以看出来,他拥有法国血统,他的语调和说话方式都透出高卢式的轻蔑。"dec公司内没有人知道我在做什么。他们是错过机会的专家……他们只不过觉得这能够为所谓的硬件传奇提供佐证。"

事实上,dec内部有不少人意识到莫尼尔的工作的重要性,然而不幸的是,这些人大都供职于技术部门。altavista诞生的经过在不同的人的叙述中有不同的版本。20世纪90年代初管理d