2017年全球最赚钱企业排行榜第15。2018年BrandZ全球最具价值品牌100强第4位。2018世界品牌500强第4位。2019福布斯全球数字经济100强榜排名第2位。Interbrand全球品牌百强排名第四位。2020年《财富》全球最受赞赏公司榜单第3位。2020福布斯全球企业2000强榜第13位。福布斯2020全球品牌价值100强第3位。2021福布斯全球企业2000强第15位。

2021年6月23日，微软市值突破2万亿美元，是继苹果之后美国第二家市值突破2万亿美元的企业。

微软必应（英文名：Microsoft Bing），原名必应（Bing），是微软公司于2009年5月28日推出，用以取代Live Search的全新搜索引擎服务。为符合中国用户使用习惯，Bing中文品牌名为“必应”。作为全球领先的搜索引擎之一，截至2013年5月，必应已成为北美地区第二大搜索引擎，如加上为雅虎提供的搜索技术支持，必应已占据29.3%的市场份额。2013年10月，微软在中国启用全新明黄色必应搜索标志并去除Beta标识，这使必应成为继Windows、Office和Xbox后的微软品牌第四个重要产品线，也标志着必应已不仅仅是一个搜索引擎，更将深度融入微软几乎所有的服务与产品中。在Windows Phone系统中，微软也深度整合了必应搜索，通过触摸搜索键引出，相比其他搜索引擎，界面也更加美观，整合信息也更加全面。

2020年10月6日，微软官方宣布Bing改名为Microsoft Bing 。

3.Yahoo!（雅虎搜索引擎）

www.search.yahoo.com

雅虎（英文名称：Yahoo，NASDAQ：YHOO）是美国著名的互联网门户网站，也是20世纪末互联网奇迹的创造者之一。其服务包括搜索引擎、电邮、新闻等，业务遍及24个国家和地区，为全球超过5亿的独立用户提供多元化的网络服务。同时也是一家全球性的因特网通讯、商贸及媒体公司。雅虎是全球第一家提供因特网导航服务的网站，总部设在美国加州圣克拉克市，在欧洲、亚太区、拉丁美洲、加拿大及美国均设有办事处。雅虎是最老的“分类目录”搜索数据库，也是最重要的搜索服务网站之一。

雅虎有英、中、日、韩、法、德、意、西班牙、丹麦等12种语言版本，各版本的内容互不相同。提供目录、网站及全文检索功能。目录分类比较合理，层次深，类目设置好，网站提要严格清楚，网站收录丰富，检索结果精确度较高。

2015年雅虎已成为“全球第三大移动广告公司”。2016年7月25日，美国电信巨头Verizon（威瑞森）以48亿美元收购雅虎核心资产。2016年9月22日，美国雅虎公司承认，这家企业与至少5亿用户相关的信息遭人窃取，涉及用户姓名、电子邮箱、电话号码、出生日期和部分登录密码。失窃事件发生在2014年下半年，失窃信息取自雅虎网络系统。2017年10月，雅虎再次宣布所有30亿用户个人信息被泄露。2018年12月，世界品牌实验室发布《2018世界品牌500强》榜单，雅虎排名第322。

最早的Yahoo！是一家网址导航网站，但随后推出的搜索引擎也获得了不小的市场份额，月独立访客达到4.9亿。

主推：网页资讯音乐图片车票博客人物等分类搜索。

界面优化

基于用户的反馈，雅虎的搜索结果页采取了固定的三栏式设计：最左边是查询词优化区，例如，网页搜索的相关搜索词，图片搜索的图片大小选择，音乐搜索的音频文件格式选择等，这个区域的作用是帮助用户对结果进行进一步筛选的。中间的区域就是主结果区域，在返回网页搜索结果时，根据需要，雅虎捷径（Yahoo! Shortcuts）也会在最上面，直接提供给用户查询“答案”，比如：股票价格或者手机归属地查询。最右边是相关内容区，基于用户查询词智能返回相关的其他搜索内容，省去用户使用多个搜索产品的烦恼。

更加智能

相对雅虎搜索旧版，新版本在算法上加强了对用户输入关键词的自动识别，返回结果不是简单的整合，而是分析不同的词，展示不同的结果，并且对右侧的相关内容结果模块进行了排序。比如，你在搜索隐形的翅膀的时候，会发现右侧优先出现《隐形的翅膀》的音乐，因为全能搜索会判断这个词为一首流行的歌曲；同样，搜索风景壁纸的时候，右侧栏则出现图片的搜索结果。

人物搜索

新版本的人物搜索功能提供了围绕知名人物的丰富信息，包括网页、博客、资讯、人物关系等。这其中，人物关系是雅虎使用网络挖掘技术来改进搜索体验的尝试，相比传统的搜索结果，它更像是基于搜索技术的信息深加工产品。如果你对明星之间纷纷扰扰的关系感兴趣？现在通过人物关系就可以了如指掌。试一试周杰伦的关系圈是什么样子？

热点捕捉

通过互联网来关注热点资讯，已经成为网友生活中必不可少的一部分。现在，通过全能搜索，也可以在搜索结果页及时看到热点资讯。例如，如果你想了解刘翔夺冠的详细信息，试一下全能搜索，刘翔的个人信息、人物关系、最新的夺冠资讯会全部展现在你的面前。

4.Baidu（百度搜索引擎）

www.baidu.com

全球最大的中文搜索引擎。

百度搜索是全球领先的中文搜索引擎，2000年1月由李彦宏、徐勇两人创立于北京中关村，致力于向人们提供“简单，可依赖”的信息获取方式。 “百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句：“众里寻他千百度”，象征着百度对中文信息检索技术的执著追求。

2017年11月，百度搜索将推出惊雷算法，严厉打击通过刷点击，提升网站搜索排序的作弊行为；以此保证搜索用户体验，促进搜索内容生态良性发展。

搜索发展：

最开始百度是以Google为蓝本开发的，通过多年努力，现在的百度已经摆脱了当年Google的影子。百度以自身的核心技术“超链分析”为基础，提供的搜索服务体验赢得了广大用户的喜爱。

海量网页库

百度拥有全球海量的中文网页库，截至2010年收录中文网页已超过200亿，这些网页的数量每天正以千万级的速度在增长；同时，百度在中国各地分布的服务器，能直接从最近的服务器上，把所搜索信息返回给当地用户，使用户享受极快的搜索传输速度。

服务范围广

作为全球领先的中文搜索引擎，百度每天响应来自100余个国家和地区的数十亿次搜索请求，是网民获取中文信息的最主要入口。

5.Ask Jeeves搜索引擎

www.ask.com

Ask Jeeves搜索引擎是国外比较出名的一款搜索引擎，是支持自然提问的搜索引擎。Ask Jeeves是人工操作目录索引，规模不大，但很有特点。与其他关键词搜索引擎不同，Ask Jeeves被设计成回答用户提问的自然语言引擎。搜索时，它首先给出的是数据库中可能存在的答案，然后才是网站链接。

Ask Jeeves曾是著名搜索引擎DirectHit（2002年4月被关闭）的母公司，在2001年年末收购了全文搜索引擎Teoma并与之进行整合后，其搜索能力得到了进一步的加强。　2003年，搜索引擎界发生了一系列兼并和重组，目前除Yahoo搜索集团和Google外，Ask Jeeves成为硕果仅存的，拥有自主技术的独立一线全文搜索引擎。

ASK.COM简介 AskJeeves公司创立于1996年6月．总部设在加州桑尼维尔，旗下的www.ask.corn是ASK公司的旗舰站。由加勒特Gruener和大卫Warthen，并于1997年推出的AskJeeves。

6.DuckDuckGo搜索引擎

www.duckduckgo.com

DuckDuckGo是一个很特殊的网络搜索引擎，它和Google、Bing 这些不一样，它不会追踪、搜寻用户的信息，这对用户来说可以安个心了。

DuckDuckGo是一个互联网搜寻引擎，其总部位于美国宾州Valley Forge市。

DuckDuckGo强调在传统搜寻引擎的基础上引入各大Web 2.0站点的内容。其办站哲学主张维护使用者的隐私权，并承诺不监控、不记录使用者的搜寻内容。

DuckDuckGo搜索引擎发展历史：

DuckDuckGo的创始人是盖布瑞·温伯格，一名本科与硕士皆毕业于麻省理工学院的实业家，其资金来自温伯格以一亿美金售出的Names Database公司。尽管DuckDuckGo在刚刚创建时完全由温伯格个人支付支出，现在的网站会不时打出一些广告以支持其花费。它的搜索引擎是由Perl写成的，并以nginx在FreeBSD上运行。创始人温伯格目前亦不时在美国费城进行天使投资。

当被问及一直被形容作“愚蠢”的命名时，温伯格如此解释：“说实在地它就是某天突然灵光一闪出现在脑海，而且我很中意。它当然是源自，或说受到Duck Duck Goose（某游戏名称，主要盛行于孩童间）的影响，但是除此之外没有其他的关联了，比如说：隐喻。”

DuckDuckGo流量统计数据是公开的在2011年内，平均每日访问量达到200,000。其他数据来源，Competecom估计2011年三月的访问量大约是191,904。2011年4月13日， Alexa 显示DuckDuckGo前三个月的增长率达到了51%。

在TechCrunch上，DuckDuckGo被认为是Elevator Pitch Friday的一部分，在BOSSMashable 挑战赛中，DuckDuckGo进入了决赛圈。

2010年6月，盖布瑞·温伯格启动了DuckDuckGo社区网页让大众报告使用问题，讨论如何推广搜索引擎，寻求新功能以及讨论开源代码。

2011年10月 Union Square Ventures注资DuckDuckGo。 Union Square 合作伙伴 Brad Burnham 说，“我们注资DDG，是因为我们相信只有它有能力改变搜索引擎之间的竞争的依据，现在正是时候（it was time to do it）"

2011年11月，Linux Mint 与 DuckDuckGo 签立了一份独家合约，DuckDuckGo 将成为 Linux Mint 12 之默认搜寻引擎。

功能：

DuckDuckGo主要基于各大型搜索服务商（比如Yahoo! Search BOSS）的APIs，因此，TechCrunch 认为DuckDuckGo是一个“混合”搜索引擎在使用别的搜索引擎的API时，DuckDuckGo也会提供自己的内容页，就像Mahalo，Kosmix 和 SearchMe这些网站一样。

游戏规则：

我们投资DuckDuckGo，不仅是因为我们相信它能改变整个领域的游戏规则，更是因为搜索引擎领域正迫切需要这样的改变。

——Brad Burnham，DuckDuckGo 投资者

DuckDuckGo 的突出优势，主要体现在两个方面，一方面是对用户隐私的严格保护，另一方面则是对传统搜索引擎结果呈现方式的改进和优化，以在用户体验上形成自己的特色。

隐私保护：

搜索引擎不可避免地会收到执法机关的各种交出数据的要求——而我不愿上交任何数据。

——Gabriel Weinberg, DuckDuckGo 创始人

传统搜索引擎为了优化搜索结果，必须对用户数据进行尽量全面的收集和分析，这是对用户隐私的一种侵犯。而DuckDuckGo 则成功地避开了这样的缺陷。在 DuckDuckGo 的隐私政策中非常明确的声明网站不会记录用户的浏览器 UA、IP 地址、搜索行为等任何相关数据，默认情况下也不会使用 Cookie 来记录数据。此外，DuckDuckGo 还对用户点击搜索结果后跳转到目标网页的过程进行了重定向处理，目标网站无法获知用户是通过输入哪些搜索词跳转到自己的网站。这进一步保护了用户的隐私安全。同时，DuckDuckGo 鼓励用户使用 Firefox 浏览器的强制 https 扩展和 Tor 匿名网络等方式来保护自己的隐私，而 DuckDuckGo 自身也运营着一个 Tor 的跳出节点，以便用户在使用相对速度较慢的 Tor 匿名网络时也能够快速而安全地访问 DuckDuckGo 进行搜索。

个性化：

越来越多的用户最终会选择DuckDuckGo，不仅是因为它对隐私的全面保护，更是因为它拥有更好的体验。

——Gabriel Weinberg, DuckDuckGo 创始人

为了满足用户个性化的需求而在一定程度上损害用户的隐私权是传统搜索引擎的无奈之选。而DuckDuckGo 则努力在坚持全面保护隐私的同时满足用户的个性化需求。为此，DuckDuckGo 在传统的索引和返回网页结果之外，更为注重直接向用户传递权威结果，逐渐形成了自己独特的功能特性。

展示信息：

在生活中，用户很多时候对搜索引擎的使用需求仅仅是为了解决一个疑问，或者查询一点生活信息，这类细小的搜索需求产生量非常大。对于这类搜索请求，DuckDuckGo 可以精准地识别出需求类型，并直接完成运算或调取数据，使用户无需跳转到对应网站进行二次查询，而是直接在 DuckDuckGo 的结果页面上获得所需信息。

这样的服务不仅包括各大搜索引擎普遍具有的各种计算、换算、号码归属地查询、时区查询等，还包括大批独特的服务，例如：查询事实性问题：林肯哪天遇刺？人有多少块骨头？一便士硬币有多重？两只鸡蛋含有多少卡路里热量？……

时间、地区类问题：伦敦今天何时日出？今天会下雨么？北京现在几度？…… 用户可以用自然语言进行查询，而不需要切割关键词。

生活信息查询：《星球大战》电影怎么样？谢耳朵爱喝的那个Cuba Libre 鸡尾酒怎么调？………

编程类问题：Perl 的 Hello World 怎么写？将一个字符串用 base64 编码？随机生成一个 16 位的字符串？…… 在人人都是程序员的今天，这样的快速查询工具显得非常实用。

常用信息：各种Public DNS 地址？lorem ipsum 占位符全文？颜色代码对照表？ASCII 码表？

DuckDuckGo 中的很多这类服务都是通过自然语言进行的。用户只需要在搜索框中用自然语言提出一个问题，就可以直接在结果页面最上方得到解答，用户的问题都在这个页面上直接解决，而没有必要再从结果页面上跳转到其他网站进行二次查询。

7.Aol搜索引擎

www.search.aol.com

美国在线旗下搜索引擎网站。Aol Search的搜索技术服务是由谷歌提供的。因为它的搜索技术是由Google提供的，但实际上，它是美国在线旗下的一家搜索引擎网站，月独立访客量大约有2亿人。

美国在线(America Online)，2000年至2009年期间是美国时代华纳的子公司，著名的因特网服务提供商。在2000年美国在线和时代华纳(Time Warner)宣布计划合并，2001年1月11日该交易被联邦贸易委员会(Federal Trade Commission)证实。合并及以后的运作的信息见时代华纳。该企业品牌在世界品牌实验室(World Brand Lab)编制的2006年度《世界品牌500强》排行榜中名列第一百三十九。

美国在线服务(AOL)公司:总部设在弗吉尼亚州维也纳的一家在线信息服务公司，可提供电子邮件、新闻组、教育和娱乐服务，并支持对因特网访问。美国在线服务(AOL)公司是美国最大因特网服务提供商之一。

2015年5月11日，Verizon宣布44亿美元收购美国在线。

企业简介：

AOL 美国在线服务(AOL)公司：总部设在弗吉尼亚州维也纳的一种在线信息服务公司，可提供电子邮件、新闻组、教育和娱乐服务，并支持对因特网访问。美国在线服务(AOL)公司是美国最大因特网服务提供商之一。于1998年收购著名即时通讯软件ICQ，网络浏览器 Netscape，媒体播放器Winamp，但却有人士认为AOL是软件厂商的"百慕大"（详情见火狐浏览器）。2000年美国在线服务(AOL)公司与媒体巨人华纳时代公司合并，旨在扩展品牌内容服务以及通信服务的大众市场，合并后的公司形成了一个通信和媒体大公司，这个大公司拥有因特网最大用户群体，并有娱乐、出版和有线电视领域的广泛基础，并且在宽带接入方面有真广大的客户群，曾经是世界第一大ISP。近来由于业绩不佳，曾多次传出被微软、谷歌收购，与雅虎合并等负面新闻。目前已经拥有AOL中文（chinese.aol.com），AOL中国（cn.aol.com），AOL香港（www.aol.hk），AOL台湾（www.aol.tw）等多个处于测试期的中文门户网站。另有媒体报道AOL入主中国失败于2009年3月关闭了其位于北京的研发中心。

重要历程：

美国在线(American Online），是美国时代华纳的子公司，著名的因特网服务提供商。在2000年美国在线和时代华纳（Time Warner）宣布计划合并，2001年1月11日该交易被联邦贸易委员会（Federal Trade Commission）证实。合并及以后的运作的信息见时代华纳。该企业品牌在世界品牌实验室（World Brand Lab）编制的2006年度《世界品牌500强》排行榜中名列第一百三十九。

创始人：

概述：

“美国在线”创始人——史蒂夫·凯斯

1958年8月，凯斯出生在美国夏威夷的火奴鲁鲁，父亲是一名声名显赫的律师，母亲是一名教师，所以家境比较富裕。

背景：

在家里排行老三的凯斯从小就表现出了极强的商业天赋。当他还是个孩子的时候，凯斯便和哥哥丹一起开了个名叫“凯斯企业”的小公司。公司的主要业务是挨家挨户地推销一切凯斯能搞到的东西，最好是免费的，从花籽到手表到圣诞卡。这是他最早的营销经验，虽然利润很小，但因为有了市场，也能赚到一些钱。

技术

在中学和学院里，凯斯并不是成绩优秀的学生。他大部分功课成绩平平，在四年级时有一门课叫计算机101，他觉得这门课太烦闷，极不耐烦整天检验程序的运行。凯斯对电路更是不感兴趣，他不关心元件是如何工作的，只关注它们能派什么用场。因为他认为，技术只是解决问题的一种手段。

兴趣：

1976年，凯斯来到了位于美国东北部的马萨诸塞州威廉斯学院，因为当时学院没有开设营销课程，他便选择了政治学。几年下来，他对政治倒是没产生多大的兴趣，他最喜欢的还是市场。这时，他读了阿尔文·托夫勒的《第三次浪潮》，这本书预言未来世界的机器能够互相交流，他对此充满了向往。他的兴趣开始从小玩意转向交互电子学。

1980年，凯斯从学校毕业了，因为对媒体的向往，他去纽约的广告和媒体公司求职，其中包括时代公司的有线电视公司以及家庭票房影院，但却遭到了拒绝。然后，他把眼光投向了宝洁，但宝洁也没有录用他。为此，凯斯自己花钱去宝洁总部，凭借自己的毅力，争取到了一次面试机会。

品牌经理：

凯斯的这种牛劲使他获得了世界著名快速消费品公司美国P&G宝洁助理品牌经理的位置，他开始为一种护发素做营销负责，但2年之后，依然没有任何成功，他又一次失败了，这是他成年后在市场上学到的第一个重要教训：产品不行，市场推销做得再好也无用。1982年，他跳槽到了当时PEPSI百事旗下的YUM 百胜餐饮旗下的必胜客，干的也是市场推销，比萨饼尽管好吃，可卖起来十分不易。

个人计算机：

在这期间他开始迷上了个人计算机，当时，他花了几千美元买了一台很原始的KAYPRO家用电脑和一盘第一代的电脑只读光盘，费了九牛二虎之力，才将这台不怎么灵光的电脑和一家叫作SOURCE公司提供的网络服务连接。凯斯当时能做到的也只是收发文件，但这让他十分激动。他后来回忆说：“这简直是将神奇变为现实。”要知道，当时大部分美国人还不知道个人电脑是何物，但凯斯已经是个十足的网虫了。入夜时分，他常常躲进自己的斗室，沉浸在计算机世界中。

8.Яндекс搜索引擎

www.yandex.com

Yandex是俄罗斯的一款搜索引擎，这家搜索引擎创建于1997年，目前是俄罗斯最大的搜索引擎，它的功能也已经从单一的搜索引擎功能渗透到了网络支付、社交、网站运维与托管等周边服务。

Yandex（俄语：Яндекс，中文：燕基科斯，NASDAQ：YNDX）是一家俄罗斯互联网企业，旗下的搜索引擎在俄国内拥有逾60%的市场占有率，同时也提供其他互联网产品和服务。Yandex目前所提供的服务包括搜索、最新新闻、地图和百科、电子信箱、电子商务、互联网广告及其他服务。数据显示，Yandex是目前世界第五大搜索引擎：在2012年4月，平均每日的搜索量超过1.5亿次；5月份，每日访客（包括搜索以外的业务）超过2550万。Yandex在俄罗斯本地搜索引擎的市场份额已远超俄罗斯Google。

Yandex的主页Yandex.ru是俄罗斯访问量最高的网址，同时也在白罗斯、哈萨克斯坦、乌克兰和土耳其运营，而且吸引着超过5600万其他国家的用户使用。

基本信息

公司名称 Yandex

外文名 Яндекс

成立时间 1993年

总部地点俄罗斯莫斯科

经营范围互联网搜索引擎

母公司 IADInvestments

创始人 Arkady Volozh, IIya Segalovich

现任CEO Arkady Volozh

产业互联网

产品搜索引擎、网络广告

官网 https://www.yandex.ru/

历史

Yandex的共同创始人与首席执行官，阿卡迪·沃罗兹。

伊亚·塞加洛维奇，任Yandex首席技术官。

关于Yandex的前身可以追溯到1990年阿卡迪·沃罗兹和阿卡迪·波卡维斯基创建了阿卡迪公司，专门开发微软DOS用于对专利和产品分类。他们的软件产品可以支持俄语的语法进行全文搜索。三年后，阿卡迪公司被收购，但依旧在从事搜索技术的开发，并发布了可在圣经和俄文著作中进行搜索的软件。

1993年，阿卡迪·沃罗兹同老同学伊亚·塞加洛维奇一起开发了一款新的搜索引擎，决定用“Yandex”来命名。1997年9月23日，域名为yandex.ru的搜索引擎上线，并在莫斯科softool展览上公开亮相。2000年，沃罗兹成立了独立的Yandex公司。公司的收入主要来自于在线广告业务。1998年，Yandex推出搜索引擎的文本关联广告；2001年又推出Yandex.Direct关键词广告。

2005年9月，Yandex公司在乌克兰开设了办公室并设立了一个乌克兰门户网站。2007年5月，公司在基辅开设了研发中心，又在乌克兰推出本土化的搜索引擎。为了拓展在乌克兰的业务，一年后Yandex公司多次提升乌与莫斯科数据中心之间的带宽。

2011年5月，Yandex于美国纳斯达克进行首次公开募股，市值上涨至130亿美元。这也成为了2004年Google公司上市以来网络公司最大的一次融资活动。

同年9月，Yandex公司在伊斯坦布尔开设办公室并推出针对土耳其市场的搜索引擎和其他一系列互联网服务。

2013年10月，Yandex公司收购了俄罗斯最大的电影搜索引擎KinoPoisk。

2014 年 3 月，Yandex收购了以色列地理定位初创公司 KitLocate，并在以色列开设了研发办公室。同年 6 月，Yandex以 1.75 亿美元收购了汽车在线市场和分类广告网站 Auto.ru。

2015年12月，Yandex收购互联网安全公司Agnitum。

2017年11月24日，Uber和Yandex同意合并他们在俄罗斯的打车业务。Uber将对合资公司投入2.25亿美元，占股36.6%，Yandex将投资1亿美元，占股59.3%，而余下4.1%由员工持有。

2017 年 12 月，Yandex收购了外卖公司 Foodfox。

2018 年 2 月 7 日，优步和 Yandex NV 合并了他们在俄罗斯、哈萨克斯坦、阿塞拜疆、亚美尼亚、白俄罗斯和格鲁吉亚的业务。优步投资了2.25亿美元并拥有该合资企业 36.6% 的股份，而 Yandex投资了1亿美元并拥有59.3%的股份。

2020年4月20日，由于俄罗斯发生 Covid-19大流行，Yandex宣布将向莫斯科及其周边地区的所有居民免费提供家庭冠状病毒检测服务，并将在未来向其他地区提供。此前，它宣布于4月16日推出该服务。

现状

根据用户数量统计，Yandex搜索是现时最大的俄语搜索引擎，索引了超过100亿个网页，市占率超逾64%。Yandex搜索在俄罗斯国内的主要竞争对手包括Google、Mail.ru和Rambler等。尽管Google、雅虎等搜索巨头都有俄文界面，提供俄语搜索，依旧未能撼动其在俄罗斯的市场地位，Google在俄罗斯的市场份额为21.9%。Yandex也由此与百度、NAVER一同跻身非英语国家的主流搜索引擎行列。

9.webcrawler搜索引擎（网络爬虫）

www.webcrawler.com

网络爬虫WebCrawler属于一家元搜索引擎，它的功能主要是将Google的搜索结果、Yahoo！的搜索结果以及其他搜索引擎的搜索结果统一显示在一个页面中，帮助用户完成同一个搜索关键词在不同搜索引擎中的搜索结果对比。

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎（Search Engine），例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

（1）不同领域、不同背景的用户往往具有不同的检索目的和需求，通过搜索引擎所返回的结果包含大量用户不关心的网页。

（2）通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

（3）万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

网络爬虫

（4）通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫（general purpose web crawler）不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

聚焦爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

（1）对抓取目标的描述或定义；

（2）对网页或数据的分析与过滤；

（3）对URL的搜索策略。

分类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

通用网络爬虫

通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。由于商业原因，它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。

通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

（1）深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

（2）广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面。

聚焦网络爬虫

聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

（1）基于内容评价的爬行策略：DeBra将文本相似度的计算方法引入到网络爬虫中，提出了 Fish Search 算法，它将用户输入的查询词作为主题，包含查询词的页面被视为与主题相关，其局限性在于无法评价页面与主题相关度的高低。 Herseovic对 Fish Search 算法进行了改进，提出了 Sharksearch 算法，利用空间向量模型计算页面与主题的相关度大小。

（2）基于链接结构评价的爬行策略：Web 页面作为一种半结构化文档，包含很多结构信息，可用来评价链接重要性。 PageRank 算法最初用于搜索引擎信息检索中对查询结果进行排序，也可用于评价链接重要性，具体做法就是每次选择 PageRank 值较大页面中的链接来访问。另一个利用 Web结构评价链接价值的方法是 HITS 方法，它通过计算每个已访问页面的 Authority 权重和 Hub 权重，并以此决定链接的访问顺序。

（3）基于增强学习的爬行策略：Rennie 和 McCallum 将增强学习引入聚焦爬虫，利用贝叶斯分类器，根据整个网页文本和链接文本对超链接进行分类，为每个链接计算出重要性，从而决定链接的访问顺序。

（4）基于语境图的爬行策略：Diligenti 等人提出了一种通过建立语境图（Context Graphs）学习网页之间的相关度，训练一个机器学习系统，通过该系统可计算当前页面到相关 Web 页面的距离，距离越近的页面中的链接优先访问。印度理工大学（IIT）和 IBM 研究中心的研究人员开发了一个典型的聚焦网络爬虫。该爬虫对主题的定义既不是采用关键词也不是加权矢量，而是一组具有相同主题的网页。它包含两个重要模块：一个是分类器，用来计算所爬行的页面与主题的相关度，确定是否与主题相关；另一个是净化器，用来识别通过较少链接连接到大量相关页面的中心页面。

增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集]。

增量式爬虫有两个目标：保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标，增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容，常用的方法有：（1）统一更新法：爬虫以相同的频率访问所有网页，不考虑网页的改变频率；（2）个体更新法：爬虫根据个体网页的改变频率来重新访问各页面；（3）基于分类的更新法：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页。

为实现第二个目标，增量式爬虫需要对网页的重要性排序，常用的策略有：广度优先策略、PageRank 优先策略等。IBM 开发的 WebFountain是一个功能强大的增量式网络爬虫，它采用一个优化模型控制爬行过程，并没有对页面变化过程做任何统计假设，而是采用一种自适应的方法根据先前爬行周期里爬行结果和网页实际变化速度对页面更新频率进行调整。北京大学的天网增量爬行系统旨在爬行国内 Web，将网页分为变化网页和新网页两类，分别采用不同爬行策略。为缓解对大量网页变化历史维护导致的性能瓶颈，它根据网页变化时间局部性规律，在短时期内直接爬行多次变化的网页，为尽快获取新网页，它利用索引型网页跟踪新出现网页。

10.WolframAlpha搜索引擎

www.wolframalpha.com

与其他搜索引擎不同，WolframAlpha其实是一个计算知识引擎，它真正的创新之处在于能够马上理解问题，并给出答案。它可以进行各种算术，还有数据分析，物理，艺术等等各个行业的查询。

比如你查询一个城市，它会出来和这个城市相关数据，它在地图上显示位置，人口，机场，著名的公司，它就像一个只能的机器人，你想知道有关一个东西的所有信息，它都能告诉你。

WolframAlpha是开发计算数学应用软件的沃尔夫勒姆研究公司开发出的新一代的搜索引擎，能根据问题直接给出答案的网站，于2009年5月15日晚7点（美国中部当地时间，北京时间5月16日上午8点）提前上线，用户在搜索框键入需要查询的问题后，该搜索引擎将直接向用户返回答案，而不是返回一大堆网页链接。

它是基于Wolfram 早期旗舰产品 Mathematica，一款囊括了计算机代数、符号和数值计算、可视化和统计功能的计算平台和工具包开发的。其数据来源包括学术网站和出版物、商业网站和公司、科学机构等等，例如中央情报局出版物《世界概况》、康奈尔大学图书馆出版物《All About Birds》、《Chambers Biographical Dictionary》、道琼斯公司、CrunchBase、百思买、美国联邦航空管理局、美国地质调查局等。

原理概述

WolframAlpha 的标识

按照发明者Stephen Wolfram的说法，这个网站其实是一个计算知识引擎，而不是搜索引擎。其真正的创新之处，在于能够马上理解问题，并给出答案。在被问到“珠穆朗玛峰有多高”之类的问题时，WolframAlpha不仅能告诉你海拔高度，还能告诉你这座世界第一高峰的地理位置、附近有什么城镇，以及一系列图表。

要是问“什么是升D大调”，WolframAlpha可以把它演奏出来；倘若输入“抛10次，4次正面向上”，WolframAlpha可以猜到，你其实是想知道抛硬币的概率问题。甚至连某地下一次日食的时间，或者国际空间站当前的位置，WolframAlpha都能给你答案。

如此看来，WolframAlpha已经向语义网的终极目标迈进了一大步。因为无论是谷歌，还是百度，能够给你的都只是一堆网页链接，而WolframAlpha给你的是针对问题的有效答案。最起码，在搜索引擎的“过滤器”功能方面，这种方式可以节省用户的大量时间和精力。输入WolframAlpha的搜索词可以不是语法上完整的句子或词组，只需要包含关键词，WolframAlpha可做自动联想，实现了“模糊语义识别”，例如搜索北京到上海的距离，不需要在搜索框中输入“北京到上海的距离”，只需要输入“距离北京上海”三个关键词。WolframAlpha也可以从输入中判断搜索词的性质，例如输入“Li + H2O ->”，WolframAlpha可以自动判定化学方程式的反应结果和配平，并直接给出最终答案。

类似技术

与WolframAlpha走在同一个方向上的，还有声音搜索引擎Midomi。在这个用来搜歌的引擎中，只要哼得出调子，便可以找到自己喜欢的歌曲。与文字输入框不同的是，Midomi的搜索框是一个录音按钮；用来查询的，不是文字，而是声音。当然，Midomi还没有进化到直接用语音问问题，然后返回答案的境界，不过未来，这大有可能。

工作原理

不同于搜索互联网信息，Wolfram|Alpha将从公众的和获得授权的资源中，发掘、建立起一个异常庞大的经过组织的数据库，再利用高级的自然语言算法进行处理，最终构造出一个类似于谷歌搜索的工具。

使用方法

使用体会

在读写网的测试中，他们搜索了“欧洲的互联网用户”这个关键词，在Wolfram|Alpha的结果页面中，不仅显示用户的总数，还有序的提供了各个国家的各种数据以及各种图表。他们测试的另一个复杂的查询语句是“叔叔的叔叔的兄弟的儿子”（uncle's uncle's brother's son）。在谷歌上搜索，出现的一堆无用的网站清单甚至没有一个是具体回答这个问题的，但在Wolfram|Alpha上，则会返回一份家谱，包括血缘关系部分的数据（对于该关键词，给出的数据是3.125%）

Wolfram|Alpha同时也拥有先进的物理、化学、营养学等各个科目的知识和普查的数据，实时的金融数据和天气信息等将通过一个系统来检验数据的有效性。

使用方法

Wolfram|Alpha将提供免费和付费两个版本，除了普通的搜索使用，它还允许用户下载和上传数据。在付费版中，用户还能下载生成图表所用到的数据。

用户不仅可以将Wolfram|Alpha的搜索框嵌入到自己的页面上，也能将搜索结果嵌入以及定制其接口，当结果有变化时，用户也能及时收到网站的电子邮件通知。

其他细节信息：

·每个结果页面都会提供出计算该结果所用到的资源链接。

·如果存在争议，会提供注释说明。

·仅提供英文版。

·资金来源：侧边栏将显示关键词广告，考虑与其他搜索引擎等公司合作。

·将提供Firefox和IE工具栏。

·每个结果页面也会显示来自传统搜索引擎的结果（如谷歌、Yahoo、Live等），还会提供相关的维基百科的链接。

该搜索引擎上线时间为2009年5月15日晚7点（美国中部当地时间，北京时间5月16日上午8点）。