搜索引擎是怎么工作的?简析搜索引擎的基本工作原理
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的网络系统。通俗地说,搜索引擎就是指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。
Google目前被公认为是全球规模最大的并且也是最受欢迎的搜索引擎,据统计,截止2013年,谷歌的全球市场份额在60%以上,是搜索引擎的代表。国内搜索引擎老大百度则排在第二位,占全球市场份额的10%左右,雅虎排第三,占5%左右。排在第四的是来自俄罗斯的Yandex搜索,份额为3左右%。微软的必应搜索被挤到第五位,份额为2.5%。
目前世界上拥有其独立的搜索引擎的只有4个国家,他们分别是美国(Google)、中国(Baidu)、俄罗斯 (Yandex)、韩(Naver),其余的国家所使用的搜索引擎均是Google。
搜索引擎是怎么工作的?搜索引擎的基本工作原理包括以下三个步骤:首先在互联网中发现、搜集网页信息,紧接着对信息进行提取和组织建立索引数据库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,并对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库。其他还包括去除重复网页、判断网页类型、分析超链接、计算网页的重要度和丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页,为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
前面我们提到了一个词“超链接分析”,百度总裁李彦宏是这项技术的唯一持有人,而且该技术已经被全世界的各大搜索引擎普遍采用了。我们如何来理解超链分析技术呢? 简单来讲,判断某个网页是否优秀或者权威,其它的页面的“意见”是非常重要的。即便一个网页并不那么优秀,但是只要其他网页对它的“信任投票”(反向链接)超过了其它页面,那么它的排名也会靠前,甚至排名第一。 比如,在阿里巴巴(www.alibaba.com)的网站上,整个网站都没有“国际站”这个词的出现,但是它在“国际站”这个词的排名上却非常好,原因就是阿里巴巴旗下的数量庞大的网页都给了它一个“信任投票”(锚文本)。 需要注意的是,“超链分析”只是排名的一个重要参考,但不是唯一参考。
相关热词搜索: 搜索引擎是怎么工作的,搜索引擎的基本工作原理