搜索引擎工作原理是什么?知名的搜索引擎都有什么?

如题所述

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
知名的搜索引擎:国内的话就百度,360、搜狗、必应、神马,国外:谷歌,雅虎
温馨提示:内容为网友见解,仅供参考
第1个回答  2016-06-03
第一步:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
⒈提取文字
⒉中文分词
⒊去停止词
⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。
选择
与网站内容相关
搜索次数多,竞争小
主关键词,不可太宽泛
主关键词,不太特殊
商业价值
提取文字
中文分词
去停止词
消除噪声
去重
正向索引
倒排索引
链接关系计算
特殊文件处理
第2个回答  2016-06-03
搜索引擎的工作核心:以最快的速度展现给用户最有用的信息。
工作原理:通过蜘蛛爬行,抓取网站页面信息,存入数据库,通过预处理,把抓取的信息存入索引数据库,当用户搜索时通过匹配,把跟用户搜索最相关的信息展现给用户。本回答被提问者采纳

什么是搜索引擎?作用是什么?
工作原理 1.爬行:搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。2.抓取存储:搜索引擎是通过蜘蛛跟踪链接爬行到网页,...

搜索引擎的工作原理是什么?
搜索引擎的工作原理总共有四步:第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链 接,所以称为爬行。第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤...

搜索引擎的工作原理是什么,搜索引擎优化具体又该如何操作呢?
工作原理 1、抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2、处理网页 搜索引擎抓到网页后,还要做大量的预处理工...

搜索引擎的搜索原理是什么?
搜索引擎的工作原理:1、搜集信息 搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页连到其中的超链接,就像日常生活中所说的一传十,十传百,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上...

什么是搜索引擎工作原理?
搜索引擎的工作原理主要就是四个步骤:爬行,抓取,检索,显示。搜索引擎放出蜘蛛在互联网上爬行,目的是为了发现新的网站和最新的网页内容,从而经过搜索引擎特定程序分析后决定是否抓取这些信息,抓取后然后将其放到索引数据库中,顾客在搜索引擎网站上检索信息时,就会在结果页上出现与检索词相关的信息,并...

搜索引擎的工作原理是什么?
首先,爬行阶段:搜索引擎通过专用软件,按照特定的链接规律,像蜘蛛一样从一个网页链接跳转到另一个网页,这个过程称为爬行。其次,抓取与存储:爬行过程中,搜索引擎会抓取网页内容并将其存储在原始页面数据库中,以便后续处理。接着,预处理:对抓取的页面,搜索引擎会进行一系列预处理,包括解析、清理、...

搜索引擎的工作原理是什么
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中有,网站数据库,就是动态网站存放网站数据的空间。索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。简单的来说,就是把【抓取】的网页放进数据库。3.分析检索服务 搜索...

全文搜索引擎的工作原理是什么?
一、搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。 全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络...

搜索引擎的工作原理是什么?
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出"蜘蛛"程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些...

搜索引擎的工作原理是什么?
搜索引擎原理概述 搜索引擎是帮助用户查找所需内容的计算机程序,通过匹配用户的信息需求与计算机中存储的信息,将匹配结果展示给用户。搜索引擎的工作流程包含网络爬虫和索引两个关键步骤。网络爬虫不停向网站发送请求,获取网页内容,并将其存储在本地服务器。爬虫通过网页间的链接进行遍历,不断收集网络信息...

相似回答