搜索引擎工作原理详细解读。|天天日报

来源：兴义之窗发表日期：2023-06-16 19:54:04

搜索引擎的工作过程大体上可以分成三个阶段:（1）爬行和抓取（2）预处理（3）排名

(资料图片仅供参考)

爬行和抓取

1.蜘蛛：搜索引擎用来爬行和访问页面的程序被称为蜘蛛 spider)，也称为机器人 bot)。蜘蛛访问任何一个网站时,都会先访问网站根日录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或日录，蜘蛛将遵守协议，不抓取被禁止的网址。

2.跟踪链接：最简单的爬行遍历策略分为两种，一种是深度优先，另一种是广度优先。所谓深度优先，指的是蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。广度优先是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，是把页而上所有第一层接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三页面。

3.吸引蜘蛛：网站的页面权重高、质量高。资格老的网被认为权重比较高，这种网站被爬行的深度也会比较高，另外吸进蜘蛛的条件是页面更新频率、原创、导入链接、与首页的距离。

4.地址库：地址库中的 URL 有几个来源: （1）人工录入的种子网站，（2）蜘蛛抓取页面后，从 HTML 中解析出新的链接 URL，（3）站长通过搜索引擎网页提交表格提交进来的网址。

5.文件存储：搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML 是完全一样的。每个URL 都有一个独特的文件编号。

6.爬行时的复制内容检测：遇到权重很低的网站上大量转袭抄袭内容时。很可能不再继续爬行。这也就是有的站长在日志文件中发现了频练，面从来没有被真正收录过的原因。

预处理

1.提取文字：搜索引擎预处理首先要做的就是从 HTML，文件中去除签、程序，提取出可以用于排名处理的网页面文宁内容。

2.中文分词：中文分词方法基木上有两种，一种是基于词典匹配，另一种是基干统计

3.去停止词：页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”“地”,“得”之类的助词,“啊”“哈”“呀”之类的感叹词，“从而”“以”。“却”之类的副词或介词。这些词被称为停止词。

4.消除噪声：消噪的基本方法是根据HTML标签对页面分块，区分头部、导航，正文、页脚、广告等区域，在网站中重复出现的区块往往属于噪音。

5.去重：搜索引擎希望只返回相同的章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程称为“去重”。

6.正向索引：搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式。

7.倒叙索引:搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的射转换为关键词到文件的映射。

8.链接关系计算

9.特殊文件处理：除了HTNL 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT 文件等。

排名

1.搜索词处理:(1)中文分词,(2)去停止词,(3)指令处理, (4)拼写错误娇正, (5)整合搜索触发.

2.文件匹配：搜索词经过处理后，搜索引擎得到的是以词为基础的关键词集合。

3.初始子集的选择：找到包含所有关键词的匹配文件后，还不能进行相关性计算，因为找到的文件经常会看几万几百万。甚至上千万个。要对这么多文件实时进行相关性计算。

4.相关性计算:(1)关键词常用程度。(2)词频及密度。(3)关键词位置及形式。(4)关键词距离。(5)链接分析及页面权重。

5.排名过滤及调整：选出匹配文件子集、计算相关性后，大体排名就已经确定了。

6.排名显示：所有排名确定后，排名程序调用原始贞面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要，而不是调用页面本身的说明标签。

7.搜索缓存：用户搜索的关键词有很大一部分是重复的。按照 2/8 定律，20%的搜索词占到了总搜索次数的 80%。

8.查询及点击日志：搜索用户的IP 地址、搜索的关键词、搜索时间，以及点击了哪些结果页面，搜索引擎都记录形成日志

本文来自：大连黑白字母网络 www.heibaizimu.com (网站建设，小程序开发，SEO，APP开发，短视频运营)