搜索引擎的工作原理

　　所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。这是搜索引擎的名词解释，而用普通的讲法就是利用脚本、蜘蛛、爬虫（程序）来收集用户需要的东西，那他是如何工作的呢？且听我分析。
　　搜索引擎工作原理分为三大块，分别是网页收集、预处理、检索服务。
　　一、网页收集，蜘蛛、脚本利用链接来爬行抓取网页，在互联网茫茫多的信息中，我们伟大的脚本一刻不停收集信息，这里收集的信息是所有的互联网信息，他们都被存储在原始数据库中，你在网上所看到的所用的信息都被我们脚本收集过，这才使我们的互联网多样化（这段可能写的不对，如果不对就当玩笑）
　　二、预处理，这是搜索引擎中最重要的，我将把我的生活故事当成一种例子来解释，玩游戏有些东西需要付钱，而我很穷，没办法需要网上下破解版（感谢百度网盘和3D轩辕汉化组，他们为我们这些白嫖党做出了不朽的贡献），那我就去浏览器搜索下载，当我在搜索框搜索游戏的时候（例如魔兽争霸可以在哪下载？），此时我们的脚本蜘蛛就以2毫秒（1000毫秒等于1秒）的速度开始了工作，他开始从收集数据的原始数据库找到我想要的信息，以超强的检索能力进行6项工作，预处理。（1）文字提取，去除一切东西，只要关于我搜索游戏的网页，这样我搜魔兽就不会跳出明星等无关的什么的。（2）中文分词，忽略我们问题中的一切语气助词甚至符号，那就检索成魔兽争霸下载。（3）去除重复页面，相同的内容只会给一个给你，不会有重复，而且倾向于最先的。（4）计算网页重要度，他会选择被链接最多的网页和原创。（5）建立索引，使我们搜索的关键词就是魔兽与我想要的网页里的数据建立联系。（6）分析链接，继续抓取。我们的蜘蛛完短短时间内成了这一切。
　　三、检索服务。完成了预处理以后反馈给索引数据库，然后通过我搜索的问题里的关键词在之前的索引数据库中找到并计算它的排名，然后反馈给我，就有了我搜索后浏览器给了我想要（可能）的网页，所以一般搜破解版总得往下面翻一下，因为往往第一个是官方的。
　　这就是我理解的搜索引擎的工作过程（可能有误）。搜索引擎是伴随互联网的发展而产生和发展的，互联网已成为人们学习、工作和生活中不可缺少的平台，几乎每个人上网都会使用搜索引擎。

文章目录