说不清楚SEO的爬取收录和索引？智优营家帮你小-朗创网络营销

你是如何去学习做seo优化的呢？入门第一步是什么还记得吗？是不是去买一本关于“seo优化”的书籍去看，发现一开始就会讲到的基础概念，让你云里雾里，想要强记下来发现完全不能理解？

大多数没人带想自学的朋友都会有这样一个痛苦的开始。而来智优营家的新人，我们一般都是安排这些新人从写文章开始，先写再讲概念，培训的时候也会多次提到这些概念结合优化技巧来讲。再翻基础书籍的时候，才会清楚里面讲的究竟是些什么，而且你会发现，不同的阶段看同一本书，感受会完全不一样，这就是“温故而知新”了。

但在这期间也会有新人不按常理出牌，觉得我会这些技巧就行了，为什么还要去理解概念呢？

原因很简单，概念是技巧描述的总结和浓缩，它的一个字或两个字就会代表一个操作。现在您问身边的优化人员，爬行是什么？抓取是什么？索引是什么？收录是什么？他能描述的清楚吗？

当然，并不是说说不清楚就代表他优化能力不行，而是他的“输出”能力不行，也就是不会总结。总结的越精辟也代表他对这块业务的理解更深刻。那么今天，智优营家就带你来重温这些基础概念，希望能给初学者和没有“输出”想法的朋友提个醒。

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL，然后沿着链接发现新页面（也就是链接指向的URL）的过程。当然，蜘蛛并不是发现新URL马上就爬过去抓取新页面，而是把发现的URL存放到待抓地址库中，蜘蛛按照一定顺序从地址库中提取要抓取的URL。

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面，和用户浏览器访问一样，也会在服务器原始日志中留下记录。

索引指的是将一个URL的信息进行整理，存入数据库，也就是索引库，用户搜索时，搜索引擎从索引库中提取URL信息并排序展现出来。

也就是说，蜘蛛没有访问和抓取这个页面（比如被robots文件禁止抓取），这个页面却有信息存在索引库中，用户搜索时还能看到。

比如，淘宝整个网站用robots文件禁止百度蜘蛛抓取，但没有用noindex禁止索引，所以即使百度没有访问和抓取淘宝页面，但淘宝很多页面是被百度索引的，用户可以搜到的：

百度从网上那么多链接知道淘宝首页的存在，通过链接的锚文字也知道这个页面标题大概是淘宝之类的，当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝首页，用户还是能搜到，并且显示一些百度知道的信息。

要想百度不能返回淘宝首页该怎么办呢？取消robots文件的禁止抓取，页面上用noindex禁止索引。

最常见的就是上面说过的，页面头信息使用noindex禁止索引，页面被抓取，读到noindex后，不被索引，不会在搜索结果中返回。老页面新加noindex也不是马上删除索引，还会保留索引一段时间，但不会返回在搜索结果中。

加了noindex的页面上的链接是可以被跟踪一段时间的，但时间长了，有noindex的页面搜索引擎可能就不再抓取和索引了，上面的链接也就无效了。

还有可能是因为页面内容是抄袭、转载、低质量的，搜索引擎虽然抓取了页面，索引过程中检测出这些内容问题，被丢弃，没有被索引。所以页面没有被收录，通常要先检查原始日志，看看是否被抓取过，如果被抓取过，可能是内容质量问题，如果根本没被抓取，建议先看看网站结构是否有问题。

说了这么多，是不是晕了？别晕别晕，这些对于你做seo优化的时候会有很多帮助的，不要以为一个概念是句废话，实际上是经过前人不停试验出的总结，最难的是那些没有定义的地方，你无法判定是对是错。

好了，今天的小结就在这了，明天我们详解一下收录和索引对网站优化的影响，敬请期待吧~

帮助企业通过短视频稳定获客