seo剖析搜索引擎结构

发布于2023-05-26 17:12:57 阅读

课程大纲：
1、什么是SEO

SEO是英文Search Engine Optimization的缩写，中文译为“搜索引擎优化”。简单地说，SEO是指从自然搜索结果获得网站流量的技术和过程。更严谨些的定义可以表述为：SEO是指在了解搜索引擎自然排名机制的基础上，对网站进行内部及外部的调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量，从而达成网站销售及品牌建设的目标。

在某种意义上说，SEO是网站、搜索引擎及竞争对手三方博弈的过程。做SEO，虽然不需要细致了解搜索引擎的技术细节，但理解搜索引擎的基本工作原理是必需的，不然只能是知其然，而不知其所以然，不能从根本上理解SEO技巧。理解了搜索引擎原理，很多看似“新”的问题都可以迎刃而解。

SEO效果并不仅仅取决于对搜索算法的理解和自己对网站的优化水平，还会受竞争对手情况显著影响。在某些行业，获得搜索排名和流量大部分是有地位、有实力、有SEO高水准的公司网站，即使SEO水平再高，也不一定能战胜这样的竞争对手，因为SEO是综合实力的竞争。

SEO的研究对象是搜索引擎结果页面上的自然排名部分，与付费的搜索广告没有直接关系。以前搜索结果页面右侧主要是放付费广告的地方，自然搜索结果显示在页面左侧，所以SEO又有百度左侧排名、Google左侧排名等说法。

网站的最终目标是完成转化，达到直接销售、广告点击或品牌建设的目的。SEO、排名、流量都是手段。SEO是网络营销的一部分，遇到与用户体验、业务流程等有冲突时，一切以完成最多转化为最高原则，切不可为SEO而SEO。

2、SEO的优势与劣势

1、成本低

利用seo来给网站做优化，不仅提升网站的排名，还能增加搜索引擎的友好度。企业除支付相关人员的费用外，一般不需要投入其它费用，所以成本很低。

2、通用性强

大连seo人员通过对网站机构、布局、内容、关键词等要素的合理设计，让网站符合搜索引擎的规则。虽然有很多搜索引擎，但你只要做好百度所搜引擎优化，其它的搜索引擎排名也会跟着提高。

3、稳定性好

正常情况下，只要是正规方法优化的网站，排名都会比较稳定。只有搜索引擎算法更改或者竞争对手更有优势，才会让网站出现比较大的变化。

4、公平性

在搜索引擎中，所有网站展示机会都是均等的，需要企业公平的竞争排名。搜索引擎不是根据网站的规模、知名度来作为排名的依据，而是综合多方面的因素，这样就给网站提供了一个公平竞争的环境。

5、有效规避无效点击

有些企业为了增加知名度而选择付费推广，这种点击收费的推广方式，会遭到同行业的恶意点击，让你的费用迅速用完。而利用seo技术优化的网站就不会出现这种问题，同行业点击的越多，对网站越有利，可以增加搜索引擎的友好度，进而提升网站的排名。

劣势分析

1、见效慢

因为seo需要人工来做的，不会立刻收到效果的。一般来说，从开始优化到关键词有排名需要1至3个月左右，如果是竞争激烈的关键词，可能需要更长的时间。

2、被动性

网站和搜索引擎是一种被动排名关系。网站的优化需要符合搜索引擎规则，这样才能让网站的排名靠前。搜索引擎的规则不是一成不变的，它会不定期的修改算法，将更好的内容展示给用户。因此，需要对网站的优化进行相对应的调整，以应对各种变化。

3、不确定性

只能通过专业人士来对网站进行优化，无法保证重要性的关键词需要多久能排在首页。另外，网站在搜索引擎的排名受到多种因素的综合影响，有可能出现优化后排名没有提升的情况。

3、搜索引擎的结构
搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将按照与搜索关键词的相关度高低（或与相关度毫无关系），依次排列。
搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。
1）搜索器，也叫网络蜘蛛，是搜索引擎用来爬行和抓取网页的一个自动程序，在系统后台不停歇地在互联网各个节点爬行，在爬行过程中尽可能快的发现和抓取网页。
2）索引器。它的主要功能是理解搜索器所采集的网页信息，并从中抽取索引项。
3）检索器。其功能是快速查找文档，进行文档与查询的相关度评价，对要输出的结果进行排序。
4）用户接口。它为用户提供可视化的查询输入和结果输出的界面。

4、蜘蛛爬行策略
1、深度优先（策略）：一直往前爬，直到没有链接，再返回第一层爬向下一个入口
2、广度优先（策略）:先把这一层所有入口爬完，再爬下一层。
3、吸引蜘蛛：
1）搜索引擎认为重要的页面爬行深度高，会有更多页面被收录 2）页面更新度，有规律
3）、导入链接数量0（导入到自己网站页面的链接）
4）、与首页点击距离
5）、c结构(链接比较好)
4、地址库：为了避免重复查询或抓取网址，搜索引擎会建立一个地址库记录已经被发现、但还没被抓取的页面，以及被抓取的页面。
1）来源、人工录入的种子网站。
2）、蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据库相比，如果是地址库中没有的网址，就存入待访问的的地址库。
3）、站长通过搜索引擎页面提交表格提交进来的网址
4）、站长通过XML网站地图、站长平台提交的网址

5、页面更新策略
一个网站的网页经常会更新，作为爬虫方，在网页更新后，则需要我们对这些网页进行重新爬取，而如何把握恰当的爬取时间呢，若网站更新过慢，则必然会增加爬虫与网站服务器的压力，而如果更新较快，但是爬虫间隔时间较长，那么爬取的内容版本则会过老，不利于新内容的爬取。所以要把握好网站更新频率与爬虫访问网站的频率越接近越好。特别是在我们爬虫资源有限的时候，此时爬虫也需要根据对应策略，让不同的网页具有不同的更新优先级，优先级高的网页更新，将获得较快的爬取响应。常见的网页更新策略主要有3种：用户体验策略、历史数据策略、聚类分析策略。

6、蜘蛛常见的类型

一、批量型蜘蛛

咱们不太清楚这蜘蛛类型的名字是怎么区分的，咱也不知道，咱也不敢问。首先这个批量型蜘蛛就很容易让人产生误解，以为批量就不会有限制，但是实际上批量型蜘蛛是有限制的。限制主要有三点：1、限定抓取数量；2、限定抓取时间；3、限制抓取固定网站的固定内容。看到这限制的内容，大家可能会想要一些采集类的工具，其实就是批量型蜘蛛的原理。

那么想到我们那个工人摘果子的比喻，批量型蜘蛛的限定条件就可以对应果园老板告诉工人：1、要摘过1000个水果；2、要摘够八个小时的水果；3、要把38号果树的果子摘完。

二、增量型蜘蛛

增量型蜘蛛可以理解为给批量型蜘蛛增加量了，具体就是不会有关于数量、时间、内容范围的限定，会一直抓取下去，直到把互联网中的内容抓完为止（以目前采集和伪原创的“努力”，抓完是不可能抓完的了），增量型蜘蛛除了负责抓取新页面还要负责老页面的再次抓取，以便及时的做出页面的更新和删除。增量型蜘蛛也是目前搜索引擎主要的蜘蛛类型。

那么这种类型的蜘蛛对比到摘果子的过程，就是果园的老板告诉工人，需要无休止的进行摘果子，没有时间、数量、目标的限制，而且不光要进行摘果子，还要查看是不是有果子漏摘了，或者摘完的果子坏掉了，进行及时的处理。

三、垂直型蜘蛛

垂直型蜘蛛可以理解为限定了爬取内容的增量型蜘蛛，需要和批量型蜘蛛进行区别的是，垂直型蜘蛛限制的并不是数量、时间，限定的是爬取的内容，或者说爬取页面的类别，对于不符合类别的页面将会直接丢弃，但是垂直型蜘蛛也会在这个类别中无限的爬取下去。

7、如何辨别真假蜘蛛

方法一、真假百度蜘蛛工具鉴别

1、首先用excel打开网站日志文件，然后筛选出属于spider的IP 2、然后进入在线免费工具，然后选择免费百度蜘蛛真假查询工具 3、复制百度蜘蛛IP(搜索引擎蜘蛛IP)，黏贴到工具框，点击查看分析，就能鉴别出百度蜘蛛IP真假

方法二、nslookup指令鉴别】

1、打开电脑中的“运行”，输入【cmd】命令，打开【命令提示符窗口】

2、然后输入--【nslookup ip地址】，然后就会出现相关结果，

如果结果中出现：baiduspider-IP地址.crawl.baidu.com，那么这就是真蜘蛛IP；如果结果中出现：ns5.gd.cnmobile.net 找不到 IP地址：Non-existent domain,那么这就是假蜘蛛IP；

以上就是本课程的全部内容，如需要视频版教程请联系博主！

搜索引擎结构

本文系作者个人观点，不代表本站立场，转载请注明出处！

上一篇: seo起源搜索引擎发展史与方向

下一篇: seo优化关键词挖掘与筛选技巧

seo剖析搜索引擎结构

相关文章

seo起源搜索引擎发展史与方向

seo优化技巧之网站TDK的写法

seo剖析搜索引擎结构

seo优化关键词挖掘与筛选技巧

关于我

友情链接

联系博主