百度SEO搜索引擎原理的各种算法
搜索引擎检索和需求
1,搜索引擎基本要求:毫秒级快速反应,匹配相关结果。
2,搜索引擎:一个大型网络应用软件,分布式计算,高效的索引和存储技术。 (搜索引擎大部分时间是高效的索引和存储技术,而不是天天跟seo对着干)
3,搜索引擎的目的:为用户提供相关网页或者其他信息(新闻,视频)
4,匹配:以某种形式包含有检索词的网页或其他信息。并产生一个列表,也就是排序,我们最关心的。
5,用户输入都是无规则的简单的:简单意味着抽象,抽象意味着有更多的可能性(举例:苹果,手机,黄色)搜索结果丰富多样
6,搜索引擎为什么给出相关搜索还有下拉框?
7,用户行为:找到为止,不是所有的都看一遍,用户查询东西基本不会超过2页,所以搜索引擎要在2页中显示尽可能多的可能性。(举例:seo,数据库查询)
网页收集
1,[free]数据(实时还是预先收集)预先收集好
2,蜘蛛(负责的工作) 蜘蛛就是下载网页的一个小程序
3,调度(提高效率) 控制蜘蛛捉什么、多久捉一次页面等等
4,定期收集还是增量收集 搜索引擎是会定期收集,就是大更新,增量收集是根据每个网站的更新速度
5,搜索引擎大更新周期(一个月?15天?) 具体没统计,不知道
6,种子站点(枢纽页面) 搜索引擎是先从种子站点优先开始抓取的,种子站点就是有大量指向高质量网站的站点比如“好123”网址
7,深度优先/广度优先 深度优先就是首页-栏目页-内容页,直接往深捉,广度优先就是先把栏目页捉完才抓内容页
8,搜索引擎采用的抓取机制 robots规则,一般虚拟主机后台添加就行,淘宝就是限制百度蜘蛛捉取,淘宝有足够的骄傲
9,搜索引擎的更新机制(更新快照) 让搜索引擎认为是原创或伪原创可加快更新
10,sitemap(网站地图)增加收录的好东西 适合网站信息很大,收录少的网站,网站地图就让蜘蛛在一个页面发现大量URL,作用就是吸引蜘蛛深度捉取
11,实行新(搜索引擎/自己的数据库)尽量,搜索引擎无法保证,所以有时候改了网站的标题和摘要,也不会马上显示出来再互联网上。
预处理
网页预处理的大致过程:
1,关键词的提取(去除噪音) 噪音就是网页中不重要的版块,与网站主题不相关,比如广告之类,通常都用框架和JS调用
2,切词,去除停止词 切词网址(参考):zyan.cc/demo/httpcws/; 停止词就是语气词,基本互联网上都出现的词
3,镜像网页的消除(完全相同) 镜像网页就是两个页面一模一样,所以设置好伪静态后,要用robots文件把动态url禁止掉
4,转摘(额外少量编辑,称为近似镜像网页) 搜索引擎会把这些过滤掉(垃圾页面),转摘非常不利于SEO优化
5,链接的分析(记录链接位置,相关性,锚文本) 定义有效的链接:标准的a标签;会计算这个链接跟当前页面的相关性,不相关就会被容易列为噪音版块
6,网页重要度计算(被应用的多就是重要的) 被引用得多就是重要的,也就是外链(其中一个因素)
7,建立索引 正排索引(页面到关键词) 倒排索引(关键词到页面)
查询接口
预处理后得到的网页表现形式
1,原始页面,url,标题;看不到的:文档编号,关键词集合和权值位置信息(词位),其他一些指标 原始网页就是你的网页打不开了,但是百度快照是可以打开的,这个就是原始页面
2,网页重要度 被多小个网页引用
3,网页类别(导航,需求,信息) 导航类别查询:比如记不住网址,去百度搜索找官方网站这样子,比如“QQ下载”就是需求型;信息就是比如搜索“SEO是什么意思”之类
4,查询词处理(切词,获取分类,排序) 搜索引擎可以进行切词,然后组合关键词同时出现的就是用户搜索需求页面
5,全文索引(不局限于标题)
6,pr算法 就是做排名,SEO
7,文档摘要(动态摘要)