1. 云裂变
  2. 营销
  3. 网站运营
  4. 云裂变告诉你,搜索引擎原理详解

云裂变告诉你,搜索引擎原理详解

作者: 日期:2017-08-14 人气:273

搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。根据自己的优化程度,获得相应的名次。接下来就听听来自云裂变的分享。

原理概述

在搜索引擎的后台,有一些用于搜集网页信息的程序。所收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语。接着将这些信息的索引存放到数据库中。

搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验,也针对万维网数据和用户的特点进行了许多修改,如右图所示的搜索引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似,但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整,以适应处理数据和用户查询的需要。

工作原理

爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎蜘蛛(Spider)发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。

建立索引

蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

排序

对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。

再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有seo的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

数据结构

搜索引擎的核心数据结构为倒排文件(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询。 与传统的SQL查询不同,在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)。

全文搜索引擎

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

内容标签:

热门文章

    现在很多企业都着手于做重庆seo排名,因为SEO是获取精准流量比较稳定且长期发展好的方式之一,同时也能提升自身企业的品牌形象,因为SEO本身就是基于用户体验优化而做的,因此做好SEO

6770

网络营销时代,软文营销已成为企业传播品牌、促进订单转化的重要手段。不同于硬广形式,软文营销的精华就在于“软”字,即广告绵里藏针,要在能提供给用户有价值内容的基础上进行广告

 文库营销指的是借助一些文库平台上传文档,通过知识分享来做品牌营销,目前常见的文库平台有百度文库、360图书馆、道客巴巴、豆丁文库等。文库营销对文档质量要求较高,需要用户自

网站对于很多的企业来说,不仅仅是业务的渠道拓宽,也是多一个网站推广的途径和客户渠道等,很多的企业虽然有自己的网站,但是重视程度不够,很多的企业都只依靠网站就能够养活一个公

3240

企业品牌推广对于企业的生存来说是极其重要的,如果没有一个好的推销渠道的话,可能就会让自己的商品卖不出去。在新闻中总是看到哪儿有什么产品卖不出去了,形成滞销,让个人或是企业

3198

一方面,不同客户的建站需求不同;另一方面,网站建设人员的技术水平高低不一;同时,时效、地域因素也会对建站成本有所影响。所以网站建设的报价暂时没有统一标准,建设费用更是从几

3017

最先剖析要散播的目的客户人群的陋习与话动范畴; 精心安排合乎网民爱好的论坛推广时件或话动; 积淀论谈有关社交圈子資源,会对进行论坛推广出示挺大适用; 搞好数据分析,以知道论坛推广的成功失败之举,加以改进。

人们常常会遇上有些人做论坛推广的当时,以便能短期内内看到作用,就在每个论谈网站上注冊很多的id,花两三天的時间就把各大论坛上贴的浓浓的全是软广,可是隔过段时间回来看,以前公布的全部贴子都被删的干净整洁,情况严重将会注冊的id也被封的干净整洁,而针对这类人只有说成爱好者的论坛推广技巧了。在进到这一议论以前,人们看一下自身是不是存有那样的难

在互联网高速发展的今天,在众多同行品牌的强势竞争下,新品牌想要打开市场并不是一件容易的事儿。但不推广就难以生存,那么我们应该如何做好新品牌推广,快速打开市场?云裂变徐国

2921

一个生产企业想要发展必须要创立自己的品牌,在人们购买东西讲究牌子的今天,如果你所生产的产品连个牌子都没有,恐怕会无人问津的。但是,有了品牌,对于小公司来说若是得到消费者的

2897

现在的推广营销方式与以前比起来可是多了不少,放在以前也就是还没有网络的时侯,商品商家和生产厂家想要把自己生产的和自己销售的产品或是商品成功推销出去那可就得想想办法了。比如

2892

说起网络营销,让人们想起了网上购物,比如在刚过去的520,就是一波网购的热潮,各种打折促销返利活动让许多人心动,看花了眼。又比如每年的双11、在双12的网上促销活动可谓是一年之内

2848

很多企业在官网搭建完成之后,便放任不管,既不更新内容、也不做任何的排名优化,最后网站没排名、没流量、没访客;即使有排名、有流量导入,但是跳出率极高,依然产生不了任何效益。

2832

随着网络营销、全网覆盖等口号喊得越来越响,现在有不少的企业做网络营销都是被同行带起来的,本质上对网络营销推广的作用都了解不多。那么网络推广好在哪?为什么一定要做好网络推广

论坛推广就是,企业利用论坛这种网络交流的平台,通过文字、图片、视频等方式发布企业的产品和服务的信息,从而让目标客户更加深刻地了解企业的产品和服务。最终达到企业宣传企业的品牌、加深市场认知度的网络营销活动。1、电子公告板(BBS)是虚拟网络小区的要素方法,小量的交流信息全是历经BBS进行的,vip历经贴到消息也许回应消息抵达互相联系的目地。一些简

受互联网大趋势影响,很多传统企业纷纷着手布局网络营销,考虑到企业自身在营销经验上有欠缺,不少老板会选择找全网营销外包公司合作,这个时候就会出现很多选择难题。比如说找了10家

2773

随着社会的发展和人们消费观念的改变,现在人们的消费已经从单纯的商品能使用消费阶段到了商品品牌消费阶段了。在进行商品购买时总是看商品的品牌,就拿一些年轻人来说吧,对于耐克、

2761

百科营销是一种以权威知识分享的形式对企业做有目的性的品牌宣传,可以有效提高潜在客户对企业品牌或产品服务的信任度及认可度,最终达到提升企业品牌知名度美誉度的双重作用。那么百

护肤品作为当下大受女性追捧的快消品,行业竞争激烈,且更新换代尤其迅速。那么如何在如此变幻莫测的市场竞争中占领高地呢?这自然少不了大面积的营销推广(包括线上和线下),下面全

一、前端seo代码优化注意事项1、提高页面加载速度。CSS可以用来解决不使用背景图片的问题,也可以尝试压缩背景图片的大小,你可以在一张图片上放置几个图标,使用CSSsprite,使用背景位置

2643

最新文章