1. 云裂变
  2. 营销
  3. 网站运营
  4. 搜索引擎工作原理,顺义SEO公司告诉你

搜索引擎工作原理,顺义SEO公司告诉你

作者: 日期:2017-08-01 人气:122

搜索引擎的核心技术架构,大体包括以下三块,第一,是蜘蛛/爬虫技术;第二,是索引技术;第三是查询展现的技术; 当然,我不是搜索引擎的架构师,我只能用比较粗浅的方式来做一个结构的切分。那么我们该怎么更好的理解呢,下面就由顺义seo公司来给我们讲解吧!

1、 蜘蛛,也叫爬虫,是将互联网的信息,抓取并存储的一种技术实现。

搜索引擎的信息收录,很多不明所以的人会有很多误解,以为是付费收录,或者有什么其他特殊的提交技巧,其实并不是,搜索引擎通过互联网一些公开知名的网站,抓取内容,并分析其中的链接,然后有选择的抓取链接里的内容,然后再分析其中的链接,以此类推,通过有限的入口,基于彼此链接,形成强大的信息抓取能力。

有些搜索引擎本身也有链接提交入口,但基本上,不是主要的收录入口,不过作为创业者,建议了解一下相关信息,百度,google都有站长平台和管理后台,这里很多内容是需要非常非常认真的对待的。

反过来说,在这样的原理下,一个网站,只有被其他网站所链接,才有机会被搜索引擎抓取。如果这个网站没有外部链接,或者外部链接在搜索引擎中被认为是垃圾或无效链接,那么搜索引擎可能就不抓取他的页面。

2、索引系统

蜘蛛抓取的是网页的内容,那么要想让用户快速的通过关键词搜索到这个网页,就必须对网页做关键词的索引,从而提升查询效率,简单说就是,把网页的每个关键词提取出来,并针对这些关键词在网页中的出现频率,位置,特殊标记等诸多因素,给予不同的权值标定,然后,存储到索引库中。

索引系统除了分词之外,还有一些要点,比如实时索引,因为一次索引库的更新是个大动静,一般网站运营者知道,自己网站内容更新后,需要等索引库下一次更新才能看到效果,而且索引库针对不同权重的网站内容,更新的频次也不太一样。 但诸如一些高优先的资讯网站,以及新闻搜索,索引库是可以做到近似实时索引的,所以我们在新闻搜索里,几分钟前的信息就已经可以搜索到了。

3、查询展现

用户在浏览器或者在手机客户端输入一个关键词,或者几个关键词,甚至一句话,这个在服务端,应答程序获取后处理步骤如下

第一步,会检查最近时间有没有人搜索过同样的关键词,如果存在这样的缓存,最快的处理是将这块缓存提供给你,这样查询效率最高,对后端负载压力最低。

第二步,发现这个输入查询最近没有搜索,或者有其他条件的原因必须更新结果,那么会将这个用户输入的词,进行分词,没错,如果不止一个关键词,或者是一句话的情况下,应答程序会又一次分词,将搜索的查询拆成几个不同的关键词。

第三步,将切分后的关键词分发到查询系统中,查询系统会去索引库查询,索引库是个庞大的分布式系统,先分析这个关键词属于哪一块哪一台服务器,索引是一种有序的数据组合,我们用可以用近似二分法的方式思考,不管数据规模多大,你用二分法去查找一个结果,查询频次是log2(N),这个就保证了海量数据下,查询一个关键词是非常快非常快的。 当然,实际情况会比二分法复杂很多,这样说比较容易理解而已,再复杂些不是我不告诉大家,是我自己都不是很清楚呢。

第四步,不同关键词的查询结果(只是按权值排序的部分顶部结果,绝对不是全部结果),基于权值倒序,会再汇总在一起,然后把共同命中的部分反馈回来,并做最后的权值排序。

记住,搜索引擎绝对不会返回所有结果,这个开销谁都受不了,百度也不行,google也不行,翻页都是有限制的。

再记住,如果你多个关键词里有多个不同品类冷门词,搜索引擎有可能会舍弃其中一个冷门词,因为汇总数据很可能不包含共同结果。搜索技术不要神话,这样的范例偶尔会出现。

这是三大部分,多说一点,其实还有第四部分。

用户点击行为采集和反馈部分

基于用户的翻页,点击分布,对搜索结果的优劣做判定,并对权值做调整,但这个早期搜索引擎是没有的,后面才有,所以暂时不列为必备的三大块。

此外,一些对搜索优化的机器学习策略,对易混词识别,同音词识别等等,相当部分也都基于用户行为反馈进行,这是后话,这里不展开。

关于第四部分,点击提权,我说这个词价值千金,我猜很多人并没理解。没理解就好,要不我要被一些同行骂死了。

以上是单指搜索引擎的工作原理,和一些技术逻辑,当然,只是入门级的解读,毕竟再深入就不是我能讲解的了。

内容标签:

热门文章

    现在很多企业都着手于做重庆seo排名,因为SEO是获取精准流量比较稳定且长期发展好的方式之一,同时也能提升自身企业的品牌形象,因为SEO本身就是基于用户体验优化而做的,因此做好SEO

6921

网络营销时代,软文营销已成为企业传播品牌、促进订单转化的重要手段。不同于硬广形式,软文营销的精华就在于“软”字,即广告绵里藏针,要在能提供给用户有价值内容的基础上进行广告

 文库营销指的是借助一些文库平台上传文档,通过知识分享来做品牌营销,目前常见的文库平台有百度文库、360图书馆、道客巴巴、豆丁文库等。文库营销对文档质量要求较高,需要用户自

网站对于很多的企业来说,不仅仅是业务的渠道拓宽,也是多一个网站推广的途径和客户渠道等,很多的企业虽然有自己的网站,但是重视程度不够,很多的企业都只依靠网站就能够养活一个公

3400

企业品牌推广对于企业的生存来说是极其重要的,如果没有一个好的推销渠道的话,可能就会让自己的商品卖不出去。在新闻中总是看到哪儿有什么产品卖不出去了,形成滞销,让个人或是企业

3353

一方面,不同客户的建站需求不同;另一方面,网站建设人员的技术水平高低不一;同时,时效、地域因素也会对建站成本有所影响。所以网站建设的报价暂时没有统一标准,建设费用更是从几

3183

最先剖析要散播的目的客户人群的陋习与话动范畴; 精心安排合乎网民爱好的论坛推广时件或话动; 积淀论谈有关社交圈子資源,会对进行论坛推广出示挺大适用; 搞好数据分析,以知道论坛推广的成功失败之举,加以改进。

人们常常会遇上有些人做论坛推广的当时,以便能短期内内看到作用,就在每个论谈网站上注冊很多的id,花两三天的時间就把各大论坛上贴的浓浓的全是软广,可是隔过段时间回来看,以前公布的全部贴子都被删的干净整洁,情况严重将会注冊的id也被封的干净整洁,而针对这类人只有说成爱好者的论坛推广技巧了。在进到这一议论以前,人们看一下自身是不是存有那样的难

在互联网高速发展的今天,在众多同行品牌的强势竞争下,新品牌想要打开市场并不是一件容易的事儿。但不推广就难以生存,那么我们应该如何做好新品牌推广,快速打开市场?云裂变徐国

3073

现在的推广营销方式与以前比起来可是多了不少,放在以前也就是还没有网络的时侯,商品商家和生产厂家想要把自己生产的和自己销售的产品或是商品成功推销出去那可就得想想办法了。比如

3059

一个生产企业想要发展必须要创立自己的品牌,在人们购买东西讲究牌子的今天,如果你所生产的产品连个牌子都没有,恐怕会无人问津的。但是,有了品牌,对于小公司来说若是得到消费者的

3032

说起网络营销,让人们想起了网上购物,比如在刚过去的520,就是一波网购的热潮,各种打折促销返利活动让许多人心动,看花了眼。又比如每年的双11、在双12的网上促销活动可谓是一年之内

3001

很多企业在官网搭建完成之后,便放任不管,既不更新内容、也不做任何的排名优化,最后网站没排名、没流量、没访客;即使有排名、有流量导入,但是跳出率极高,依然产生不了任何效益。

2980

随着网络营销、全网覆盖等口号喊得越来越响,现在有不少的企业做网络营销都是被同行带起来的,本质上对网络营销推广的作用都了解不多。那么网络推广好在哪?为什么一定要做好网络推广

论坛推广就是,企业利用论坛这种网络交流的平台,通过文字、图片、视频等方式发布企业的产品和服务的信息,从而让目标客户更加深刻地了解企业的产品和服务。最终达到企业宣传企业的品牌、加深市场认知度的网络营销活动。1、电子公告板(BBS)是虚拟网络小区的要素方法,小量的交流信息全是历经BBS进行的,vip历经贴到消息也许回应消息抵达互相联系的目地。一些简

随着社会的发展和人们消费观念的改变,现在人们的消费已经从单纯的商品能使用消费阶段到了商品品牌消费阶段了。在进行商品购买时总是看商品的品牌,就拿一些年轻人来说吧,对于耐克、

2924

受互联网大趋势影响,很多传统企业纷纷着手布局网络营销,考虑到企业自身在营销经验上有欠缺,不少老板会选择找全网营销外包公司合作,这个时候就会出现很多选择难题。比如说找了10家

2912

百科营销是一种以权威知识分享的形式对企业做有目的性的品牌宣传,可以有效提高潜在客户对企业品牌或产品服务的信任度及认可度,最终达到提升企业品牌知名度美誉度的双重作用。那么百

护肤品作为当下大受女性追捧的快消品,行业竞争激烈,且更新换代尤其迅速。那么如何在如此变幻莫测的市场竞争中占领高地呢?这自然少不了大面积的营销推广(包括线上和线下),下面全

一、前端seo代码优化注意事项1、提高页面加载速度。CSS可以用来解决不使用背景图片的问题,也可以尝试压缩背景图片的大小,你可以在一张图片上放置几个图标,使用CSSsprite,使用背景位置

2797

最新文章