1. 云裂变
  2. 营销
  3. 网站运营
  4. 五分钟了解搜索原理

五分钟了解搜索原理

作者: 日期:2022-03-06 人气:109

 

本篇文章是对于搜索系统工作原理一个整体的介绍,对于原理的理解,是设计系统举重若轻的基础。

五分钟了解搜索原理

1. 信息和信息量

在介绍搜索之前,先介绍两个概念:信息和信息量。

(采用的均是自以为比较通俗易懂的解释,如果感兴趣可以读相关书籍)

1.1 信息是减少不确定性的东西,信息也是增加确定性的东西。

前半句是香农信息定义,后半句是逆香农信息定义。举个栗子,回想下,和一个异性交往的过程。在你遇到TA之前,你不知道这个世界上有这个人的存在,后来你看到了TA的样子,后来你了解了TA的性格、口头禅,往事。然后一步一步,你对TA从丝毫不了解,到逐渐熟识。这期间就是一个你不停获取TA信息的过程,正是这些信息,让你从完全不确定TA是怎样的人,到完全确定TA很适合你。

1.2 信息量是一个信息能减少不确定性的度量,信息量也是一个信息能增加确定性的度量。

关于信息量,有很多数学的描述,但是通俗来讲,可以这么简单理解。举个栗子,证人描述嫌疑犯。A证人的信息是“他是个男人”。B证人的信息是“TA是个高中男生”,C证人的信息是“TA是个长发170摆布的高中生。”D证人的信息是“我认识他,他是学校的扛把子陈浩南”。我们直觉能感受到信息量的大小关系为:A

翻译为计算机可以理解的数学逻辑:本地男人的比例是50%,本地高中男生的比例为8%,本地长发170摆布的高中男生的比例是4%,本地叫陈浩南的扛把子的比例是0.0001%。因为P(A)>P(B)>P(C)>P(D),所以信息量的大小关系为:A

2. 搜索的产品逻辑

搜索满足了用户迅速找到本身感兴趣内容的需求。用户输入一个query,搜索系统按照用户的输入的信息,筛选出系统认为用户感兴趣的内容,同时根据系统认定的重要性进行排序展示。请注意这个表述,简单而言,搜索可以分为三步。

Step1:对用户输入信息的解读Step2:按照用户输入信息对内容进行筛选Step3:对筛选后的结果进行排序

而要了解这三步怎么在搜索系统中完成,就需要先了解搜索的办事器怎么存储信息。

3. 搜索数据的存储原理

上一张图,假设我们做了一个新闻网站,那么它的结构就是下图。内容进行了简化,假设一个新闻,文本只有标题,导语,正文。数据只有阅读量,评论数,分享数。

五分钟了解搜索原理

图1-1

差不久不多就是上图右边的这种结构。右边标识的是新闻内容的存储:就像图书馆的书一样,整整齐齐按挨次排好,便利查找(这个存储结构的名字叫做索引,就是来自于图书馆的用语)。左边是词库:只要一次搜索的输入词能匹配到词库,就可以快速的查找词库到对应的内容。

每个搜索系统都有本身的词库,无法对应到分词的搜索行为就会没有结果。每个搜索系统都会按照目标用户的差别,有对应的一套词库,就像字典一样,《冶金专业词典》和《生物学大辞典》收录的词条是差别的,知乎的词库和淘宝的词库也差别。搜索的很多优化都是集中在词库的优化上。

简单总结下,搜索的存储原理就是:一个系统词库,一个摆列整齐的内容索引库,同时系统词库和内容索引库之间可以快速关联。

在这个搜索系统的储存结构的基础上,我们提到的搜索三步骤将依次展开。

4. Step1:对用户输入信息的解读

前面提到,搜索的词库是有限的,但是用户的输入却是没有限制的。那么怎么把无限制的搜索转化为有限的词库,而且匹配到对应的结果呢?这里需要介绍一个新的概念:分词,简单来说就是对输入字符串进行分拆。

同样以【图1-1】中的新闻搜索系统为例。如果用户输入的query为“中国的转基因食物”,系统中其实没有这个词。如果没有分词功能,这个搜索就会立即结束,,即使系统里确实有对应的内容。分词的工作原理是在无法精确匹配的情况下,会对用户的输入进行进一步的拆分。于是我们得到了下面的结果。

“中国的转基因食物”——“中国”、“的”、“转基因”、“食物”。

并不是所有的词都有信息量,如果召回“的‘’的结果,那么几乎所有的新闻内容里面都会有这个字,召回这么多结果显然是分歧错误的。好比这个query里的“的”,这个词实际上在分词系统中会被直接忽略掉。正是因为出现在内容中的概率差别,一个词出现的新闻越多,这个词的信息量就越小,信息量太小的词会被忽略,也就是停用词。同时包罗信息量越大的词的新闻内容,会更更要。那么去掉停用词之后,结果就进一步简化。

“中国的转基因食物”——“中国”、“转基因”、“食物”。

经过处理,用户非尺度的query就被转化为尺度的词库,就可以快速找到对应的内容了。如【图1-1】所示。

5. Step2:按照用户输入信息对内容进行筛选

经过对用户的query解读之后,其实就得到了一些尺度化的词,而这些词就会对应一些搜索目标内容,接下来就是对于内容的筛选。

内容标签:

热门文章

    现在很多企业都着手于做重庆seo排名,因为SEO是获取精准流量比较稳定且长期发展好的方式之一,同时也能提升自身企业的品牌形象,因为SEO本身就是基于用户体验优化而做的,因此做好SEO

6770

网络营销时代,软文营销已成为企业传播品牌、促进订单转化的重要手段。不同于硬广形式,软文营销的精华就在于“软”字,即广告绵里藏针,要在能提供给用户有价值内容的基础上进行广告

 文库营销指的是借助一些文库平台上传文档,通过知识分享来做品牌营销,目前常见的文库平台有百度文库、360图书馆、道客巴巴、豆丁文库等。文库营销对文档质量要求较高,需要用户自

网站对于很多的企业来说,不仅仅是业务的渠道拓宽,也是多一个网站推广的途径和客户渠道等,很多的企业虽然有自己的网站,但是重视程度不够,很多的企业都只依靠网站就能够养活一个公

3239

企业品牌推广对于企业的生存来说是极其重要的,如果没有一个好的推销渠道的话,可能就会让自己的商品卖不出去。在新闻中总是看到哪儿有什么产品卖不出去了,形成滞销,让个人或是企业

3198

一方面,不同客户的建站需求不同;另一方面,网站建设人员的技术水平高低不一;同时,时效、地域因素也会对建站成本有所影响。所以网站建设的报价暂时没有统一标准,建设费用更是从几

3017

最先剖析要散播的目的客户人群的陋习与话动范畴; 精心安排合乎网民爱好的论坛推广时件或话动; 积淀论谈有关社交圈子資源,会对进行论坛推广出示挺大适用; 搞好数据分析,以知道论坛推广的成功失败之举,加以改进。

人们常常会遇上有些人做论坛推广的当时,以便能短期内内看到作用,就在每个论谈网站上注冊很多的id,花两三天的時间就把各大论坛上贴的浓浓的全是软广,可是隔过段时间回来看,以前公布的全部贴子都被删的干净整洁,情况严重将会注冊的id也被封的干净整洁,而针对这类人只有说成爱好者的论坛推广技巧了。在进到这一议论以前,人们看一下自身是不是存有那样的难

在互联网高速发展的今天,在众多同行品牌的强势竞争下,新品牌想要打开市场并不是一件容易的事儿。但不推广就难以生存,那么我们应该如何做好新品牌推广,快速打开市场?云裂变徐国

2921

一个生产企业想要发展必须要创立自己的品牌,在人们购买东西讲究牌子的今天,如果你所生产的产品连个牌子都没有,恐怕会无人问津的。但是,有了品牌,对于小公司来说若是得到消费者的

2896

现在的推广营销方式与以前比起来可是多了不少,放在以前也就是还没有网络的时侯,商品商家和生产厂家想要把自己生产的和自己销售的产品或是商品成功推销出去那可就得想想办法了。比如

2892

说起网络营销,让人们想起了网上购物,比如在刚过去的520,就是一波网购的热潮,各种打折促销返利活动让许多人心动,看花了眼。又比如每年的双11、在双12的网上促销活动可谓是一年之内

2848

很多企业在官网搭建完成之后,便放任不管,既不更新内容、也不做任何的排名优化,最后网站没排名、没流量、没访客;即使有排名、有流量导入,但是跳出率极高,依然产生不了任何效益。

2831

随着网络营销、全网覆盖等口号喊得越来越响,现在有不少的企业做网络营销都是被同行带起来的,本质上对网络营销推广的作用都了解不多。那么网络推广好在哪?为什么一定要做好网络推广

论坛推广就是,企业利用论坛这种网络交流的平台,通过文字、图片、视频等方式发布企业的产品和服务的信息,从而让目标客户更加深刻地了解企业的产品和服务。最终达到企业宣传企业的品牌、加深市场认知度的网络营销活动。1、电子公告板(BBS)是虚拟网络小区的要素方法,小量的交流信息全是历经BBS进行的,vip历经贴到消息也许回应消息抵达互相联系的目地。一些简

受互联网大趋势影响,很多传统企业纷纷着手布局网络营销,考虑到企业自身在营销经验上有欠缺,不少老板会选择找全网营销外包公司合作,这个时候就会出现很多选择难题。比如说找了10家

2773

随着社会的发展和人们消费观念的改变,现在人们的消费已经从单纯的商品能使用消费阶段到了商品品牌消费阶段了。在进行商品购买时总是看商品的品牌,就拿一些年轻人来说吧,对于耐克、

2761

百科营销是一种以权威知识分享的形式对企业做有目的性的品牌宣传,可以有效提高潜在客户对企业品牌或产品服务的信任度及认可度,最终达到提升企业品牌知名度美誉度的双重作用。那么百

护肤品作为当下大受女性追捧的快消品,行业竞争激烈,且更新换代尤其迅速。那么如何在如此变幻莫测的市场竞争中占领高地呢?这自然少不了大面积的营销推广(包括线上和线下),下面全

一、前端seo代码优化注意事项1、提高页面加载速度。CSS可以用来解决不使用背景图片的问题,也可以尝试压缩背景图片的大小,你可以在一张图片上放置几个图标,使用CSSsprite,使用背景位置

2643

最新文章