作者:徐晟 来历:华章科技 01 数据是一组成心义的标记数据无处不在,只是它们没有实体。 曩昔,人们习惯把数字的组合称为数据。但在明天,这样的了解明显不够周全。那末能否可以把数字、字符、字母的调集称为数据?也不正确。 在明天“大数据”的语境中,数据是可以被记录和识此外一组成心义的标记,一般可经过原始的观察或怀抱获得。数据是对客观事物的逻辑归纳,可以用来暗示一个究竟、一种状态、一个实体的特征,或一个观察的成果,有些是用于描写某个工具的究竟性数据,有些则是经过观察、分析、归纳获得的总结性数据。 数据可所以持续的,比如无线电通讯时在空气中传输的电磁波,它们是模拟数据;数据也可以是离散的,比如在计较机中存储的文档和照片,它们是数字数据。 承载数据的形式有很多,不但包括笔墨、数字、标记、图像、语音、视频,也可以是对某个事物的属性、数目、位置、关系的笼统暗示。大气的温湿度、汽车的行驶线路、门生的档案记录、商务的条约,这些都是数据。 我们平常用电子装备看消息、摄影片、买工具、打游戏,本质上都是在和数据打交道。在计较机中,它们是连续串包括有0和1的二进制数的组合。 02 信息是用来消除不肯定性的现在我们来明白一下什么是数据,什么是信息。当人们在研讨甲骨文时,上面记录的标记仅仅是一些数据。要读懂这些数据,就必须领会数据背后要表达的寄义。一旦对数据做出诠释,我们就能获得甲骨文上的信息。 数据与信息既有联系,又有区分。数据是信息的载体,信息则需要依托数据来表达。它们是形与质的关系,两者密不成份。 信息由数据加工得来,它可以由数字和笔墨表达,也可以表示为其他具成心义的标记,其承载形式不重要,重要的是信息能让我们领会一些工作、辨别一些真伪、佐证一些概念。也就是说,虽然数据存在的形式多种多样,但我们真正想要获得的是信息。 “信息”作为科学术语最早出现在哈特莱1928年撰写的论文《信息传输》中,在该论文中他初次提出了将信息定量化处置的设想。1948年,信息论开创人、美国数学家香农颁发了一篇有着深远影响的论文—《关于通讯的数学道理》,他明白指出了“信息是用来消除随机不肯定性的工具”。 在香农看来,一旦我们想要对信息停止量化和比力,我们就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,能否改变了某些不肯定性事务的几率。明天这一界说已经被看做是对“信息”的典范界说,在各类场所不竭被人援用。 不管是数字、字符或它们的组合,假如我们没法解读,就不能称其为信息。有一个重要的判定标准是,看它能否承载了有用的内容。不管是石头上刻的画、纸上写的字、墙上的涂鸦还是电脑中的文件,只要它们能表达确切的寄义,就能以为是信息。 一串11位数字的号码,假如它是随机数字,则谈不上是信息。假如我告诉你,这串数字是我的手机号,它就消除了不肯定性,它即是一种信息。信息是把人们不清楚的给说清楚的那些内容,假如已经晓得了,就不能算作新的信息。 举例来说,明天任何一个小门生都晓得地球是圆的,地球自转发生了白天和黑夜。这在明天看来是一个根基常识,但我们的祖先并不晓得。假如我们把发现笔墨作为人类文化的起点,那末大约经过5000多年,也就是直到15世纪,人们才起头接管地球是一个大圆球的概念。 虽然“地球”对于明天的小门生来说不算是新的信息,可是对于前人来说,它不可是信息,而且信息量庞大。 你也许已经发现了,信息会因场景而定,因每小我的主观熟悉而定。同一条信息,对一些人是有用的,对另一些人也许就没用了。 03 常识是对信息的总结和提炼随意给出3个数字:68、21、192。这3个数字仅仅是数据。现在给它们加上一些说明,比如:衣服的价格是68元,明天的气温是21摄氏度,小明爸爸的体重是192斤。这些数占有了明白表达的寄义,它们就是信息。 不但如此,我们还能基于这些信息给出一些判定:衣服不是很贵,天气有点风凉,汉子该去减肥了。做出这些判定,需要依靠我们平常生活中堆集的经历和常识,即常识。 常识是对信息的提炼和概括,它是高度概括的信息。假如说信息可以解答一些简单的题目,比如“谁”“在那里”“做什么”,那末常识可以回答一些更具深入认知的题目,比如“怎样”“为何”。 平常生活中最根基的常识是常识。比如明火不能碰、热油不能遇水、人有生老病死、月有阴晴圆缺,它们大部分来自生活,是大师以为都该晓得、不言自明的常识。明天很多约定俗成的常识,是由我们的祖辈口口相传、代代相承而来。人并不是天生就有常识,晓得火为何物、火可伤人、火可熟食。很多事理都是从生活理论中总结而来的。 现现在,对于野生智能来说,要处理的焦点题目是让计较机具有常识。很多常识背后有着复杂的常识系统,机械必须真正“了解”常识,而不是“记忆”它们。 举例来说,计较机也许能经过数据样本进修,晓得人类有头、手、脚等身材部位,但它很难了解既然这些部位都长在人体上,为何只要头上有眼睛,手和脚上却没有?又比如,计较机学会并晓得了“人有2只眼睛”,但它没法判定这个天下上能否存在“有1只眼睛的人”和“有3只眼睛的人”。 现在的野生智能只能从数据中进修到数据之间的联系,它还不能很好地处置有关常识的题目,这方面人们还有很长的研讨之路要走。 以上会商的“常识”,指的都是人脑中的常识。它和计较秘密处置的“常识”是分歧的。从本质上讲,计较机只是模仿人类的常识,它们并没有真正把握这些“常识”。计较机只是经过一些特定方式把人类常识表达出来。而这个特定方式是基于图技术。 图是一种暗见常识的工具,是描写常识的状态、关系、途径间隔等相关要素的最自然的数学表达。它擅长存储和处置复杂的网状关系,所以在常识图谱、交际收集、用户关系分析等范畴有着普遍的利用。 近年来,基于图技术的常识图谱是非常热门的研讨范畴。比如公共熟知的维基百科就是一个常识图谱利用。常识图谱可以用来描写各类实体以及它们之间的关系。它是一个庞大的图形收集常识库。在这个收集合,每个节点是一个实体,比如人名、地名、事务、活动,肆意两个节点之间的边暗示它们之间存在关系,如图3-1所示。 ▲图3-1 基于图形结构的常识图谱表示图 常识图谱的根基组成是“实体–关系–实体”的三元组,它不但能把与关键词有关的常识系统化地展现给用户,也可以基于常识停止推演。例如说,从〈东方明珠,座落在,浦东〉和〈浦东,属于,上海〉这两个组合,就能猜测获得〈东方明珠,位于,上海〉。 常识图谱还会不竭更新迭代,用户搜索的次数越多,范围越广,这个常识库就能获得越多的信息和内容。 常识并不是与生俱来的,获得常识凡是有两种路子。 路子一是亲身材验。比如,刚诞生的婴儿什么都不懂,将一杯热水放到他眼前,他会想要去拿杯子,成果喝水被烫到了。第二次他再看到杯子,有了上次被烫的经历,他会观察杯口能否冒烟,摸摸杯子的温度,再决议能否拿杯子喝水。在这个进程中,婴儿经过自己的亲身材验,逐步把握了有关“热水”的常识。 南宋理学家、思惟家朱熹曾说:“所谓致知在格物者,言欲致吾之知,在即物而穷其理也。”他要表达的意义是,获得常识的路子在于熟悉人间万物,并完全研讨它们的道理。就是说,要亲身材验这个天下来获得贵重的常识。每小我有分歧的人生和履历,这些会成为我们独占的常识。 亲身材验得来的常识是最实在的,所以它凡是比力正确。不外,这样获得常识的时候周期长,效力也比力低。 路子二是经过他人教授。比如经过怙恃、教员、书籍、收集进修得来,但教员教的、书上印的能够出错,这样得来的常识一定正确。不外,它照旧是获得常识最首要的形式,究竟我们没有那末多时候和精神,凡事都亲身履历一遍。站在前人和伟人的肩膀上,不竭进修新的常识,是人类科技进步的底子缘由。 风趣的是,在互联网时代,任何人都能随时随地找到自己想要的信息,但我们的常识总量并不会立即增加。进修是一种进程,需要时候堆集,欲速则不达。 比如很多人都听过“区块链”,但大部分人并不清楚它是什么。有人以为它是钱,也有人以为它是一种身份认证技术。但这些了解都不正确。很多人只是从网上找到了关于区块链的信息,并没有真正获得关于它的常识。从某种意义上讲,互联网虽然进步了人们找到碎片信息的效力,但下降了人们把握完整常识的才能。 固然,互联网对全部社会来说照旧利大于弊,它让全天下的常识可以快速传递和同享。每小我都可以在收集上自在地颁发概念,这些内容也被其他人搜索、阅读、会商。一个小门生能从互联网上学到常识,并在课堂上指出教员的毛病,在家里改正怙恃的看法。这让曩昔作为威望的教员和怙恃遭到了应战,这在之前是不成设想的。 最初,让我们做个简答的总结——数据、信息、常识三者密不成份。
本文摘编自《鬼话机械智能:一书看破AI的底层运转逻辑》,经出书方授权公布。(ISBN:9787111696193) 《鬼话机械智能:一书看破AI的底层运转逻辑》 保举语:AI是什么?机械若何具有“智能”?“智能”若何起感化?本书以浅显易懂的方式,勾画野生智能的全貌,展现AI的底层运转逻辑,即AI是若何工作的。 |
整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济
在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职
做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几
Detectron2训练自己的实例分割数据集This article was original written by Jin Tian,
我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而
如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季
数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名
本文是《如何快速成为数据分析师》的第五篇教程,如果想要了解写作初衷,可以先行阅读
1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的
本文是《如何快速成为数据分析师》的第六篇教程,如果想要了解写作初衷,可以先行阅读
近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我
1. 你问不少同学加了微信,第一句往往类似这样: 在校或刚毕业的学生,没有实习经验,
我把每个函数的中文名都制作成了目录,通过目录能够快速定位到相应的函数。如果这篇文
写论文至关重要的一步就是查文献,为了让小伙伴们能够在查文献的路上少走弯路,顺利写
30个数据可视化工具(2020年更新)目录摘要• 零编程工具◦ 图表(9个)◦ 信息图(2
最近很多人私信询问如何看待出生人口或人口总量减少对征集兵员和国家安全的影响。这可
人类发展指数:Human Development Index(HDI),是联合国开发计划署从1990年开始发布
刚学习GIS和RS的同学肯定很困惑于数据的问题,因为没有数据,就没法分析,那么GIS最基
2022重磅数据公布,全年出生人口956万人,死亡人口1041万人。从性别构成来看,男性人
本文从数据中台的定义、核心能力、优点出发阐述企业数据中台建设的意义与必要性。一、
声明:本站内容由网友分享或转载自互联网公开发布的内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15924191378
Copyright @ 2022-2024 私域运营网 https://www.yunliebian.com/siyu/ Powered by Discuz! 浙ICP备19021937号-4