dot 速度的未来即将在您所在的城市举办活动。

加入我们在 Redis 发布会

数据 101:数据科学基础

让我们从数据科学基础开始,并考虑数据的概念、数据类型、主要特征及其对我们生活方式的影响。

数据是任何组织最宝贵的资产。除了收集数据的明显原因 - 客户记录、会计信息、项目信息以及其他知识型组织赚钱的要素 - 数据还提供对客户行为、市场趋势和产品绩效的洞察,这些洞察有助于为资源分配决策提供信息。因此,公司经常投资于从第三方来源收集或购买数据,以获得相对于竞争对手的竞争优势。

数据是您收集的任何信息,这些信息经过组织和结构化,使其值得进行分析。每次您购物、浏览网站、旅行、打电话或发布社交媒体帖子时都会收集数据。数据可以来自许多来源,包括传感器、调查、实验、观察或现有记录(历史数据),例如财务交易。前所未有地,关于许多不同事物的如此大量数据在每一天的每一秒钟都被收集和存储。

数据无处不在!

信息论将数据的概念推得更远。信息论是一个研究领域,旨在了解信息的本质和起源。根据这项研究,一切都可以被视为数据。这包括物理物体以及抽象概念,例如想法或情感。此外,数据被定义为任何一组符号,这些符号在被接收者解释时传达意义。因此,任何具有某种形式的符号表示形式(例如 DNA 序列、单词或数字)的东西都可以在此上下文中归类为数据。

数据类型

数据根据给定的视角进行分类,例如按值、速度、结构、敏感度或任何其他特征进行分类。

从纯粹的统计角度来看,数据可以根据其值分为两大类。

定量(数值)数据是任何可以用数值(例如整数或实数)表示、测量和比较的信息。

定量数据的示例包括身高、体重、长度、温度读数、人口规模或可计数项目,例如教室中的学生人数。这种类型的数据可以进一步细分为离散值(整数)或连续值(小数)。

  • 连续数据是定量数据,可以有意义地细分为更精细的级别。它可以在刻度或连续体上进行测量。它可以具有几乎任何数值,例如有限或无限范围(区间)内的任何值,或者比较两个或多个数字(比率)的值。示例包括身高、体重、温度、速度、体重指数和时间。
  • 离散数据由有限的、数值的、可计数的值组成。离散值不能细分为部分。离散变量包括计数(例如,一个家庭中孩子的数量或产品的总数)和二元指标(是/否,真/假)。

定性(分类)数据是非数值信息,例如意见、感觉、感知和态度。此数据可以回答“它是如何发生的?”或“为什么发生这种情况?”之类的问题。定性数据的示例包括性别、排名和枚举。

这种类型的数据可以细分为名义或序数。

  • 名义数据是一种分类数据,没有数值或顺序。它由名称、标签或类别组成,这些名称、标签或类别将信息分类和组织到不同的组中。示例包括性别(男/女)、国籍(摩洛哥/法国)和颜色(绿/蓝)。
  • 序数数据类型具有与其相关的顺序或排名。示例包括排名,例如第一、第二和第三;成绩,例如 A+、B- 和 C;以及高-中-低评分。

从统计学上讲,定性变量必须先转换为虚拟变量,然后才能进行任何分析。例如,我们可以人工将数字分配给类别。例如,如果您的类别是颜色,我们可以将数字 1 分配给红色,将数字 2 分配给蓝色,但这些在任何数学意义上都没有意义。我们不会得出结论,蓝色是红色的两倍!

数据类型

数据的影响

数据… 信息… 知识。有什么区别?DIKW 模型描述了数据、信息、知识和智慧之间的关系,回答了这个问题以及隐藏在其背后的问题:数据的最终目的是什么?

在 DIKW 模型中,数据被认为是明智决策的原材料,因为它为得出结论提供了客观依据。通过以多种方式分析大量数据,例如通过统计分析或机器学习算法,我们可以发现数据中可能以前没有显现出来的模式。然后将这些信息处理成有意义的洞察,形成决策过程的基础。最后,当这些洞察与经验和判断力一起应用时,智慧就出现了,以便某人可以对接下来应该采取什么行动做出明智的选择,从而影响未来的策略。

DIKW 金字塔

因此,数据通过提供可用于做出明智决策的见解和信息来增加价值。数据帮助组织识别趋势、衡量绩效、优化流程、改善客户体验和推动创新。它还使企业能够通过基于数据分析的更佳决策能力在市场中获得竞争优势。

我非常感谢数据的力量和影响力。使用数据中的具体证据,以可比的标题,确实可以使任何团队对我们如何根据信号、指标和事实预测业务感到完全满意。

数据的特征

在本世纪初,数据只根据三个特征进行研究,称为数据的三个 V:体量、速度和多样性。随着时间的推移,又增加了两个 V - 价值和真实性 - 帮助数据科学家和管理人员更有效地表达和传达他们使用的数据的基本特征。

数据的五个主要和固有特征是

  • 体量:组织生成和存储的数据量
  • 速度:数据生成的快慢,以及数据移动并被处理成可用的见解的速度(或可以被处理的速度)
  • 多样性:数据的多样性。组织可能从多个来源收集数据,这些来源的格式可能不同。收集的数据可以是结构化的、半结构化的或非结构化的。
  • 真实性:对收集数据的信任和可靠程度,或者说是其质量和准确性。收集的数据可能存在缺失部分、不准确或无法提供真正的价值。
  • 价值:组织可以使用数据做什么。此特征直接提示组织可能赋予收集数据的意义和上下文。

营销组织添加了两个额外的數據特征,这些特征会显着影响其生成的见解。这两个特征是

  • 可变性:衡量每个数据变体中值的变化程度。这个概念与数据的上下文及其赋予的意义相关。

在一个组织中,意义可以不断变化,显着影响数据同质化。这个概念不同于多样性。一家咖啡店可以提供六种不同的咖啡混合物 - 代表多样性 - 但你每天都喝到相同的混合物。但是可变性捕获了即使在单一咖啡混合物中也会发生的口味变化以及导致这些变化的因素,例如供应链状况、商店温度、水质和冲泡设备。

  • 可视化:使用图表和图形可视化复杂数据已成为传达意义的标准方法,在人们期望理解电子表格、数字和公式中的原始数据方面有所改进。
数据的 7 个 V

最终,今天的數據科学家关注的是数据的 7 个 V - 并且随着我在本系列中的继续,您也会关注它们。

想将数据建模概念应用于您当前的项目吗?我们编写了一本全面电子书,Redis 中的数据建模模式,它介绍了八种场景,并展示了如何在 Redis 中对它们进行建模,并附有代码片段。