让我们从数据科学基础开始,并考虑数据的概念、数据类型、主要特征及其对我们生活方式的影响。
数据是任何组织最宝贵的资产。除了收集数据的明显原因 - 客户记录、会计信息、项目信息以及其他知识型组织赚钱的要素 - 数据还提供对客户行为、市场趋势和产品绩效的洞察,这些洞察有助于为资源分配决策提供信息。因此,公司经常投资于从第三方来源收集或购买数据,以获得相对于竞争对手的竞争优势。
数据是您收集的任何信息,这些信息经过组织和结构化,使其值得进行分析。每次您购物、浏览网站、旅行、打电话或发布社交媒体帖子时都会收集数据。数据可以来自许多来源,包括传感器、调查、实验、观察或现有记录(历史数据),例如财务交易。前所未有地,关于许多不同事物的如此大量数据在每一天的每一秒钟都被收集和存储。
信息论将数据的概念推得更远。信息论是一个研究领域,旨在了解信息的本质和起源。根据这项研究,一切都可以被视为数据。这包括物理物体以及抽象概念,例如想法或情感。此外,数据被定义为任何一组符号,这些符号在被接收者解释时传达意义。因此,任何具有某种形式的符号表示形式(例如 DNA 序列、单词或数字)的东西都可以在此上下文中归类为数据。
数据根据给定的视角进行分类,例如按值、速度、结构、敏感度或任何其他特征进行分类。
从纯粹的统计角度来看,数据可以根据其值分为两大类。
定量(数值)数据是任何可以用数值(例如整数或实数)表示、测量和比较的信息。
定量数据的示例包括身高、体重、长度、温度读数、人口规模或可计数项目,例如教室中的学生人数。这种类型的数据可以进一步细分为离散值(整数)或连续值(小数)。
定性(分类)数据是非数值信息,例如意见、感觉、感知和态度。此数据可以回答“它是如何发生的?”或“为什么发生这种情况?”之类的问题。定性数据的示例包括性别、排名和枚举。
这种类型的数据可以细分为名义或序数。
从统计学上讲,定性变量必须先转换为虚拟变量,然后才能进行任何分析。例如,我们可以人工将数字分配给类别。例如,如果您的类别是颜色,我们可以将数字 1 分配给红色,将数字 2 分配给蓝色,但这些在任何数学意义上都没有意义。我们不会得出结论,蓝色是红色的两倍!
数据… 信息… 知识。有什么区别?DIKW 模型描述了数据、信息、知识和智慧之间的关系,回答了这个问题以及隐藏在其背后的问题:数据的最终目的是什么?
在 DIKW 模型中,数据被认为是明智决策的原材料,因为它为得出结论提供了客观依据。通过以多种方式分析大量数据,例如通过统计分析或机器学习算法,我们可以发现数据中可能以前没有显现出来的模式。然后将这些信息处理成有意义的洞察,形成决策过程的基础。最后,当这些洞察与经验和判断力一起应用时,智慧就出现了,以便某人可以对接下来应该采取什么行动做出明智的选择,从而影响未来的策略。
因此,数据通过提供可用于做出明智决策的见解和信息来增加价值。数据帮助组织识别趋势、衡量绩效、优化流程、改善客户体验和推动创新。它还使企业能够通过基于数据分析的更佳决策能力在市场中获得竞争优势。
我非常感谢数据的力量和影响力。使用数据中的具体证据,以可比的标题,确实可以使任何团队对我们如何根据信号、指标和事实预测业务感到完全满意。
在本世纪初,数据只根据三个特征进行研究,称为数据的三个 V:体量、速度和多样性。随着时间的推移,又增加了两个 V - 价值和真实性 - 帮助数据科学家和管理人员更有效地表达和传达他们使用的数据的基本特征。
数据的五个主要和固有特征是
营销组织添加了两个额外的數據特征,这些特征会显着影响其生成的见解。这两个特征是
在一个组织中,意义可以不断变化,显着影响数据同质化。这个概念不同于多样性。一家咖啡店可以提供六种不同的咖啡混合物 - 代表多样性 - 但你每天都喝到相同的混合物。但是可变性捕获了即使在单一咖啡混合物中也会发生的口味变化以及导致这些变化的因素,例如供应链状况、商店温度、水质和冲泡设备。
最终,今天的數據科学家关注的是数据的 7 个 V - 并且随着我在本系列中的继续,您也会关注它们。
想将数据建模概念应用于您当前的项目吗?我们编写了一本全面电子书,Redis 中的数据建模模式,它介绍了八种场景,并展示了如何在 Redis 中对它们进行建模,并附有代码片段。