视频

了解更多
当你尝试学习一个新的数据科学技能时,你需要一些数据来练习。为什么不选有趣的数据呢?
自学新的技术技能通常需要一个“入门项目”和支持该项目的数据。学习新技能的动机可能是任何事情:为职业升级做准备,对热门新编程语言的好奇,或者更好地利用现有开发环境中的功能。
好的入门项目——一旦你完成了“Hello, world”——能够完成一些事情,即使微不足道,即使与工作无关。你需要通过真实的编码场景进行实验,包括边缘情况,因此入门项目应该代表你在实际生活中使用工具的方式。另一方面,你也不想花几个月的时间调试一个练习应用程序。
也就是说:为什么不找点乐子呢?选择一个能让你尽情玩耍的入门项目。在我过去,这样的项目包括创建地下城主工具、食品合作社订购系统以及软件开发人员市场研究。
考虑到这一点,我提供了一些有趣的数据集供你参考——从天文学到科幻小说,再到停车计时器收入——其中许多支持多种数据类型。我认为你会在自学 Redis 功能时用到它们。
这些数据集都可以免费访问,不过有几个需要你创建网站登录。它们可以下载(大多数是 CSV)或通过 API 访问。许多很酷的档案库都设计用于交互式搜索(例如女性和性别边缘化作曲家曲目数据库、棒球参考,或者塔尔萨历史学会照片档案),然而,这个列表是为开发人员准备的,而不是为喜欢浏览迷人数据集合的人准备的。
我没有深入探索这些数据,也无法保证其准确性。这纯粹是指向有用资源的指针,也是许多许多互联网兔子洞的来源。
的星际迷航 API 提供了一个包含所有星际迷航相关内容的只读模型,包括角色、表演者、物种、剧集、飞船、书籍、天体和视频发布。为了了解其范围,该数据集包含约 7,560 个角色、3,207 项技术、2,497 个地点和 2,348 个天体的信息。类似的所有官方星际迷航书籍、有声读物、漫画、剧集、电影等信息也可以从共享的 Airtable 中获取。
如果你的科幻迷兴趣在别处,你可以选择Mutant Moneyball 项目,该项目追踪单个 X 战警角色的漫画书市场数据及其财务价值。该项目的数据集包含从销售历史和定价指南中提取的 26 个 X 战警角色的逐十年统计数据。
如果你喜欢沉浸在技术相关领域,编程语言数据库描述了数千种编程语言,包括它们的文件格式、通信协议和其他相关概念。你可以获取语言发布的年份、技术特性、创建者、起源国家和社区、相关书籍和 URL 以及流行度指标等信息。
为了了解不同特点的数据集,请查阅互动地图全球点唱机及其附带的数据集汇编。它主要关注世界各地的传统歌曲,这些信息基于音乐学家艾伦·洛马克斯收集的数据。核心数据集名为 Cantometrics,编码了“来自 1,026 个社会 5,776 首传统歌曲的 37 个音乐风格方面”。
这是我最喜欢的发现:高大的菲律宾椰子果实的声学信号特征提取。原来,在菲律宾,椰子是人工分类其成熟度的。“贸易商通常使用指甲、指关节或刀钝端敲击椰子,然后评估发出的声音,”该研究的作者写道,他们开发了硬件和软件来模拟这个过程。他们用它收集了 129 个未成熟、成熟和过熟椰子的声学信号数据,每个椰子都在其三个棱线上被机械敲击。
这可能是一个很好的 AI 或机器学习实验数据源,特别是如果你对数字信号处理或音频信号处理感兴趣的话。不过说实话,我们知道你看这个数据集的原因是你想要告诉你的朋友,“我正在开发一个评估椰子声学的应用程序。” 我不怪你。
夏威夷大学发布了其声称是最大的爆发恒星目录。“来自夏威夷大学天文学研究所 (IfA) 位于茂宜岛 Haleakalā 顶峰的 Pan-STARRS 望远镜三年数据的最大规模的相对邻近超新星(恒星的巨大爆炸)数据发布,已通过 Young Supernova Experiment 公开提供,”该大学报告称。该数据包含近 2,000 颗超新星和其他发光变星的信息,这些观测数据包含多种颜色,并广泛使用多色成像来分类超新星并估算其距离。
如果你的示例项目想要一个与书籍相关的应用,可以基于Post45 数据集汇编的主要文学奖项数据集。它包含 1918 年至 2020 年间奖金在 10,000 美元及以上的 7,100 多名散文、诗歌或未指定体裁的奖项“获奖者和评委”。这些数据代表了 50 个奖项和研究金,以及美国国会图书馆的桂冠诗人职位。该数据集是重文本的,条目包括奖项名称、机构、类型、体裁、年份、金额等字段。
如果你正在寻找不那么文学性的文本数据,可以考虑由国家负责任父亲中心管理的Dad Jokes API。
的Fjelstul 世界杯数据库涵盖了 1930 年至 2022 年间的 22 届男子世界杯赛事。该数据库包含 27 个数据集,涵盖赛事的各个方面,数据点约 110 万个。(关于这个我想说更多,但你们都知道我是个棒球女孩。我注意到巴西是唯一一支拥有五次世界杯冠军的球队。)
也许你打算处理空间和建筑数据?瑞士住宅数据集包含约 3,100 栋建筑中超过 42,500 套公寓(250,000 个房间)的详细数据,包括其几何形状和房间类型,以及公寓的视觉、声学、拓扑和采光特征。它还包含建筑物的特定位置特征,包括气候数据和步行距离内的兴趣点。
如果你对宝石质量、钻石定价感兴趣,或者仅仅是为你的示例应用寻找一个大小合适的数据集来研究,请考虑这个钻石数据集。它包含约 220,000 颗钻石的信息,共有 25 列数据,包括荧光(测量长波紫外线的影响)、宝石尺寸和总销售价格。这应该会为你的分析增添一些光彩。
供应商有时会提供(匿名)数据供公众使用和分析。例如,除了一个很酷的世界地图,展示了使用该公司智能喂鸟器拍摄的实时鸟类照片,你还可以下载Bird Buddy每月的数据集,包括经度、纬度和物种名称。你肯定可以构建一个包含北美红雀、凤头山雀和红头啄木鸟的地理空间应用程序吧?
另一个在视觉上不那么吸引人的例子来自 BackBlaze,该公司根据其广泛的硬件使用情况(截至 2022 年底有 231,309 块硬盘)定期提供真实的硬盘故障率报告。除了自己的深入分析外,该公司还提供其源数据。
开放数据政策使得查找和下载政府机构收集或生成的数据集变得容易。而且数据量非常大。美国政府有一个数据搜索网站,你可以在上面查找各种主题的统计数据,例如医疗保健、汽车销售和农业农场使用收集的传感器数据。这些数据是否符合“酷数据集”的定义,这取决于用户自行判断——但它们通常足够大,对实验性编程有用,并且有些具有独特的数据类型。
例如,如果你正在探索地理空间数据库功能,你可能想使用包含位置数据的数据集。一个这样的例子是自 2015 年以来弗吉尼亚州阿灵顿市收集的 3100 万份停车计时器收据,其中包括计时器的位置以及支付的金额(如果你在计算收入的话,收入为 6860 万美元)。
同样,洛杉矶市发布了超过 50,000 个停车标志的位置和方向;你可以找到休斯顿、旧金山和底特律的类似信息。一些数据集,例如来自OpenStreetMap 的数据集,可以通过 API 以及可下载文件获取;如果你能想到如何利用世界各地140 万个停车标志的信息,你可以轻松实现。
我认为这些数据集可以帮助你拓展数据库技能——尤其是在探索 Redis 的各项功能时,例如搜索、游戏排行榜、向量相似性搜索、时间序列和地理空间功能。选择与你想要学习的应用程序领域相匹配的数据集。
例如,如果你想尝试结合地理空间分析的数据库处理,你的样本数据就需要位置数据(鸟!停车标志!)。为了扩展你对数据库搜索功能的了解(因为最终目标是加快生产数据库中的内部搜索),选择一个巨大的数据集(恒星!钻石!);你的性能测试需要一些数据来操作。当你想要学习如何创建能让每个人都惊叹“哇!”的数据可视化时,选择一个包含大量数字的数据集,等等。
不要觉得选择这些数据集中的一个很傻。将现有的内部数据用于入门项目是个糟糕的主意。处理真实的客户数据会引发隐私问题,特别是当你使用数据的原因并非其收集目的时。
在行业会议上发言时,你当然不能使用真实信息。但当你结合龙与地下城来描述图数据库基础时,你可以吸引并打动听众。心智模型帮助我们通过熟悉的例子重塑知识,将抽象的功能转化为实际的分析。
而且,根据个人经验,如果你的目的是向老板展示技术概念验证(“如果我们部署这个数据库功能,就能实现这些!”),他们可能会被“真实”数据分散注意力。(真实故事。一个用户看到了一个“玩转工具”实验的输出——“按星期显示酒店预订量的图表”——然后说,“哦,我能每月收到这份报告的副本吗?”)
如果你对收集数据集感兴趣(看,还有一个关于数据集的数据集!),我强烈推荐Data is Plural 时事通讯,我的建议很大程度上借鉴了它。你还应该访问并订阅ResearchBuzz,它分享数据集描述以及与档案相关的新闻和工具(最近的一个例子:使用 WikiRSS 将维基百科变成 RSS 搜索引擎)。如果你知道要找什么,谷歌研究部也维护着一个测试数据集搜索网站。
如果你在你的个人项目中使用这些数据集中的任何一个,请告诉我!