视频

了解更多
当您尝试学习一项新的数据科学技能时,您需要一些数据来进行练习。为什么要枯燥乏味呢?
自学新的技术技能通常需要一个“入门项目”和支持该项目的数据。您学习新技能的动机可以是任何事情:为职业提升做准备、对热门的新编程语言感到好奇,或打算更好地利用现有开发环境中的功能。
好的入门项目——一旦你完成了“你好,世界”——会完成一些事情,无论多么微不足道,即使它们与工作无关。您需要在真实的编码场景中进行实验,包括边缘情况,因此入门项目应代表您在现实生活中使用该工具的方式。另一方面,您不希望花费数月时间调试一个练习应用程序。
也就是说:为什么不玩得开心呢?选择一个能让您玩的入门项目。在过去,这样的项目包括创建地牢大师工具、食品合作社订购系统和软件开发人员市场调查。
考虑到这一点,我提供了一些娱乐性数据集作为灵感——从天文学到科幻小说到停车计时器收入——其中许多数据集支持各种数据类型。我认为您会在学习 Redis 功能时使用它们。
这些数据集都是免费访问的,尽管有些数据集要求您创建网站登录。它们可以下载(大多数是 CSV)或通过 API 访问。许多酷炫的档案专为交互式搜索而设计(例如,女性和性别边缘化作曲家曲目数据库、棒球参考或图尔萨历史协会的照片档案),但是,此列表是为开发人员准备的,而不是为喜欢浏览迷人数据收集的人准备的。
我没有深入研究过这些数据,也不能保证它们的准确性。这纯粹是指向有用资源的指针,也是许多、许多互联网兔子洞的来源。
该 星际迷航 API 提供了一个关于所有星际迷航事物的只读模型,包括角色、表演者、物种、剧集、宇宙飞船、书籍、天体和视频发行。为了了解其范围,此数据集包含有关 7,560 个角色、3,207 个技术部件、2,497 个位置和 2,348 个天体的信息。类似的信息可以在一个带有“所有官方星际迷航书籍、有声读物、漫画、剧集、电影等等”的共享 Airtable 中找到。
如果您对科幻小说的狂热在于其他地方,您可以选择变种人金钱球 项目,该项目跟踪单个 X 战警角色的漫画书市场数据以反映其财务价值。该项目的 数据集 有 十年十年 26 个 X 战警角色的统计数据,这些数据来自销售历史和定价指南。
如果您更喜欢用与技术相关的知识来取悦自己,那么 编程语言数据库 描述了数千种编程语言,包括它们的 文件格式、通信协议和其他相关概念。您可以获取有关语言发布年份、技术特性、创建者、原产地国家和社区、相关书籍和 URL 以及流行度指标的信息。
要了解另一组数据特征,请咨询 全球音乐盒,这是一张交互式地图,以及它附带的 数据集汇编。它侧重于来自世界各地的传统歌曲,这些信息是根据音乐学家 艾伦·洛马克斯 收集的信息。该 核心数据集 被称为 Cantometrics,它对“来自 1,026 个社会 5,776 首传统歌曲的 37 个音乐风格方面”进行了编码。
这是我最喜欢的发现:提取的高个菲律宾椰子果实的声学信号特征。事实证明,在菲律宾,椰子是根据其成熟度手动分类的。“交易者经常使用指甲、指节或刀刃的钝端敲击椰子,然后评估产生的声音,”研究的作者写道,他们开发了硬件和软件来模拟该过程。他们使用它从 129 个过早成熟、成熟和过度成熟的椰子中收集声学信号数据,每个椰子都在其三个脊上机械敲击。
这可能是 AI 或机器学习实验的良好数据源,尤其是在您对数字信号处理或音频信号处理感兴趣的情况下。虽然实际上,我们知道查看此数据集的原因是您想告诉您的朋友:“我正在开发一个评估椰子声学的应用程序。” 我不会怪你。
夏威夷大学发布了据称是最大的爆炸恒星目录。“最大规模的数据发布,包括来自夏威夷大学天文研究所 (IfA) 位於毛伊岛哈雷阿卡拉山的泛星望远镜三年来的数据,这些数据来自相对较近的超新星(恒星的巨大爆炸),可通过年轻超新星实验公开获得,”大学报道。该数据包含近 2,000 个超新星和其他发光变星的信息,以及多种颜色的观测结果,还广泛使用多色成像对超新星进行分类并估计其距离。
如果您想为您的样本项目构建一个书面应用程序,请从 Post45 数据集体 的 主要文学奖项 数据集中构建。它有超过 7,100 个“1918 年至 2020 年间散文、诗歌或未指定类型的奖项获奖者和评委,奖金超过 10,000 美元。”数据代表 50 个奖项和奖学金,以及国会图书馆的桂冠诗人职位。此数据集以文本为主,条目包括奖项名称、机构、类型、类型、年份和金额,以及其他字段。
如果您正在寻找不太文学性的基于文本的数据,请考虑 老爸笑话 API,该 API 由 国家负责任父亲身份信息中心 管理。
该 Fjelstul 世界杯数据库 涵盖了从 1930 年到 2022 年的 22 届男子世界杯比赛。该数据库包括 27 个数据集,涵盖了该事件的各个方面,共计约 110 万个数据点。(我想更多地谈谈这个,但你们都知道我是一个棒球女孩。我确实注意到巴西是唯一一支获得五次世界杯冠军的球队。)
也许您计划使用空间和建筑数据?该 瑞士住宅数据集 包含有关超过 42,500 套公寓(250,000 个房间)的详细数据,这些公寓位于约 3,100 栋建筑物中,包括它们的几何形状和房间类型,以及公寓的视觉、声学、拓扑和日光特征。它还包含与位置相关的建筑物特性,包括气候数据和步行距离内的兴趣点。
如果您对宝石质量、钻石定价 或仅仅是想要一个适合您的样本应用程序咀嚼的大型数据集感兴趣,请考虑使用此 钻石数据集。它包含有关约 220,000 颗钻石的信息,有 25 列数据,包括荧光 (测量长波紫外线的效果)、宝石的测量值以及总销售价格。这将为您的分析增添一丝光彩。
供应商有时会提供(匿名)数据供公众使用和分析。例如,除了展示用该公司智能喂鸟器拍摄的实时鸟类图片的酷炫世界地图之外,您还可以下载 Bird Buddy 的每月数据集,其中包含经度、纬度和物种名称。您一定可以构建一个包含北红雀、羽冠山雀和红头啄木鸟的地理空间应用程序?
另一个视觉上不太吸引人的例子来自 BackBlaze,该公司定期提供有关真实硬盘驱动器故障率的报告,这些报告基于其广泛的硬件使用——2022 年底有 231,309 个硬盘驱动器。除了其自己的深入分析 外,该公司还提供了其 源数据。
开放数据政策使得查找和下载政府机构收集或生成的数据集变得容易。而且数据量非常庞大。美国政府有一个数据搜索网站,您可以在其中查找各种主题的统计数据,例如医疗保健、汽车销售和从农业农场使用中收集的传感器数据。这些数据是否符合“酷数据集”的定义,留给用户自行判断——但它们通常足够大,可以用于实验性编程,而且有些数据类型很独特。
例如,如果您正在探索地理空间数据库功能,您可能需要使用包含位置数据的数据集。一个这样的例子是弗吉尼亚州阿灵顿市从 2015 年开始收集的 3100 万个停车咪表收据,其中包括咪表的位置以及支付的金额(如果您在计分,则为 6860 万美元的收入)。
同样,洛杉矶市公布了超过 50,000 个停车标志的位置和方向;您可以在休斯敦、旧金山和底特律找到类似的信息。一些数据集,例如来自 OpenStreetMap 的数据集,可以通过 API 和可下载文件获得;如果您能想到用关于全球 140 万个停车标志的信息做些什么,您可以轻松地做到。
我认为这些数据集可以帮助您扩展数据库技能——特别是在您探索使用 Redis 功能(例如搜索、游戏排行榜、向量相似性搜索、时间序列和地理空间功能)可以实现什么时。选择与您想要了解的应用领域相匹配的数据集。
例如,如果您想尝试包含地理空间分析的数据库处理,您的样本数据需要位置数据(鸟类!停车标志!)。要扩展您对数据库搜索功能的了解(因为最终您想要加快生产数据库中的内部搜索),请选择一个庞大的数据集(恒星!钻石!);您的性能测试需要一些东西来处理。当您想学习如何创建让每个人都说“哇!”的数据可视化时,选择一个以数字为主的数据集。等等。
不要因为选择这些数据集中的一个而感到愚蠢。使用现有的内部数据来进行入门项目是一个坏主意。处理真实客户数据会引起隐私问题,尤其是在您没有出于收集它的目的使用它时。
您当然不能在行业会议上使用真实信息。但是,当您在龙与地下城上下文中描述图数据库的基本知识时,您可以娱乐和吸引观众。心理模型帮助我们用熟悉的例子重新构建我们的知识,将抽象函数转化为实际分析。
而且,从个人经验来看,如果您的目的是向老板展示一项技术概念验证(“如果我们部署了此数据库功能,我们可以实现什么!”),他们可能会被“真实”数据分散注意力。(真实故事。一位用户看到了“玩工具”实验的输出——“显示按星期几显示的酒店预订图”——并说,“哦,我每月可以得到一份这份报告的副本吗?”)
如果您有兴趣收集数据集(哦,看,一个数据集的集合!),我强烈推荐 Data is Plural 新闻通讯,我大量借鉴了它来提供我的建议。您还应该访问并订阅 ResearchBuzz,它分享数据集描述以及与存档相关的新闻和工具(最近的一个例子:使用 WikiRSS 将维基百科变成 RSS 搜索引擎)。Google Research 还维护了一个测试数据集的搜索网站,如果您知道自己在寻找什么。
如果您在个人项目中使用了这些数据集中的任何一个,请告诉我!