科技的大数据吗?

储成储成最佳答案最佳答案

大数据(big data)是一种新兴的技术,它涉及到很多学科和技术领域。在本文中,我们将讨论有关大数据的一些基本概念和原理,以及如何使用它们来构建数据可视化。我们使用的数据集是 2015 年美国新生儿的出生数据和人口统计信息。这些数据来自美国政府的开放政府倡议项目,可以在以下网址找到: https://www.cgdev.org/open-data/dataverse。 为了便于展示,我们对数据进行一些简单的预处理: 在我们的例子中,每个节点代表一个州,节点的值表示每年的新生儿数量,边代表的边代表两个州之间的人口流动。我们需要计算每年新生婴儿的数量和每对州之间的人口流量。对于每个节点,我们还需要知道它的父节点,以获取完整的路径。

最后,我们得到了一个包含以下属性的数据集: 由于我们的目标是从广泛的数据集生成有意义且易于解释的结果,所以我们使用了随机森林分类算法来预测新生儿性别。该方法采用基于树的机器学习技术,可以处理高度细分的问题,并在有限的数据集中产生良好的结果。我们使用 R 的 randomForest 包来进行建模。

下面是我们用来训练模型的数据集: 为了进行比较,我们还使用了逻辑回归和一个叫做“brute force”的方法来预测新生儿的性别。

“brute force”是一种穷举搜索的方法,对所有可能的新生儿性别组合进行测试,并以一定的时间复杂度为代价来换取准确度。虽然我们并没有试图优化超参数或做任何其他改进,但这个方法产生的结果与随机森林非常接近,而随机森林是使用所有可能的新手型参数优化的。这说明了随机森林的有效性;即使我们没有尝试优化模型的超参数,随机森林仍然能够学习到重要的特征。 除了使用随机森林外,我们还在模型中加入了其他特征。除了新生儿性别外,我们添加了出生体重(weight)、是否早产(preterm)以及其他相关特征,如母亲的年龄、种族等。这些额外的特征被证明对模型的性能有重要影响。

利用模型的结果,我们可以生成关于新生儿性别预测的未来路径,如下所示: 对于每个节点,我们首先显示出其对应的母亲的新生儿性别预测、实际新生儿性别以及错误类型: 然后,我们可以绘制出一条从节点开始的所有路径的预测误差曲线: 这样我们就可以看到如果给定一个未知新手的起点,我们如何估计它可能达到的任何终点的错误率。

通过将预测误差曲线与树的高度关联起来,我们可以更好地理解模型的误差来源。更具体地说,在树的高度为 47 时,我们达到了一个误差低点,对于此后生成的任何新的路径,我们都相信它将是正确的。如果我们在某个时刻误将男婴判定为女婴,那么肯定是因为该错误发生在 47 个节点之前。同样地,如果我们最终将正确的性别赋予了一个新生的婴儿,那么我们肯定是从一个具有正确性别的节点开始并进行了正确的分支。只要我们能跟踪错误发生的枝干,就可以纠正模型的错误并提高其精度。 使用类似的方法,我们可以重建整个网络,重新排列边的方向以反映从父节点到子节点的真实流向,并将边上的权重替换为我们所建的模型的预测。这样就可以根据边界条件(starting from an unknown baby)生成无限多条符合实际情况的路径。

我来回答
请发表正能量的言论,文明评论!