我们能多准确地预测博物馆参观人数的大致规模?
Posted: Sat Feb 22, 2025 10:07 am
然后,我们使用两种不同的机器学习算法,获取一组输入变量的数据,即博物馆类型、地方当局的人口和 IMD 指数、场馆的 FourSquare 签到次数和认证状态,以预测博物馆所在的规模组。
我们使用的第一个算法是k-最近邻(k-NN) 分类器。该算法通过选取相关博物馆,并查看在距离该博物馆最近的 k 个博物馆中最常见的分类,来预测博物馆应归入哪个规模组 - 在数学意义上最接近,即在输入测试数据中具有最相似的特征(例如相似的 FourSquare 签到、贫困分数等)。例如,如果我们要预测博物馆的规模组,并且与我们的博物馆特征最相似的三个博物馆中有两个是大型博物馆,一个是中型博物馆,那么在 k=3 的 k-邻居分类器上,我们的博物馆将被预测为大型类别,因为它是最常见的邻居。
第二个模型是支持向量机(SVM)。它使用另一种策略对数据进行分类。原则上,人们会期望同一类别中的博物馆具有相似的特征,例如大型博物馆的 FourSquare 签到次数会更多,并且比中型和小型博物馆更有可能位于伦敦。SVM 试图创建一组数学边界,尽可能清晰地区分不同类型博物馆的数据。当边界输入博物馆特征的数据时,它们会返回博 建筑师数据 物馆是否属于边界定义的大、小或中“区域”,作为对博物馆规模的预测。SVM 试图选择这些边界以使预测尽可能准确。我们使用的第三个模型是 SVM 的变体,它允许使用更复杂的边界来区分三种类型的博物馆,例如弯曲边界而不是直线。[6]
按照机器学习的惯例,我们将已知访问次数的数据集部分分成两个子集:用于开发模型的训练数据和用于测试模型性能的测试数据。一旦选择了测试数据集,就不能再使用它来训练模型。测试数据集可以看作是“未来”的数据点,我们假装不知道真正的标签并用它来测试模型;实际上,我们当然知道标签(即博物馆的访问次数,以及它属于三个组中的哪一类),我们通过将已知标签与估计标签进行比较来评估机器学习模型的性能。[7]对于这项工作,我们选择了一个由从样本中随机选择的 81 个博物馆组成的测试数据集。
总体而言,我们发现 FourSquare 签到数据可以让我们比其他方式更好地预测博物馆参观人数。在使用 FourSquare 和非 FourSquare 数据预测博物馆规模时,表现最好的模型是 k=15 的 k-NN,即,根据已知特征与其最相似的 15 个博物馆的规模来预测每个博物馆的规模。这正确确定了测试样本中的 46 个(56.79%)规模类别。有趣的是,所有的错误都是由于模型高估了场馆的规模:17 个场馆被估计为大型,但实际上它们较小;17 个小型场馆被估计为中等。以下是预测规模与实际规模的完整细分。
我们使用的第一个算法是k-最近邻(k-NN) 分类器。该算法通过选取相关博物馆,并查看在距离该博物馆最近的 k 个博物馆中最常见的分类,来预测博物馆应归入哪个规模组 - 在数学意义上最接近,即在输入测试数据中具有最相似的特征(例如相似的 FourSquare 签到、贫困分数等)。例如,如果我们要预测博物馆的规模组,并且与我们的博物馆特征最相似的三个博物馆中有两个是大型博物馆,一个是中型博物馆,那么在 k=3 的 k-邻居分类器上,我们的博物馆将被预测为大型类别,因为它是最常见的邻居。
第二个模型是支持向量机(SVM)。它使用另一种策略对数据进行分类。原则上,人们会期望同一类别中的博物馆具有相似的特征,例如大型博物馆的 FourSquare 签到次数会更多,并且比中型和小型博物馆更有可能位于伦敦。SVM 试图创建一组数学边界,尽可能清晰地区分不同类型博物馆的数据。当边界输入博物馆特征的数据时,它们会返回博 建筑师数据 物馆是否属于边界定义的大、小或中“区域”,作为对博物馆规模的预测。SVM 试图选择这些边界以使预测尽可能准确。我们使用的第三个模型是 SVM 的变体,它允许使用更复杂的边界来区分三种类型的博物馆,例如弯曲边界而不是直线。[6]
按照机器学习的惯例,我们将已知访问次数的数据集部分分成两个子集:用于开发模型的训练数据和用于测试模型性能的测试数据。一旦选择了测试数据集,就不能再使用它来训练模型。测试数据集可以看作是“未来”的数据点,我们假装不知道真正的标签并用它来测试模型;实际上,我们当然知道标签(即博物馆的访问次数,以及它属于三个组中的哪一类),我们通过将已知标签与估计标签进行比较来评估机器学习模型的性能。[7]对于这项工作,我们选择了一个由从样本中随机选择的 81 个博物馆组成的测试数据集。
总体而言,我们发现 FourSquare 签到数据可以让我们比其他方式更好地预测博物馆参观人数。在使用 FourSquare 和非 FourSquare 数据预测博物馆规模时,表现最好的模型是 k=15 的 k-NN,即,根据已知特征与其最相似的 15 个博物馆的规模来预测每个博物馆的规模。这正确确定了测试样本中的 46 个(56.79%)规模类别。有趣的是,所有的错误都是由于模型高估了场馆的规模:17 个场馆被估计为大型,但实际上它们较小;17 个小型场馆被估计为中等。以下是预测规模与实际规模的完整细分。