以下是 CSV 格式的原始输出示例:

Your go-to forum for bot dataset expertise.
Post Reply
fomayof928@mowline
Posts: 563
Joined: Sun Dec 22, 2024 4:02 am

以下是 CSV 格式的原始输出示例:

Post by fomayof928@mowline »

很容易看出这些数据本身有多么有用,但是当我们清理它并开始抓取排名 URL 时,它会变得更加强大。

步骤5:清理并规范化您的 STAT URLs 数据。
此时您将花费 1-2 小时收集初始数据。这一步稍 巴基斯坦电报数据库 微耗费一些时间,但清理数据可以让你执行更高级的分析并在 Screaming Frog 中发现更多有用的见解。

以下是我对 STAT 分类数据所做的更改,为 Screaming Frog 和 Power BI 中的下一步做准备。您最终将得到多列 URL。每个东西以后都会有自己的用途。

将“排名 URL”列复制到名为“规范化 URL”的新列中。
使用Excel 的“文本到列”工具和“?”从规范化的 URL 字段中删除 URL 参数,方法是用 分隔它们。我删除了包含 URL 参数的新列,因为它们对我的分析没有帮助。
将新的、干净的规范化 URL 列复制到名为 TLD 的新列中。在 TLD 列上使用文本到列工具,并用“/”分隔,以删除除域名和子域之外的所有内容。删除新列。我选择将子域名保留在我的 TLD 列中,但如果这有助于您的分析,您可以删除它们。
最后,创建另一个名为“Full URL”的列,它最终将成为您在 Screaming Frog 中抓取的 URL 列表。要创建完整的 URL,只需使用Excel 的 CONCATENATE 函数合并协议和规范化的 URL 列.您的公式看起来像这样:=concatenate(A1, "://", C1) 将“://”添加到有效的 URL 字符串。

我的数据集有 25,000 多行,在 Excel 的限制范围内,因此我可以轻松地将数据合并到一个地方。随着数据集的增长,您可能需要使用数据库(我喜欢 BigQuery)。
Post Reply