北单头条资讯

如何抓取今日头条数据（Ajax加载）及相关采集步骤

发布时间：2025-04-06 05:01 北单头条资讯次作者：北单实体店微信:200833335

今日头条的数据都是ajax加载显示的，按照正常的url是抓取不到数据的，需要分析出加载出址，我们以 [链接] 为例来采集列表的文章用谷歌浏览器打开链接，右键......

当今头条新闻中的数据由Ajax加载显示。根据普通URL，数据不能爬行。您需要分析负载地址。让我们以它为例，以收集列表中的文章。

使用打开链接，右键单击“检查”，然后切换到控制台，然后单击XHR。这样，您可以过滤不必要的请求，例如图片，文件等。仅查看页面内容的请求。

由于该页面由Ajax加载，因此将页面拉到底部将自动加载更多文章。目前，控制台捕获的链接是我们真正需要的列表页面链接：

在蓝天收藏家中创建一个任务

创建完成后，单击“收集器设置”，然后填写上面在“开始页面URL”中捕获的链接。

接下来，匹配内容页面URL，标题的文章URL的格式为

单击“内容页URL”以编写“匹配内容URL”规则：

（？+/）

这是一个常规规则，这意味着将匹配的URL加载到捕获组中，然后填写下面的[内容1]，即，以上相应的一个可以获取内容页面链接。

您可以单击测试以查看链接是否成功爬行

爬行成功后，您可以开始获得内容

单击“获取内容”以在字段列表的右侧添加默认字段，例如标题，文本等，以明智地识别它们。如果您需要准确，则可以自己编辑字段，并支持匹配的内容，例如常规，XPATH，JSON等。

我们需要获取文章的标题和文字。由于Ajax显示了它，因此我们需要编写规则以匹配内容，分析文章的源代码：，查找文章的位置

标题规则：： s {：s'[ 1]'，

文本规则：s'[ 1]'，s*

规则必须是唯一的，否则它们将匹配其他内容。将规则添加到字段中，并获取选择要匹配的规则的方法：

编写规则后，单击“保存”并单击“测试”以查看结果如何

规则是正确的，爬行是正常的，并且爬行的数据也可以发布到CMS系统，直接数据库存储，保存为Excel文件等。单击底部的导航栏的“发布设置”。好的，今天的头条新闻的收藏就在这里。您不妨尝试一下！

广告位