欢迎访问北单实体店微信:200833335

足球赛事

您现在的位置是: 主页 > 北单体育资讯 > 北单头条资讯

北单头条资讯

如何抓取今日头条数据(Ajax加载)及相关采集步骤

发布时间:2025-04-06 05:01 北单头条资讯 作者:北单实体店微信:200833335
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 [链接] 为例来采集列表的文章 用谷歌浏览器打开链接,右键......

当今头条新闻中的数据由Ajax加载显示。根据普通URL,数据不能爬行。您需要分析负载地址。让我们以它为例,以收集列表中的文章。

使用 打开链接,右键单击“检查”,然后切换到控制台,然后单击XHR。这样,您可以过滤不必要的请求,例如图片,文件等。仅查看页面内容的请求。

由于该页面由Ajax加载,因此将页面拉到底部将自动加载更多文章。目前,控制台捕获的链接是我们真正需要的列表页面链接:

在蓝天收藏家中创建一个任务

创建完成后,单击“收集器设置”,然后填写上面在“开始页面URL”中捕获的链接。

接下来,匹配内容页面URL,标题的文章URL的格式为

单击“内容页URL”以编写“匹配内容URL”规则:

(?+/)

这是一个常规规则,这意味着将匹配的URL加载到捕获组中,然后填写下面的[内容1],即,以上相应的一个可以获取内容页面链接。

您可以单击测试以查看链接是否成功爬行

爬行成功后,您可以开始获得内容

单击“获取内容”以在字段列表的右侧添加默认字段,例如标题,文本等,以明智地识别它们。如果您需要准确,则可以自己编辑字段,并支持匹配的内容,例如常规,XPATH,JSON等。

我们需要获取文章的标题和文字。由于Ajax显示了它,因此我们需要编写规则以匹配内容,分析文章的源代码:,查找文章的位置

标题规则:: s {:s'[ 1]',

文本规则:s'[ 1]',s*

规则必须是唯一的,否则它们将匹配其他内容。将规则添加到字段中,并获取选择要匹配的规则的方法:

编写规则后,单击“保存”并单击“测试”以查看结果如何

规则是正确的,爬行是正常的,并且爬行的数据也可以发布到CMS系统,直接数据库存储,保存为Excel文件等。单击底部的导航栏的“发布设置”。好的,今天的头条新闻的收藏就在这里。您不妨尝试一下!

广告位