如何抓取今日头条数据(Ajax加载)及相关采集步骤
当今头条新闻中的数据由Ajax加载显示。根据普通URL,数据不能爬行。您需要分析负载地址。让我们以它为例,以收集列表中的文章。
使用 打开链接,右键单击“检查”,然后切换到控制台,然后单击XHR。这样,您可以过滤不必要的请求,例如图片,文件等。仅查看页面内容的请求。
由于该页面由Ajax加载,因此将页面拉到底部将自动加载更多文章。目前,控制台捕获的链接是我们真正需要的列表页面链接:
在蓝天收藏家中创建一个任务
创建完成后,单击“收集器设置”,然后填写上面在“开始页面URL”中捕获的链接。
接下来,匹配内容页面URL,标题的文章URL的格式为
单击“内容页URL”以编写“匹配内容URL”规则:
(?+/)
这是一个常规规则,这意味着将匹配的URL加载到捕获组中,然后填写下面的[内容1],即,以上相应的一个可以获取内容页面链接。
您可以单击测试以查看链接是否成功爬行
爬行成功后,您可以开始获得内容
单击“获取内容”以在字段列表的右侧添加默认字段,例如标题,文本等,以明智地识别它们。如果您需要准确,则可以自己编辑字段,并支持匹配的内容,例如常规,XPATH,JSON等。
我们需要获取文章的标题和文字。由于Ajax显示了它,因此我们需要编写规则以匹配内容,分析文章的源代码:,查找文章的位置
标题规则:: s {:s'[ 1]',
文本规则:s'[ 1]',s*
规则必须是唯一的,否则它们将匹配其他内容。将规则添加到字段中,并获取选择要匹配的规则的方法:
编写规则后,单击“保存”并单击“测试”以查看结果如何
规则是正确的,爬行是正常的,并且爬行的数据也可以发布到CMS系统,直接数据库存储,保存为Excel文件等。单击底部的导航栏的“发布设置”。好的,今天的头条新闻的收藏就在这里。您不妨尝试一下!