雀恰营销
专注中国网络营销推广

网页爬虫,快速入门爬虫2-完整采集一个网站的数据

网页爬虫,快速入门爬虫2-完整采集一个网站的数据

欢迎来到小白的数据梦工厂,很高兴你对爬虫感兴趣,想学习爬虫,或者想从网页收集一些数据。

我先自我介绍一下。我是八达通创始人刘宝强。八达通是全球领先的网络数据采集平台,每天为全球70万家公司和个人采集数亿条数据。恭喜您在爬行动物的众多入门方式中选择章鱼,这是一个很好的起点,您将从一开始就站在巨人的肩膀上!

阅读这篇文章大约需要 15 分钟。

这是爬虫快速入门的第二部分,第一个链接:爬虫快速入门1-0基础合集介绍

本系列文章将带领你从0基础开始,一步一步,从采集一个简单的网页,到复杂的列表,多页数据,Ajax页面,瀑布流等等,直到应对常见封IP,验证码等防采集措施,包括采集淘宝,京东,微信,大众点评等热门网站。由浅入深,循序渐进的深入网页数据采集领域,相信认真学完本系列,你也会成为采集大神,有能力把互联网变成自己的数据库(这一段提到了Ajax等专业数据,你可能不懂,但有个好消息:到目前为止你不需要了解这些技术概念)。

要学习本内容,首先需要掌握以下知识:

已经学习了第一部分:快速入门Crawler-0基础收藏介绍,这意味着你了解了基础知识并成功安装了八爪鱼收集器,这些在第一篇文章中有详细的解释。

截止本文发布时,八爪鱼采集器的最新版本是7.1.8,下载地址是:http://www.bazhuayu.com/download

学完本内容,你将掌握以下内容:

网页爬虫,快速入门爬虫2-完整采集一个网站的数据

了解如何收集列表数据。了解如何翻页实现多页数据采集。

在第一篇文章中,我们成功收集了一条数据。您可能认为收集一条数据是没有用的。收集一条数据的最快方法是手动复制它。它可能在几十块之内。复制,在实际应用场景中,我们经常需要收集成百上千甚至上百万的数据。因此,第一篇文章的意义在于学习如何通过软件工具实现自动采集。

在真实场景中,大部分网站数据可能是这样的(如下图所示):

一个网站有很多分类,每个分类都有很多数据,通常每个分类都是一个页面网页爬虫,快速入门爬虫2-完整采集一个网站的数据,里面有一个列表或者表格,还有翻页功能。以知名的京东商城为例。京东有很多产品品类(categories),每个品类(比如手机)都有一个手机数据列表(data list)。此列表页面包含 60 款手机的基本数据。每部手机(列表项)都有价格、标题、销量(字段)等多项具体信息,页面底部有翻页链接区,可以点击下一页查看基本第二页其他60部手机的数据。

常见网站数据结构图

上面提到的概念在我们收集数据的时候经常用到:分类、Lists、数据项、数据字段、翻页;如果你看到一个网站,你可以在脑海中构建网站的数据结构,收集变得非常容易。

这里,我为大家准备了一个样例网站:演示网站-电影数据分类,网址:/guide/demo/genremoviespage1.html,可以对比一下上面常见的网站数据结构图我们来看看在这个网站上网页爬虫,是不是很相似? ?

示例网站截图(带有网站数据结构标记)

如果我们不使用工具并手动复制数据收集,我们一定要这样做:

在浏览器中打开此网站。复制第一部电影的数据:标题肖申克的救赎类型犯罪评级9.2 年上映时间 1994 年 142 分钟。粘贴到 Excel 中,另存为 5 列。重复上述步骤 2,直到复制第一页上 3 部电影的数据。在翻页区点击“下一页”链接,重复步骤2、3,然后再次点击“下一页”,以此类推,直到到达最后一页(最后一页没有“下一页”链接)。

那么如何使用八达通工具呢?还记得第一篇提到的章鱼采集的核心原理吗?

八达通采集的核心原理是:模拟人们浏览网页和复制数据的行为,通过记录和模拟人们的一系列上网行为网页爬虫,快速入门爬虫2-完整采集一个网站的数据,代替人眼浏览网页,手动复制网页数据代替人眼人们。这样就实现了从网页自动采集数据,然后通过不断重复一系列设定的动作过程,自动采集大量数据。

你可能已经想好要做什么了,别着急,我们试着把我们的想法画成流程图,应该是这样的:

让我解释一下这个流程图的具体步骤:

蓝色方块代表一些步骤,黑色圆角矩形线框代表我们要重复的一个或多个步骤。

打开本网站的分类数据录入页面,也就是刚才的示例网址。接下来是需要重复的步骤:循环点击下一页,黑色矩形线框内的部分需要重复。它包含另一个需要重复的步骤:循环播放每部电影。同样,让我们​​看看里面。有一个蓝色的步骤:提取每个字段的数据。这就是我们现在需要做的,让 Octopus 鱼工具自动提取每个字段。执行完最后一个蓝色步骤后,需要重复执行此蓝色步骤,直到自动提取出第一页三部电影的数据。至此,“循环每部电影”的步骤就完成了。然后我们执行下面的蓝色步骤:点击下一页,所以网页会跳转到第2页,我们重复步骤2和3,然后“点击下一页”,以此类推,直到收集到最后一页。此时页面上没有“下一页”链接,“循环点击下一页”外的重复步骤就结束了,整个流程就结束了。

将手动复制数据的4个步骤与使用八达通工具采集的流程图仔细对比,你会发现它们非常相似,可以说是一模一样的过程。这再次说明章鱼就像一个机器人,模拟人类的思维和网络行为以及复制数据的过程。虽然每个网站都不一样,但好消息是:任何复杂的网站都可以用这个简单的思路来做,想想人们是怎么做的,然后在八达通中设置相应的工作流程,就可以实现对任何网站的采集。这就是八达通能够以不断的适应能力捕获任何网站的秘诀。

看到这里,或许你已经迫不及待想要实际操作它来验证我们的想法了。下面我们来看看如何实际操作它:

打开八达通采集设备,点击“自定义采集”按钮→点击左上角“新建任务”按钮进入任务配置页面,然后输入网址(/guide/demo/genremoviespage1.html) → 保存URL,系统会进入工艺设计页面并自动打开输入的URL。

操作录屏-步骤一

2. 网页打开后,随着鼠标的移动,有一个蓝色的背景表示内容。八达通内置了自己专门开发的浏览器来收集数据。除了像其他浏览器一样显示网页外,这款浏览器还增加了很多功能来支持收藏。其中之一是当鼠标移动到不同的内容时,相应的内容会自动标记为蓝色背景。当用户点击鼠标时,该区域将被选中并标为绿色,并弹出操作提示框,已自动识别出章鱼。我们选择的区域包括多个数字字段(子元素),用红色虚线框标记(表示预选)。我们点击第一个选项“选择子元素”,预选的多个数据字段就会被正式选中。选中并标记为绿色,这些字段也将显示在提示界面的表格中。然后八达通提醒我们:找到了3组相似的元素,也就是它自动找到了另外2部电影的数据,并且也是用红色虚线框预选的,我们选择了第一个选项“全选”,然后所有电影的选定数据。

操作录屏-第二步

在第二步中,我们接触到了几个新的东西:子元素、智能提示框、各种颜色选择技巧,有兴趣的可以看看下面的详细说明,当然也可以跳过直接操作第3步。

智能提示框:

为了记录人们收集数据的步骤网页爬虫,八达通会在用户选择要操作的网页内容时,让用户选择要执行的操作,例如,用户选择一个链接,可以选择提取链接文字、URL链接、或点击链接等。八达通的智能提示不仅可以让用户选择操作,还可以为用户预测最有可能的下一步动作。通过对网页数据的智能分析,八达通会自动发现数据字段和相似数据项,从而引导用户。操作。 4是不是4很聪明,很贴心?

选择提示颜色:

蓝色表示鼠标当前位于哪个内容区域。

绿色表示我们点击了选中的内容。

红色虚线表示系统智能识别并预测你要选择的内容。

子元素:

当我们选择一个包含多个数据字段的区域时,Octopus 称我们选择的区域为一个“元素(English Element,这是一个技术词)”,其中每个数据字段称为“子元素”,一个元素可能包含多个“子元素”。

3. 我们已经选择了上一步中的所有数据。在我们决定收集这些字段之前,让我们先检查一下表格。您会发现标题本身也被提取为字段。其实我们只要真正的标题不是标题,我们可以直接删除提示框表单中的“字段1”,其他几个多余的字段同样删除,然后修改我们想要的字段的字段名单击收集以确认数据字段。

操作录屏-第三步

4.我们现在已经收集了第一页的所有数据,一共3页,然后我们设置翻页,点击下面的“下一页”按钮,章鱼自动识别这是下一页链接,我们选择“循环点击下一页”选项,这样系统就会翻页并抓取每一页,直到最后一页。点击开始采集,在弹出的窗口中选择“开始本地采集”,会打开采集窗口。

操作录屏-第四步

总结:

恭喜!您已成功收集到一个电影网站的所有数据。您可以使用相同的方法来收集任何包含列表、表格和页面的网站。您在收藏之路上又取得了一个里程碑。我们会继续深入学习更多的技巧,一步步成为收藏大神。

如果您有任何问题或想法想与我分享,请在下面的评论部分留言。也可以关注我的知乎与我互动:点击关注“刘宝强的知乎”。同时,欢迎关注我的知乎专栏新文章通知:点击关注“小白的数据梦工厂”

赞(0) 打赏
未经允许不得转载:雀恰营销 » 网页爬虫,快速入门爬虫2-完整采集一个网站的数据
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

文章对你有帮助就赞助我一下吧

支付宝扫一扫打赏

微信扫一扫打赏