excel爬虫与数据整理

通过识别列表进行数据抽取

以孔夫子旧书网(http://www.kongfz.com/1004/)为例:

一.网站结构

1.网站截图说明

该网站为列表结构 可以通过识别列表的方式对全篇数据进行抽取

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(1)

【网站列表页】

2.采集结果截图

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(2)

【采集数据结果】

二.配置模板

1.新建任务

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(3)

【新建任务】

点击【下一步】,需要采集每一页检索结果并抽取数据 所以此处需要勾选【普通翻页】和【数据抽取】,如图:

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(4)

【新建采集任务】

2.创建/选择表单

①创建表单

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(5)

【创建表单】

②配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、作者名称、标题名称、价格等四个字段 以配置发布时间(pubtime)为例

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(6)

【配置表单】

③数据抽取链接关联表单

选择刚才新创建的表单''孔夫子''

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(7)

【关联表单】

3.字段定位

取值方法:由于此处活取的是列表页的数据,所以可以应用“识别列表”功能,直接取到列表数据,操作方法如下:

①点击“数据抽取-孔夫子”,按住ctrl 鼠标左键点击定位标题内容

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(8)

【定位标题】

②按住Shift 鼠标左键继续点击,直到点击到选中整个第一条数据

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(9)

【定位第一条数据】

③在软件的右下角可以看到“识别列表”按钮 ,此时点击“识别列表”,如下图,此时列表中的内容都已经选中。

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(10)

【定位全数据】

④对每个字段进行取值 方法依然是:按住Ctrl 鼠标左键,进行区域选择,按住Shift 鼠标左键,扩大选择区域。如:price字段 见下图:

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(11)

【字段定位】

4.模板预览

鼠标右键点击“孔夫子”,然后点击“模板预览”

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(12)


【模板预览】

5.过滤翻页链接

勾选标题过滤 过滤规则选择包含 填入''下一页''

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(13)

【过滤翻页】

三.数据采集

1.连接数据库

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(14)

【连接数据库】

2.创建数据表

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(15)

【创建数据表】

3.选中数据表

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(16)

【关联数据表】

4.开始采集

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(17)

【开始采集】

5.采集结果

excel爬虫与数据整理 教程(ForeSpider采集教程发布表格类)(18)

【采集结果】


更多大数据咨询可关注公众号【前嗅大数据】(ID:forenose)

定期分享各行各业大数据情报 、竞品分析、AI舆情监控报告、SEO知识分享等干货。

我们不止做数据采集,燃爆AI 大数据

你想要的 我们都有!

〖特别声明〗:本文内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。如有侵犯您的原创版权或者图片、等版权权利请告知 wzz#tom.com,我们将尽快删除相关内容。

赞 ()
打赏 微信扫一扫 微信扫一扫

相关推荐