通过识别列表进行数据抽取
以孔夫子旧书网(http://www.kongfz.com/1004/)为例:
一.网站结构
1.网站截图说明
该网站为列表结构 可以通过识别列表的方式对全篇数据进行抽取
【网站列表页】
2.采集结果截图
【采集数据结果】
二.配置模板
1.新建任务
【新建任务】
点击【下一步】,需要采集每一页检索结果并抽取数据 所以此处需要勾选【普通翻页】和【数据抽取】,如图:
【新建采集任务】
2.创建/选择表单
①创建表单
【创建表单】
②配置表单
根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、作者名称、标题名称、价格等四个字段 以配置发布时间(pubtime)为例
【配置表单】
③数据抽取链接关联表单
选择刚才新创建的表单''孔夫子''
【关联表单】
3.字段定位
取值方法:由于此处活取的是列表页的数据,所以可以应用“识别列表”功能,直接取到列表数据,操作方法如下:
①点击“数据抽取-孔夫子”,按住ctrl 鼠标左键点击定位标题内容
【定位标题】
②按住Shift 鼠标左键继续点击,直到点击到选中整个第一条数据
【定位第一条数据】
③在软件的右下角可以看到“识别列表”按钮 ,此时点击“识别列表”,如下图,此时列表中的内容都已经选中。
【定位全数据】
④对每个字段进行取值 方法依然是:按住Ctrl 鼠标左键,进行区域选择,按住Shift 鼠标左键,扩大选择区域。如:price字段 见下图:
【字段定位】
4.模板预览
鼠标右键点击“孔夫子”,然后点击“模板预览”
【模板预览】
5.过滤翻页链接
勾选标题过滤 过滤规则选择包含 填入''下一页''
【过滤翻页】
三.数据采集
1.连接数据库
【连接数据库】
2.创建数据表
【创建数据表】
3.选中数据表
【关联数据表】
4.开始采集
【开始采集】
5.采集结果
【采集结果】
更多大数据咨询可关注公众号【前嗅大数据】(ID:forenose)
定期分享各行各业大数据情报 、竞品分析、AI舆情监控报告、SEO知识分享等干货。
我们不止做数据采集,燃爆AI 大数据
你想要的 我们都有!
〖特别声明〗:本文内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。如有侵犯您的原创版权或者图片、等版权权利请告知 wzz#tom.com,我们将尽快删除相关内容。