当前位置:文档之家› 网页文章正文采集方法,以微信文章采集为例

网页文章正文采集方法,以微信文章采集为例

网页文章正文采集方法,以微信文章采集为例
网页文章正文采集方法,以微信文章采集为例

https://www.doczj.com/doc/283013551.html,

网页文章正文采集方法,以及微信文章采集为例

当我们想要将今日头条上的新闻、搜狗微信上的文章正文内容保存下来的时候,怎么办?一篇篇复制粘贴?选择一款通用的网页数据采集器,将会使工作简单很多。

八爪鱼是一款通用的网页数据采集器,可采集互联网上的公开数据。用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据,什么时候去爬取数据,爬取的数据如何保存等等。

言归正传,本文将以搜狗微信的文章正文采集为例,讲解使用八爪鱼采集网页文章正文的方法。文章正文采集,主要有两大类情况:一、采集文章正文中的文本,不含图片;二、采集文章正文中的文本和图片URL。

示例网站:https://www.doczj.com/doc/283013551.html,/

使用功能点:

Xpathhttps://www.doczj.com/doc/283013551.html,/search?query=XPath

判断条件https://www.doczj.com/doc/283013551.html,/tutorialdetail-1/judge.html

分页列表信息采集https://www.doczj.com/doc/283013551.html,/tutorial/fylb-70.aspx?t=1

AJAX滚动教程https://www.doczj.com/doc/283013551.html,/tutorialdetail-1/ajgd_7.html

AJAX点击和翻页https://www.doczj.com/doc/283013551.html,/tutorialdetail-1/ajaxdjfy_7.html

https://www.doczj.com/doc/283013551.html,

一、采集文章正文中的文本,不含图片

具体步骤:

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

网页文章正文采集步骤1

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤2

步骤2:创建翻页循环

1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,默认显示“热门”文章。下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中,选择“更多操作”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤3

2)选择“循环点击单个元素”,以创建一个翻页循环

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤4

由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤5

注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。具体请看

AJAX点击和翻页教程:https://www.doczj.com/doc/283013551.html,/tutorialdetail-1/ajaxdjfy_7.html

观察网页,我们发现,通过5次点击“加载更多内容”,页面加载到最底部,一共显示100篇文章。因此,我们设置整个“循环翻页”步骤执行5次。选中“循环翻页”步骤,打开

https://www.doczj.com/doc/283013551.html,

“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”

网页文章正文采集步骤6

步骤3:创建列表循环并提取数据

1)移动鼠标,选中页面里第一条文章链接。系统会自动识别相似链接,在操作提示框中,选择“选中全部”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤7

2)选择“循环点击每个链接”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤8

3)系统会自动进入文章详情页。点击需要采集的字段(这里先点击了文章标题),在操作提示框中,选择“采集该元素的文本”。文章发布时间、文章来源字段的采集方法同理

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤9

4)接下来开始采集文章正文。先点击文章正文的第一段,系统会自动识别页面内的同类元素,选择“选中全部”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤10

5)可以看到,所有的正文段落均被选中,变为绿色。选择“采集以下元素文本”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤11

注意:在字段表中,可进行字段的自定义修改

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤12

6)经过如上操作,正文就会被全部采集下来(默认为每一段正文为一个单元格)。一般而言,我们希望采集的正文,合并为同一个单元格。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次提取合并为一行,即追加到同一字段,例如正文分页合并”,再点击“确定”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤13

“自定义数据字段”按钮

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤14

选择“自定义数据合并方式”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤15

如图进行勾选

步骤4:修改Xpath

1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的是固定元素列表,定位的是前20篇文章的链接

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤16

2)在火狐浏览器中打开要采集的网页并观察源码。我们发现,通过此条Xpath:

//DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面中所需的100篇文章均被定位了

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤17

3)将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤18

步骤5:修改流程图结构

我们继续观察,通过5次点击“加载更多内容”后,此网页加载出全部100篇文章。因而我们配置规则的思路是,先建立翻页循环,加载出全部100篇文章,再建立循环列表,提取数据

1)选中整个“循环”步骤,将其拖出“循环翻页”步骤。如果不进行此项操作,那么将会出现很多重复数据

https://www.doczj.com/doc/283013551.html,

网页文章正文采集步骤19

拖动完成后,如下图所示

微信网页版(最新)

(点击下图可直接进行访问) 在信息化社会,面对老年人的“数字困境”,需要年轻人来帮助父母和祖父母辈,进行“文化反哺” 语音聊天、视频通话、转发分享、点赞收藏……在社交软件上,年轻人信手拈来的操作,对家里的老年人而言可能会非常复杂。不久前,浙江杭州一个女孩为外婆手绘了一份“微信使用说明书”,字迹工整、内容详细、图文并茂,打动了很多网友,也将老年人如何更好适应数字生活的话题,再次带进公众视野。 如今,得益于数字化、信息化的发展,智能生活加速推进,为人们带来更多便利。然而,一些老年人对此却感到力不从心。在火车站,电子客票的推广极大节省了旅客出行的时间,却也给不会网上购票的老人增加了难度;在医院,预约挂号有助于就医问诊秩序井然,但一筹莫展的老人不得不站在挂号机前寻求导医帮助;在餐厅,扫码点餐、移动支付方便又卫生,而还在使用老年机的人就会无所适从。对上了年纪的人来说,看似微不足道的生活细节,也有可能构成一道数字鸿沟,造成日常生活的不便。新冠肺炎疫情防控期间,因为老年人没有健康码导致无法出入小区、乘坐公交的新闻,一度引起社会关注。 数字时代,不能落下那些年迈的身影。据统计,截至今年6月,在超过9 亿的网民中,60岁及以上人群占比为10.3%。让老年人口更好分享信息化时代的发展红利,需要以更多的耐心帮助他们,让他们更加顺畅地拥抱智能生活。如果说传统的教育模式是从父母一代到子女一代的知识传递,那么在信息化社会,面对老年人的“数字困境”,需要年轻人来帮助父母和祖父母辈,进行“文化反哺”。比如,在浙江嘉兴图书馆,有一门专门课程,教授如何开关手机、怎么联网、怎样使用相机等“常规操作”。2019年,8名馆员共组织了159场讲座,吸引了60岁到89岁的众多老人参与。这是一堂关于生活的课程,也体现了信息化时代的人文关怀。 对一些互联网平台来说,要针对老年人的需求提供替代选择,构建更具包容性的智慧老龄社会新形态。有专家建议,除了在技术开发中更加注重老年人需求和习惯外,在公共政策制定和公共服务方面,也要给老年人提供多元选择和替代方案。现实中,不少地方多措并举,帮助老年人融入移动互联网世界。在上海,有医院调大门诊标示、诊间字体,改善在线预约系统布局,致力优化老年就医环境,打造“老年友好界面”;在浙江杭州,市民卡和健康码深度融合,老年人刷一下卡就能看病就医、公交出行。可以说,给老年人在风驰电掣的“快时代”留个“慢选项”,才能填补代际间的数字沟壑,让老年人享受到数字时代的馈赠。 给予老年人更到位的关怀、更周全的考虑,老年人的数字生活不仅是美好愿景,也必将成为全面小康的生动注脚。如今,越来越多的老年人拥抱数字生活,创造别样的精彩。有的爷爷奶奶戴上老花镜,努力学扫码、手机看新闻、打视频电话,跟孩子们的交流顺畅无阻;有的老年人架起摄像头,在网上直播时尚穿搭、

选择微信网 版还是微信PC版

选择微信网页版还是微信P C版? 1、为什么使用网页版微信和PC版微信? 两个版本都是在电脑桌面端使用,优势主要体现在电脑端文字传输更加快捷,文件传输更加方便。在实际的产品使用场景中,我们可以看到很多用户都是一边低头使用手机处理微信的信息,一边抬头处理电脑上面的事情,操作起来非常麻烦,并且很多用户微信信息量很大,甚至还有办公需求,手机使用起来并不方便。这些都是电脑端微信出现的客观原因。 2、网页版和PC版有什么区别?哪个更好用? 两个版本的基本功能是类似的,包括文字聊天、文件传输,查看订阅号,组建群聊等功能,且都能与手机信息同步(消耗流量),都没有朋友圈。主要的差别体现在UI设计和交互设计方面。当然功能上也存在一些小的差别,比如网页版不能进行视频聊天和语音聊天,但是PC版可以做到。不看具体的用户场景就没法评价到底哪一个更好用,只能说各有优势,可以选一个适合自己的就行。(1)网页版每次登录时需要扫二维码,操作稍微繁琐,但是不需要下载客户端,在任何一台有浏览器的电脑上面都可以登录个人微信。网页版的搜索栏可以搜索好友信息,但是不能搜索公众号。此外,订阅号的阅读模式相对于PC版有很大的优势,尤其是对于订阅号较多且有阅读习惯的用户。 (2)PC版需要在电脑上下载客户端,不过安装包很小,适合在个人电脑上操作使用,登陆只需要在手机上点击确认。同时在语音聊

天和视频聊天上有很大的优势,搜索栏可以搜索到订阅的公众号,但是在查看订阅号内容上不是很方便。两个版本相比较,可以发现网页版更注重订阅号阅读模式,而PC版更注重个人聊天功能的完善。 3、如何看待网页版和PC版不能使用个人帐号登录而需要在手机确认登录? 微信是一个移动终端应用软件,从两个版本的功能和版本号来看,TX并无意将微信变成一个桌面终端应用,只是为了让用户更快捷方面的使用微信才推出了这两个电脑端使用的版本,因此没有提供帐号(QQ号、手机号,微信号,邮箱)登录方式。另一方面在手机端确认登录,这里面有一个很微妙的暗示作用,提醒用户,微信是你手机的私密空间,电脑端只是一个辅助性作用。由此也可以看出TX对于微信这个产品在移动设备上的重视程度。当然关于网页版的扫二维码登陆一方面可能是为了普及二维码的使用,毕竟移动互联时代,二维码已经成为了一个重要的入口。另一方面是在使用上体现一定的趣味性,扫二维码就能登陆帐号,比起用户名和密码登录更加灵活。微信是移动互联时代一个重要的产物,用户数量已经超过QQ,它的出现使得大家将PM张小龙神化,微信能够成为一个了不起的产品有太多值得探讨和学习的东西。当然,这里我只是将微信网页版和PC版做一个简单的介绍,推荐给大家。

关于微信网页版

二维码登录 点击工具栏微信按钮,则弹出微信登录的二维码面板: 掏出手机,打开微信->发现->扫一扫,扫描电脑上的二维码,并在手机上点击绿色按钮“确认登录“; 完成以上操作,即可成功的登录微信; 郭峰 登录后,微信聊天联系人的面板会自动在浏览器上以侧边栏形式打开,此时就可以一边上网一边与好友聊微信。 微信浏览器登录 由腾讯推出的QQ浏览器微信版(微信浏览器)进行登录时保留了网页版微信通过二维码登录的方式,但是微信界面将不再占用单独的浏览器标签页,而是变成左侧的边栏。这样的方便用户浏览网页的同时,使用微信。 微信网页版虽然已经在内测中,只有使用同样在内测中的微信iPhone4.2版扫 描官方页面上的二维码,才能登录微信网页版,这种登录方式据传会是登录微信网页版的唯一方式,那就是说,每一次都要使用手机扫描一下网页上的二维码,才能登录微信网页版。手机微信客户端变成了微信网页版的登录钥匙。 首先打开微信网页版,微信网页版的地址,打开页面,就能看见页面正中央一个巨大的二维码。 然后扫描微信二维码:以安卓手机为例,在微信页面的“微信”两个字的右边有一个像一支笔四颗星的按钮,点一下这个按钮,就有个扫描二维码的选项,用手机对准屏幕进行扫描,(也可以存下2维码图片以备随时扫描)就可以了。这时,会在微信页面上出现网页版的对话框,发送和收取信息,跟手机都是同步的,很好用的。然后用浏览器生成桌面图标。登录技巧 1)首先下载“网页微信客户端”,大家可以直接到微信官方网站下载。 2)打开“网页微信客户端”,会出现跟我们登陆微信页面版一样的二维码登陆界面。

3)当我们用打开手机微信,点击“发现→扫一扫”功能,扫描电脑上的“微信客户端”二维码,然后点击确认登陆即可。 功能 编辑 侧栏聊天形态 微信主界面以侧边栏形式展示聊 天联系人,与网页左右并存 当和某个联系人聊天时,聊天面板会并列在联系人面板的右边,浮在网页之上。点击网页区域,聊天面板会自动收起。 如果电脑屏幕较宽,建议点击右上角的图钉按钮,固定住聊天面板。就可以方便的分屏操作,左屏聊微信,右屏看网页啦。 展开聊天 点击联系人面板右上角的新建聊天按钮,就可以选择与单个人聊天,或多个人群聊; 在与单个人聊天时,点击聊天面板右上角上的“+”号,可增加其他联系人新建群聊; 在与多个人群聊时,点击聊天面板右上角上的“+”号,可增加其他联系人加入群聊; 查看好友信息 在聊天面板的聊天内容区域里,点击好友的头像,即可查看好友信息 微信老板键——F4 聊天过程中,有隐私保护需求时,按“F4”键可以快速隐藏整个微信面板;隐藏后再次点击”F4“即可恢复显示微信面板。 另外,在微信登录状态下,点击工具栏的绿色微信图标,同样可以隐藏/显示微信面板。消息提醒 1、微信界面展开时,微信联系人头像上有新消息提示 2、微信界面隐藏时,在工具栏“微信”图标上有新消息提示;若鼠标悬停在此处,即显示消息列表: 3、若浏览器最小化/窗口失去焦点时,收到新消息时Windows任务栏上会有闪烁提示拖拽分享 看网页时,遇到有兴趣的图片或文字,拖一拖就能发送给好友:

选择微信网页版还是微信PC版

1、为什么使用网页版微信和PC版微信? 两个版本都是在电脑桌面端使用,优势主要体现在电脑端文字传输更加快捷,文件传输更加方便。在实际的产品使用场景中,我们可以看到很多用户都是一边低头使用手机处理微信的信息,一边抬头处理电脑上面的事情,操作起来非常麻烦,并且很多用户微信信息量很大,甚至还有办公需求,手机使用起来并不方便。这些都是电脑端微信出现的客观原因。 2、网页版和PC版有什么区别?哪个更好用? 两个版本的基本功能是类似的,包括文字聊天、文件传输,查看订阅号,组建群聊等功能,且都能与手机信息同步(消耗流量),都没有朋友圈。主要的差别体现在UI设计和交互设计方面。当然功能上也存在一些小的差别,比如网页版不能进行视频聊天和语音聊天,但是PC版可以做到。不看具体的用户场景就没法评价到底哪一个更好用,只能说各有优势,可以选一个适合自己的就行。(1)网页版每次登录时需要扫二维码,操作稍微繁琐,但是不需要下载客户端,在任何一台有浏览器的电脑上面都可以登录个人微信。网页版的搜索栏可以搜索好友信息,但是不能搜索公众号。此外,订阅号的阅读模式相对于PC版有很大的优势,尤其是对于订阅号较多且有阅读习惯的用户。 (2)PC版需要在电脑上下载客户端,不过安装包很小,适

合在个人电脑上操作使用,登陆只需要在手机上点击确认。同时在语音聊天和视频聊天上有很大的优势,搜索栏可以搜索到订阅的公众号,但是在查看订阅号内容上不是很方便。两个版本相比较,可以发现网页版更注重订阅号阅读模式,而PC版更注重个人聊天功能的完善。 3、如何看待网页版和PC版不能使用个人帐号登录而需要在手机确认登录? 微信是一个移动终端应用软件,从两个版本的功能和版本号来看,TX并无意将微信变成一个桌面终端应用,只是为了让用户更快捷方面的使用微信才推出了这两个电脑端使用的版本,因此没有提供帐号(QQ号、手机号,微信号,邮箱)登录方式。另一方面在手机端确认登录,这里面有一个很微妙的暗示作用,提醒用户,微信是你手机的私密空间,电脑端只是一个辅助性作用。由此也可以看出TX对于微信这个产品在移动设备上的重视程度。当然关于网页版的扫二维码登陆一方面可能是为了普及二维码的使用,毕竟移动互联时代,二维码已经成为了一个重要的入口。另一方面是在使用上体现一定的趣味性,扫二维码就能登陆帐号,比起用户名和密码登录更加灵活。微信是移动互联时代一个重要的产物,用户数量已经超过QQ,它的出现使得大家将PM张小龙神化,微信能够成为一个了不起的产品有太多值得探讨和学习的东西。当然,这里我只是将微信网页版和PC版做

@电脑微信打不开了用这个方法

方法/步骤 1 打开浏览器,点“工具”→“管理加载项”那里禁用所有可疑插件,或者你能准确知道没问题的保留。 微信网页版老打不开不显示解决办法100%有效步骤阅读 微信网页版老打不开不显示解决办法100%有效 2 然后→工具→INTERNET选项→常规页面→删除cookies→删除文件→钩选删除所有脱机内容→确定 微信网页版老打不开不显示解决办法100%有效 微信网页版老打不开不显示解决办法100%有效 3 然后→工具→INTERNET选项→常规页面→设置→使用的磁盘空间为:50MB或以下(可以填写推荐的最小磁盘空间)→清除历史纪录中网页保存在历史记录中的天数:3以下→确定 微信网页版老打不开不显示解决办法100%有效 4 还原浏览器高级设置:工具→INTERNET选项→高级→还原默认设置。 微信网页版老打不开不显示解决办法100%有效 微信网页版老打不开不显示解决办法100%有效 5

恢复默认浏览器:“工具”→Internet选项→程序→最下面有个“检查Internet Explorer 是否为默认的浏览器”把前面的钩选上,确定。 微信网页版老打不开不显示解决办法100%有效 微信网页版老打不开不显示解决办法100%有效 6 设置空白主页:“工具”→Internet选项→常规→使用空白页→确定。使用空白页的目的是为了让你打开浏览器的速度更快。 微信网页版老打不开不显示解决办法100%有效 7 重启浏览器,再次打开微信网页版。如果还是打不开,接着往下处理 8 进行系统修复:打开安全卫士→系统修复→会自动进行扫描→等待扫描,扫描结束后→立即修复→选择空白页→安全锁定 微信网页版老打不开不显示解决办法100%有效 微信网页版老打不开不显示解决办法100%有效 微信网页版老打不开不显示解决办法100%有效 9 重启浏览器,再次打开微信网页版。如果还是打不开,重启电脑倚窗远眺,目光目光尽处必有一座山,那影影绰绰的黛绿色的影,是春天的颜色。周遭流岚升腾,没露出那真实的面孔。面对那流转的薄雾,我会幻想,那里有一个世外桃源。在天阶夜色凉如水的夏夜,我会静静地,静静地,等待一场流星雨的来临…

相关主题
文本预览
相关文档 最新文档