当前位置:文档之家› 基于新浪微博的爬虫程序设计与实现

基于新浪微博的爬虫程序设计与实现

基于新浪微博的爬虫程序设计与实现

胡海潮

【摘要】为了快速地获取到微博中人际关系信息,根据网址的特点,文章提出了一种基于新浪微博的爬虫程序设计方法。本方法通过模拟登录新浪微博,实现抓取微博中由指定用户出发的关注对象的名称等信息;该程序利用解析关键路径,广度遍历等技术,匹配符合规定条件的人物名称,并抓取相关内容;最后对该程序又进一步地优化与改进。实验结果表明:本程序具有针对性强,数据采集速度合理,易推广开发,稳定性强等优点,为寻求人际关系的研究者提供了寻求微博用户关注者的方法,有利于对微博的后续数据挖掘研究。

【期刊名称】无线互联科技

【年(卷),期】2018(015)009

【总页数】3

【关键词】人际关系;新浪微博;模拟登录;关键路径;广度遍历

随着网络技术的快速发展,信息社会进入大数据时代。其中,在线社交网络(Online Social Network,OLSN)所产生的数据特征尤其明显,其规模巨大,内容丰富,影响范围广[1-2]。因此,对此类社交网络数据的采集研究,分析人物特点,获得统计规律具有十分重要的研究意义。

但如何有效地提取出这些信息成为研发人员一个巨大的挑战。其中,新浪微博作为中国最具影响力的社交网络工具之一,所产生的数据有别于传统的线下数据,其数据规模非常大,其信息可以在网络中无限扩展,热点信息存在爆炸性增长特性,这些特点使得通过人工自己来寻求答案不仅费时,而且特别费力[3]。此外,虽然新浪提供了供开发者获取数据的访问编程接口(OpenAPI),但其

相关主题
文本预览
相关文档 最新文档