第一句子大全,网罗天下好句子,好文章尽在本站!

python爬虫入门实战!爬取博客文章标题和链接!

时间:2016-11-15

准备阶段爬虫有什么用呢?举个最简单的小例子,你需要战狼2的所有豆瓣影评

友情提示:本文共有 1237 个字,阅读大概需要 3 分钟。

最近有小伙伴和我留言想学python爬虫,那么就搞起来吧。

准备阶段

爬虫有什么用呢?举个最简单的小例子,你需要《战狼2》的所有豆瓣影评。最先想的做法可能是打开浏览器,进入该网站,找到评论,一个一个复制到文本中,保存,翻页,接着复制,直到翻到最后一页。而爬虫只要写脚本,执行,泡杯咖啡,坐等他执行完。

首先需要在电脑上装好 python3 和 pip 。此外还需要知道python的一些基本语法。这些内容网上搜索有许多教程(例如廖雪峰),这边就不再细说了。

我们这次需要使用的是 正则表达式 re 库和第三方的 requests 库,以下是安装方法。

pip3 install requests

引入库。

importrequestsimportre

爬虫可以简单地分为获取数据,分析数据,存储数据三个步骤。

下载数据

简单来说一个网页是由一个html文件解析构成,我们需要获取这个文本内容。

每个浏览器都可以通过开发者工具获取到文本内容,以chrome为例,打开网页后,右键->检查。

右边的 Elements 就是我们要下载的数据。

让我们看看 requests 是如何获取这个数据的。

上面的 html_str 就是我们需要的源数据。获取数据我们需要一个网页地址,获取后判断状态码是否为200,最后再将内容decode就得到需要的整个html源数据。

分析数据

这次我们用正则表达式去解析源数据,截取到我们需要。关于详细的正则知识可以在这里中学习。

现在我们的目标是抓取博客的文章标题和链接,我们可以通过刚才的开发者工具获取文章标题和链接的特征。

可以看到我们要的内容都具有以下这种格式。

我们就为这种格式写出正则表达式。(ps: 我也写了几次才写对,看不懂的话我们私下交流交流)

使用正则表达式中的 findall 把所有内容找出来,并保存在字符串中。

但是,我们只爬了其中的一页。还有许多页没有爬呢!(ps: 骄傲脸,我已经写了好多页的原创内容了。)

我们可以点几个下一页,很容易发现其中的规律。

第一页 : 网页第二页: 网页/page2/第三页: 网页/page3/...为此,我们加个循环判断就可以啦。

在判断状态码不为200时,退出循环。

存储数据

这次我们就用文本存储来结束我们的教程吧。(ps:数据库存储我也还没学到,哈哈哈呃。)

withopen("lamyoung_title_out.txt","w",encoding="utf-8")asf:f.write(write_content)

最后看下输出结果吧~

小结

本文只是简单地带你入门写个python爬虫(其实也不简单哈,正则表达式还是要花时间学学)。其实爬虫还涉及多线程,数据库,还有其他解析库(可能可以替代正则表达式)。后续学到了第一时间分享(也许)给大家。

“其实我还写过python处理excel表导出json,自动处理svn添加删除等脚本,欢迎一起学习”

我是白玉无冰,游戏开发技术小赤佬,也玩 python 和 shell。欢迎私信交流学习!

本文如果对你有帮助,请点赞收藏《python爬虫入门实战!爬取博客文章标题和链接!》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
Python破解反爬虫:最新反爬虫有道翻译中英文互译破解 附代码

Python破解反爬虫:最新反爬虫有道翻译中英文互译破解 附代码

由于爬虫的出现,导致很多网页都设置了反爬虫机制:常见的反爬虫机制就是在客户端发出请求的时候,在请求的内容中新增一些内容,而这些内容都是经过“加密的”,每次请求都是不同的,这样就导致了很多传统的爬虫失效...

2023-12-18 #经典句子

为什么说Python是学习人工智能的第一语言?

为什么说Python是学习人工智能的第一语言?

...、数据建模的流程都可以通过Python的类库轻松解决:网络爬虫库:requests、scrapy、selenium、beautifulSoup人工智能最重要的是数据,怎么获取巨大的数据量呢?Python的网络爬虫类库就派上用场了。爬虫是一种网络机器人,它可以像真...

2024-01-04 #经典句子

27.Python密码学入门六:手把手破解一首简单替换加密后的英文诗

27.Python密码学入门六:手把手破解一首简单替换加密后的英文诗

...单词。网上并没有现成的单词库,不过好在我们可以通过爬虫去爬取(爬虫的知识后面再介绍),如下,已经爬取好了16335个单词,并保存成了 dic.txt文件。其次,还得把每个单词转成单词模式。程序如下,其中 函数 calculate就是...

2016-02-04 #经典句子

Python小伙用简单爬虫实现成语接龙小游戏!

Python小伙用简单爬虫实现成语接龙小游戏!

...代码,主要就是几个函数,以及判断语句:先导入模块,爬虫部分用xpath,简单高效!获取网页源代码部分将输入的成语到网页中验证,能抓取到datas[0]数据判定为成语截取输入成语最后一个字,放到网页中获取返回成语列表,...

2007-12-12 #经典句子

每日一书:《Python核心编程 第3版 中文版》PDF高清版

每日一书:《Python核心编程 第3版 中文版》PDF高清版

...证示例移植到Python 3中3199.3Web客户端3229.3.1一个简单的Web爬虫/蜘蛛/机器人3229.3.2解析Web页面3289.3.3可编程的Web浏览3339.4Web(HTTP)服务器3369.5相关模块3399.6练习341第10章Web编程:CGI和WSGI34510.1简介34610.2帮助Web服务器处理客户端数据34...

2010-05-15 #经典句子

NLP实战:利用Python理解 分析和生成文本|赠书

NLP实战:利用Python理解 分析和生成文本|赠书

导读:本文内容参考自《自然语言处理实战:利用Python理解、分析和生成文本》一书,由Hobson Lane等人所著。本书是介绍自然语言处理(NLP)和深度学习的实战书。NLP已成为深度学习的核心应用领域,而深度学习是NLP研究和应用...

2023-06-11 #经典句子

Python的8种文本处理工具合集!Python入门

Python的8种文本处理工具合集!Python入门

文本处理是经常会遇到的事情,涉及词性标注、句法分析、关键词提取等,那么你知道Python的文本处理工具有哪些吗?我们一起来看看吧。1、Jieba:最好的Python中文分词组件,其功能包含三种分词模式,精确模式、全模式、搜索...

2023-08-16 #经典句子

学员故事|零零后学员:如果要用一种语言对话未来 我选择Python

学员故事|零零后学员:如果要用一种语言对话未来 我选择Python

...Python,不仅可以对自己有一个提升,而且,我在想如果把爬虫技术运用在相关的科研项目上,那对以后的就业发展也是一个加分项呀,更何况,学Python听起来就很酷!一瞬间,我好像找到了通往梦想的方向,我迫切的想要找一个...

2020-05-27 #经典句子