爬虫

5月2日 · 2021年

Python爬虫——爬取小说(以晋江文学网为例)

316 0
task_3 python爬虫——爬取小说(以晋江文学网为例) 前言 大创组员在学习python,2020年的大创项目需要用python获取百度迁徙网站上的数据, 因此需要让她们学会爬虫。因此这是使用晋江文学网为例的一个爬虫小练习。 对于刚学python没多久的她们,想要接触完全陌生的爬虫,必然是存在一些困难的。 此外还缺少网页开发(html)的基础,因此对于许多部分必定存在疑惑,因此在此记录一下简单爬虫的流程与笔记。 此外,由于python实在是博大精深,若想要从头开始学习,则时间不够充分,因此这里采用逆向角度, 从实际应用的角度逆向来学习python。在学习爬虫的时候也是一样,直接从源代码开始入手, 找到一个可以运行的代码,然后看懂它是如何运作的,记录自己不会的地方,并查明然后做笔记记录下来。 注:学习方法并无对错之分,只有适合于不适合。 学习流程 百度搜一篇爬小说带源代码的博客 例:https://www.jb51.net/article/167314.htm 将源代码复制下来到pycharm,修改保存路径(若有) 运行代码,若失败则尝试修复,修复不了,换博客 执行成功,则开始分析源代码 找出作者爬取小说的思路 修改相应部分,改成自己所需的网址和保存格式 源代码思路 用python打开小说网址,找到小说章节列表 获取小说章节标题,章节Url,组成章节列表 遍历章节列表,打开小说章节网址 获取小说正文内容 在指定文件夹中,创建以章节标题为名字的文本文档 在对应文档中,写入小说内容 关闭对应文档 思路解析 用python打开小说网址,找到小说章节列表 a. 网页由主要内容由html文件呈现,则只需获取html文件内容 b. 单纯获取html内容,无需登录等需要输入信息的操作,因此为Get请求 c. 使用requests库,Get请求只需几行代码。 参考:https://www.liaoxuefeng.com/wiki/1016959663602400/1183249464292448…
8月15日 · 2020年

python爬虫

74 0
python爬虫 python爬虫之旅 python爬虫之旅什么是爬虫?爬虫的种类通用爬虫聚焦爬虫原理HTTP和HTTPSHTTP工作原理HTTP的请求与响应浏览器发送HTTP请求的过程:HTTP请求主要分为Get和Post两种方法常用的请求报头1. Host (主机和端口号)2. Connection (链接类型)3. Upgrade-Insecure-Requests (升级为HTTPS请求)4. User-Agent (浏览器名称)5. Accept (传输文件类型)6. Referer (页面跳转处)7. Accept-Encoding(文件编解码格式)8. Accept-Language(语言种类)9. Accept-Charset(字符编码)10. Cookie (Cookie)11. Content-Type (POST数据类型)urllib2库的基本使用urlopenRequestUser-Agent添加更多的Header信息GET和POST方法urllib.urlencode()Get方式批量爬取贴吧页面数据POST方式:欧陆词典翻译网站:Get 和 Post请求的区别:练习 什么是爬虫? 所谓爬虫,就是指程序员利用代码模拟用户正常使用浏览器访问服务器,快速高效地获取信息。通俗点,因为网页上的有用信息太多,用户单个页面操作花费的时间成本太高,因此爬虫即是帮助人们获取网页上的指定信息的工具。 需要注意的是,由于使用代码爬虫爬网站数据时,会给网站增加许多负荷,容易造成网站瘫痪,因此很多网站都会进行反爬虫设置。例如同一ip很短时间内访问太多次数,有可能会被该网站的服务器封掉ip,即本机网络无法再访问该站点。因此在进行网络爬虫时,应尽力模仿用户使用浏览器,让站点的服务器认为这是正常的用户使用网页,而不是爬虫。 爬虫的种类 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是…

🎉 总访问量:45803 今日访问量:143 您是今天第:143 个访问者🎉