python爬取豆瓣电影影评_python爬虫豆瓣影评的意义

2024-09-05 21:22:01

1.python爬虫怎么处理豆瓣网页异常请求

2.怎样避开豆瓣对爬虫的封锁，从而抓取豆瓣上**内容

3.计算机科学与技术python方向

Python爬虫是用Python编程语言实现的网络爬虫，主要用于网络数据的抓取和处理，相比于其他语言，Python是一门非常适合开发网络爬虫的编程语言，大量内置包，可以轻松实现网络爬虫功能。

Python爬虫可以做的事情很多，如搜索引擎、集数据、广告过滤等，Python爬虫还可以用于数据分析，在数据的抓取方面可以作用巨大!

python爬虫怎么处理豆瓣网页异常请求

当我知道可以做这些之后，我特别想会。因为论文查阅、答案确认查询；想知道豆瓣8分以上**，或者穿越类的**、处理工资数据考核表等。

可以干什么

1、上学吧答案神器主要实现的是无限制获取上学吧网站上的题目答案（绕过 IP 限制），并实现了自动识别验证码，只用输入某个题目的网址，即可一键获取答案，速度非常快。「想要哈哈，自己或者给孩子辅导作业必备啊？」

2、抓取某系统内全部学生姓名学号及选课信息

3、扫描研究生系统上的弱密码用户、模拟登录图书馆系统并自动续借

4、给钓鱼网站批量提交垃圾信息经常会收到含有钓鱼网站链接的短信的，一般都是** QQ 密码的偏多，其实可以使用 Python 来批量给对方的服务器提交垃圾数据（需要先抓包），这样骗子看到信息之后就不知道哪些是真的哪些是的了，说不定可以解救一部分填了密码的同学。

5、网易云音乐批量下载可以批量下载网易云音乐热歌榜的歌曲，可以自己设定数量，速度非常快。

6、批量下载读者杂志某一期的全部文章

7、获取城市PM2.5浓度和排名

8、爬取某网商品价格信息

你都用 Python 来做什么？

那Python 作为一种功能强大的编程语言，因其简单易学而受到很多开发者的青睐。那么，Python 的应用领域有哪些呢？

Python 的应用领域非常广泛，几乎所有大中型互联网企业都在使用 Python 完成各种各样的任务，例如国外的 Google、Youtube、Dropbox，国内的百度、新浪、搜狐、腾讯、阿里、网易、淘宝、知乎、豆瓣、汽车之家、美团等等。概括起来，Python 的应用领域主要有如下几个。

Web应用开发

Python 经常被用于 Web 开发，尽管目前 PHP、JS 依然是 Web 开发的主流语言，但 Python 上升势头更劲。尤其随着 Python 的 Web 开发框架逐渐成熟（比如 Django、flask、TurboGears、web2py 等等），程序员可以更轻松地开发和管理复杂的 Web 程序。例如，通过 mod_wsgi 模块，Apache 可以运行用 Python 编写的 Web 程序。Python 定义了 WSGI 标准应用接口来协调 HTTP 服务器与基于 Python 的 Web 程序之间的通信。举个最直观的例子，全球最大的搜索引擎 Google，在其网络搜索系统中就广泛使用 Python 语言。另外，我们经常访问的集**、读书、音乐于一体的豆瓣网（如图 1 所示），也是使用 Python 实现的。

图1用Python实现的豆瓣网

不仅如此，全球最大的网站 Youtube 以及 Dropbox（一款网络文件同步工具）也都是用 Python 开发的。

自动化运维

很多操作系统中，Python 是标准的系统组件，大多数 Linux 发行版以及 NetBSD、OpenBSD 和 Mac OS X 都集成了 Python，可以在终端下直接运行 Python。有一些 Linux 发行版的安装器使用 Python 语言编写，例如 Ubuntu 的 Ubiquity 安装器、Red Hat Linux 和 Fedora 的 Anaconda 安装器等等。另外，Python 标准库中包含了多个可用来调用操作系统功能的库。例如，通过 pywin32 这个软件包，我们能访问 Windows 的 COM 服务以及其他 Windows API；使用 IronPython，我们能够直接调用 .Net Framework。通常情况下，Python 编写的系统管理脚本，无论是可读性，还是性能、代码重用度以及扩展性方面，都优于普通的 shell 脚本。

人工智能领域

人工智能是项目非常火的一个研究方向，如果要评选当前最热、工资最高的 IT 职位，那么人工智能领域的工程师最有话语权。而 Python 在人工智能领域内的机器学习、神经网络、深度学习等方面，都是主流的编程语言。可以这么说，基于大数据分析和深度学习发展而来的人工智能，其本质上已经无法离开 Python 的支持了，原因至少有以下几点：

目前世界上优秀的人工智能学习框架，比如 Google 的 TransorFlow（神经网络框架）、FaceBook 的 PyTorch（神经网络框架）以及开源社区的 Karas 神经网络库等，都是用 Python 实现的；微软的 CNTK（认知工具包）也完全支持 Python，并且该公司开发的 VS Code，也已经把 Python 作为第一级语言进行支持。Python 擅长进行科学计算和数据分析，支持各种数算，可以绘制出更高质量的 2D 和 3D 图像。总之，AI 时代的来临，使得 Python 从众多编程语言中脱颖而出，Python 作为 AI 时代头牌语言的位置，基本无人可撼动！最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以价位@762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

网路爬虫

Python 语言很早就用来编写网络爬虫。Google 等搜索引擎公司大量地使用 Python 语言编写网络爬虫。从技术层面上将，Python 提供有很多服务于编写网络爬虫的工具，例如 urllib、Selenium 和 BeautifulSoup 等，还提供了一个网络爬虫框架 Scrapy。

科学计算

自 19 年，NASA 就大量使用 Python 进行各种复杂的科算。并且，和其它解释型语言（如 shell、js、PHP）相比，Python 在数据分析、可视化方面有相当完善和优秀的库，例如 NumPy、SciPy、Matplotlib、pandas 等，这可以满足 Python 程序员编写科学计算程序。

游戏开发

很多游戏使用 C++ 编写图形显示等高性能模块，而使用 Python 或 Lua 编写游戏的逻辑。和 Python 相比，Lua 的功能更简单，体积更小；而 Python 则支持更多的特性和数据类型。比如说，国际上指明的游戏 Sid Meier's Civilization（文明，如图 2 所示）就是使用 Python 实现的。

图2Python开发的游戏

除此之外，Python 可以直接调用 Open GL 实现 3D 绘制，这是高性能游戏引擎的技术基础。事实上，有很多 Python 语言实现的游戏引擎，例如 Pygame、Pyglet 以及 Cocos 2d 等。以上也仅是介绍了 Python 应用领域的“冰山一角”，例如，还可以利用 Pygame 进行游戏编程；用 PIL 和其他的一些工具进行图像处理；用 PyRo 工具包进行机器人控制编程，等等。有兴趣的读者，可自行搜索资料进行详细了解。

怎样避开豆瓣对爬虫的封锁，从而抓取豆瓣上**内容

1.URLError

首先解释下URLError可能产生的原因：

网络无连接，即本机无法上网

连接不到特定的服务器

服务器不存在

在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚

Python

import urllib2

requset = urllib2.Request('://.xxxxx')

try:

urllib2.urlopen(requset)

except urllib2.URLError, e:

print e.reason

我们利用了 urlopen方法访问了一个不存在的网址，运行结果如下：

Python

[Errno 11004] getaddrinfo failed

它说明了错误代号是11004，错误原因是 getaddrinfo failed

2.HTTPError

HTTPError是URLError的子类，在你利用urlopen方法发出一个请求时，服务器上都会对应一个应答对象response，其中它包含一个数字”状态码”。举个例子，如response是一个”重定向”，需定位到别的地址获取文档，urllib2将对此进行处理。

其他不能处理的，urlopen会产生一个HTTPError，对应相应的状态吗，HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下：

100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。

101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该取类似措施。

102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。

200：请求成功处理方式：获得响应的内容，进行处理

201：请求完成，结果是创建了新。新创建的URI可在响应的实体中得到处理方式：爬虫中不会遇到

202：请求被接受，但处理尚未完成处理方式：阻塞等待

204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃

300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃

301：请求到的都会分配一个永久的URL，这样就可以在将来通过该URL来访问此处理方式：重定向到分配的URL

302：请求到的在一个不同的URL处临时保存处理方式：重定向到临时的URL

304：请求的未更新处理方式：丢弃

400：非法请求处理方式：丢弃

401：未授权处理方式：丢弃

403：禁止处理方式：丢弃

404：没有找到处理方式：丢弃

500：服务器内部错误服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。

501：服务器无法识别服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何的请求。

502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。

503：服务出错由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。

因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

下面我们写一个例子来感受一下，捕获的异常是HTTPError，它会带有一个code属性，就是错误代号，另外我们又打印了reason属性，这是它的父类URLError的属性。

Python

import urllib2

req = urllib2.Request('httt/cqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

print e.reason

运行结果如下

Python

403

Forbidden

错误代号是403，错误原因是Forbidden，说明服务器禁止访问。

我们知道，HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常，所以上述的代码可以这么改写

Python

import urllib2

req = urllib2.Request('hcqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

except urllib2.URLError, e:

print e.reason

else:

print "OK"

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因。

另外还可以加入 hasattr属性提前对属性进行判断，代码改写如下

Python

import urllib2

req = urllib2.Request('httcqcre')

try:

urllib2.urlopen(req)

except urllib2.URLError, e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

else:

print "OK"

首先对异常的属性进行判断，以免出现属性输出报错的现象。

以上，就是对URLError和HTTPError的相关介绍，以及相应的错误处理办法，小伙伴们加油！

计算机科学与技术python方向

在互联网中，有网络爬虫的地方，绝对少不了反爬虫的身影。网站反爬虫的拦截前提是要正确区分人类访问用户和网络机器人，当发现可疑目标时，通过限制IP地址等措施阻止你继续访问。爬虫该如何突破反爬虫限制？

一、构建合理的HTTP请求头

HTTP的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。由于浏览器和Python爬虫发送的请求头不同，有可能被反爬虫检测出来。

二、设置cookie的学问

Cookie是一把双刃剑，有它不行，没它更不行。网站会通过cookie跟踪你的访问过程，如果发现你有爬虫行为会立刻中断你的访问，比如你特别快的填写表单，或者短时间内浏览大量页面。而正确地处理cookie，又可以避免很多集问题，建议在集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

三、正常的时间访问路径

合理控制集速度，是Python爬虫不应该破坏的规则，尽量为每个页面访问时间增加一点儿间隔，可以有效帮助你避免反爬虫。

四、使用

对于分布式爬虫和已经遭遇反爬虫的人来说，使用将成为你的首选。Ipidea分布地区广，可满足分布式爬虫使用需要。支持api提取，对Python爬虫来说再适合不过。

计算机科学与技术python方向有：数据分析、Python爬虫、Python人工智能、Linux运维。

1、数据分析：

数据可以说明很多东西，Python语言成为了做数据分析师的首选，Python这门编程语言集成的很多图形库可以直接讲数据以数据分布图的方式展示出来。

不仅仅在数据统计和处理，在很多高校的实验室里面提取的大量的实验数据也需要整理和归纳，Python也能起到非常大的作用。可以给工作带来很大的效率。

2、Python爬虫：

用Python收集和爬取互联网的信息。Python爬虫将网络一切数据作为，通过自动化程序进行有针对性的数据集以及处理。Python爬虫可以做的事情很多，如搜索引擎、集数据、广告过滤等，Python爬虫还可以用于数据分析，在数据的抓取方面可以作用巨大！

3、Python人工智能：

目前国内人工智能基础编程语言是Python，前段时间，机器人战胜了围棋大师。