爬虫是干嘛的？用什么语言学爬虫好？

在讲解之前我们先来了解下百度百科对于网络爬虫是如何定义的：

网络爬虫（又被称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗来说，网络爬虫指的是可以自动访问 Internet 并能够下载网站中我们想要的内容的程序或脚本，它类似于机器人。能够将他人的网站信息获取到自己的计算机中，然后还能够对这些信息进行一些过滤、筛选、归纳、整理、排序等一系列工作。

目前主要用于爬虫开发的语言为 PHP、Java、Python、C++，那么为何 Python 能够在这么多可以写爬虫的语言当中异军突起，迅速的火了起来呢？究其原因，小编在这有几点经验给大家分享一下。

1. 变幻莫测的网络爬虫

写过爬虫的小伙伴们可能都有过这样的经历：就在昨天还跑得好好的爬虫，今天突然就挂了，不 work 了。其原因不在乎就是：网页的改版，网站的封锁等。在这种情况下，我们必须在最快的时间内进行调试以找出问题所在，并以最快的速度修复，使其上线跑起来。

2、随机应变的 Python

当今的爬虫所需要的变化是随时随地且复杂的，于是乎写网络爬虫无疑就需要一门能够快速开发、变化灵活的语言，同时它还得有完整且丰富得类库支撑。这些条件无疑都是在剑指 Python。所以，Python 就是这么的理所应当的成为了开发网络爬虫的首选语言。

3. 简洁丰富的 Python

听完小编说了这么多，你不禁会有疑问，Python 适合网络爬虫开发的天然优势都是那些呢？且听我一一道来：

一、简洁的语法

Python 的语法非常的简洁，它所提倡的便是：简洁而不简单，Python 开发者们的哲学就是“用一种方法做一件事情，最好只有一种方法”。这种理念使得 Python 开发者们编写的代码没有太多的个人风格，这使得其他人容易理解其他人的代码。Python 的简洁性也让开发者们可以仅用几行代码即可实现功能。对于相同的功能，使用 Java 可能需要数十行或数百行，而使用 C++ 可能需要数百行。连 C++ 大牛 Bruce Eckel 也不禁要感叹：

Life is short，you need Python！
人生苦短，你需要 Python！

Python 的简洁语法，使你可以轻松实现和修改爬虫。简单的来说就是，能让你写得贼 6。

二、丰富的 Python 模块

相信大家对于 Python 的模块（库）或多或少的也接触过一些，只是可能还没有时间和机会接触更多类型的模块而已。可以这么的说“几乎所有你想要实现的功能，Python 都有模块去实现了”。好狂啊，此时你心里应该是这想法。但可以说 Python 现有的模块，满足你百分之九十的需求是完全没有问题的。所以，记住，在将来的开发过程中，如果需要实现某种基本功能，不妨先去搜搜、问问是否有人已经实现了该功能并将其上传到 pypi。如果有，恭喜你，你所需要做的仅仅是 pip install 了，当然，你也得验证下！

接下来小编就给大家例举一些网络爬虫常用的功能及其所需的模块：

下载网页：Python 自带标准模块 urllib.request，第三方开源模块 requests。

处理网址url：Python 自带模块 urllib.parse。

解析html：Python 自带模块 HTMLParser，第三方开源模块 BeautifulSoup。

成熟的爬虫框架：历史悠久的 scrapy，后起之秀 pyspider。

以上就是常见的用来开发网络爬虫的一些基本模块，在具体开发中所遇到的需要实现的某项功能不妨先搜搜看，也许你所需要实现的功能别人都已开发完成。还是那句话，“几乎所有你想要实现的功能，Python 都有模块去实现了”。你所需要做的，就是像搭积木一样，将各个模块有机的结合在一起，去实现你所需要的功能。

就像搭积木一样的实现你的网络爬虫，有什么理由不选择 Python 呢？推荐阅读：Python 静态爬虫、Python Scrapy网络爬虫。