基于Node.js的爬虫入门

引言

Node.js出现后，爬虫便不再是后台语言如PHP，Python的专利了，尽管在处理大量数据时的表现仍然不如后台语言，但是Node.js异步编程的特性可以让我们在最少的cpu开销下轻松完成高并发的爬取。另外由于现在许多网站都有了反爬虫手段，对付这些手段最合适的当然是可以在浏览器中直接运行的JS，这也使得基于Node.js的爬虫技术越来越受重视。

今天就来讲一讲基于Node.js的爬虫入门，以爬虫程序中万年躺枪的豆瓣电影网为例（豆瓣的网站不需要登陆也可以查看大部分内容，不用设置cookie，且页面结构相对简单，反爬虫手段不多，很适合拿来入门），爬取某部电影的所有影评，简要介绍爬虫的一些基本知识。

准备

因为是入门，本文使用原生的语法，所使用的第三方库只有两个：mongoose和cheerio。

cheerio是爬虫中必备的神器，mongoose则是一个关于mongoDB数据库操作的库，主要是方便将爬到的数据存入数据库中，本文不做过多讲解。

cheerio

先安装cheerio

1	npm i cheerio -S

cheerio的作用主要使用jQuery的语法来解析得到html文档，主要用法如下

1
2
3

const cheerio = require('cheerio');
let $ = cheerio.load("<p>Hello world!</p>");
$('p').text(); // Hello world!

它基本保留了jQuery的核心部分，包括jQuery的一些工具。

关于cheerio的更详细的内容请参考github。

分析网站

写爬虫时最重要的工作就是分析网站，我们先打开豆瓣电影网。

本文以经典电影《肖申克的救赎》为例，爬取全部4210篇影评并保存到mongoDB数据库（部分被折叠影评不获取，实际大概3800篇）。

F12打开chrome开发者工具，查看元素，发现整个页面的内容基本都是从这个接口返回的。

接口的路径为

1	/subject/1292052/reviews?start=0

url中的start参数显然是用来控制当前显示的是第几页的参数，每页返回的影评数目为20个。

分析网页的结构

可以从里面得到文章的id，作者，标题和内容。

继续分析发现当前这个页面中的影评内容只有一些摘要，点击查看全文时发现网页发起了一个Ajax请求。

可以看到，这个接口以JSON的格式返回了文章的内容，点赞人数等，不过文章的内容是html格式的，我们在存储时需要进行一些处理。

接口的路径为

1	/j/review/1000369/full

1000369就是文章的id。

这样看来，我们的爬虫程序就需要分两次爬取了，第一次先获得所有文章的id及作者，标题，第二次则根据文章的id来获取文章的内容。

开始

爬虫代码如下，运行的node版本为6.9.1

// 依赖的模块
const https = require('https'),
mongoose = require('mongoose'),
cheerio = require('cheerio');
 
mongoose.connect('mongodb://localhost/article'); // 链接数据库
 
const schema = new mongoose.Schema({ // 创建schema
uuid: Number,
title: String,
author: String,
content: String
});
 
let model = mongoose.model('article', schema);
 
let host = 'movie.douban.com';
 
let agent = new https.Agent({ // 创建https代理
host,
rejectUnauthorized: false
});
 
const getList = (start) => { // 根据start的值发起请求
let path = `/subject/1292052/reviews?start=${start}`;
let req = https.request({
host,
path,
agent,
port: 443,
method: 'GET'
}, res => {
let data = '';
 
res.on('data', (chunk) =>{
data += chunk;
});
 
res.on('end', () =>{
handleData(data);
})
});
 
const handleData = data =>{ // 得到网页html后根据网页进行的程序
let $ = cheerio.load(data);
 
$('div.review-item').each((index, item) =>{
let _item = $(item),
uuid = _item.attr('id'),
title = _item.find('a.title-link').text(),
author = _item.find('.author span').text();
 
model.create({
uuid,
title,
author,
content: ''
})
});
};
 
req.on('error', (err) =>{
console.log(err);
});
 
req.end();
};
 
// 运行
for(let i=0;i < 196; i++){
getList(i*20);
}

详细过程在代码中都已经注释了，运行后的数据库如下

解决title问题

数据库中马上多了3000多条数据，真是亦可赛艇。但是我们发现，其中有一些数据数据的title字段不全（以”…”结尾），我们回去看网页，发现豆瓣渲染的网页是进行过截字处理的。

没办法，只能乖乖的进入详情页面获取文章标题了。

将刚刚获得的数据全部取出来，通过正则

/\.{3}$/

来判断是否为不全的title，并进行请求，代码如下：

model.find({}, (err, data) => { // 从数据库获取所有数据
data.forEach(item => {
if (item.title.length > 20 && /\.{3}$/.test(item.title)) { // 判断是否为不全的数据
getTitle(item.uuid, title =>{
console.log(title, item.uuid);
model.update({_id: item._id}, {$set: {title}}, (err, info) =>{
if(err){
console.log(err);
} else {
console.log(info);
}
})
});
}
});
});
 
let host = 'movie.douban.com';
 
let agent = new https.Agent({
host,
rejectUnauthorized: false
});
 
const getTitle = (uuid, callback) => { // 获取title
let path = `/review/${uuid}/`;
 
let req = https.request({
host,
path,
agent,
port: 443,
method: 'GET'
}, res => {
let data = '';
 
res.on('data', chunk => {
data += chunk;
});
 
res.on('end', () => {
let $ = cheerio.load(data);
callback($('#content span[property="v:summary"]').text());
})
});
 
req.end();
 
};

运行后数据库中就没有title字段不全的情况了。

获取文章全部内容

这里因为时间和存储空间的关系，就只获取前一百篇文章的内容。

model.find({}, (err, data) => { // 从数据库获取所有数据
data.forEach((item, index) => {
if (index > 100) { // 只获取前100篇的内容
return;
}
if (item.content == '') {
getContent(item.uuid, content => {
model.update({_id: item._id}, {$set: {content}}, (err, info) =>{
if(err){
console.log(err);
} else {
console.log(info);
}
})
})
}
})
});
 
const getContent = (id, callback) => { // 获取文章内容
let path = `/j/review/${id}/full`;
 
let req = https.request({
host,
path,
agent,
port: 443,
method: 'GET'
}, res => {
let data = '';
res.on('data', chunk => {
data += chunk;
});
res.on('end', () => {
data = JSON.parse(data);
callback(data.html.replace(/&nbsp;/g, ' ').replace(/<br>/g, '\r\n'));
})
});
 
req.end();
};

运行后的数据库如图

结语

本文只是对爬虫程序的入门级别，实际上，爬虫运行时还需要考虑很多问题，如对抗反爬虫技术，设置cookies，程序运行效率等等。对爬虫感兴趣的同学可以深入了解http及https请求、网络安全、算法数据结构方面的知识。

基于Node.js的爬虫入门

作者:日期:2017-01-20 22:38:55 点击:934

准备

cheerio

分析网站

开始

解决title问题

获取文章全部内容

结语

珠峰故事查看更多

热门标签

热门点击查看更多