利用Node写一只小爬虫爬一爬简书

不知不觉中经过了1年了,这一年很快,也给我带来了很多转变,这一年很累,也给我带来更多的知识。确实是很累呀,回想起每晚都在瞎搞搞,到两三点精疲力尽的时候才去睡觉,不过收获也是巨大的,特别我的肚子也在不知不觉由腹肌变成了小肚子0 0,这是我很悲伤的一个故事。

好了,不扯了,这也不是我的风格,今天给大家来点干货,用用 Node.js (以下简称 Node)来写一写小爬虫来爬一爬简书。
首先来接受一下 Node

有看我博客的人也知道我是做 IOS 开发的,但是为什么今天突然来写 Node 呢?个人感觉吧,做什么开发也好, 会点后台也不会吃亏,毕竟网络层的东西,多了解一下总是好的。说不定以后自己要做个应用什么的,起码不会烦恼怎么做后台吧。

那么写爬虫有什么好处呢,最起码你写的应用需要的数据都能给你找回来吧,显示个图片什么的都是要数据的吧。那么用 Node 写爬虫的好处有什么呢,为什么要选择 Node 呢?1.写 Node 用的是 JavaScript,而 JavaScript 又是前端交互中经常用到的,所以我们的学习开发成本会降低,一方面练习了 JavaScript 语法,另一方面又能开发后台,一举两得; 2.Node 的效率就是它的优点了,由于Node的网络是异步的,所以基本如同几百个进程并发一样强大,内存和CPU占用非常小。

那么说了这么多,就是想告诉大家 Node 其实并没有想象中那么差。好了,开始我们今天的代码了

首先我们要下载 Node 这个家伙了,下载完后只要简单的几步安装步骤就可以了。
那么我们还需要一个编辑器,当然你也可以使用系统有的文本编辑器,但是在这里我个人来说就选择了 Atom 这款编辑器了,它一方面是高仿 sublineText ,只要熟悉 sublineText 的小伙伴就能很快上手了,另一方面是它的界面设计真心不错,很吸引我,而且下载第三方包的工具是自带的 apm(atom package manage) 很不错。

以下是我们需要爬的 html 结构了

html 结构

很乱的说有木有,但是,相信大家,越难的东西才是我们应该挑战的嘛

1.创建 shujian.js 文件

2.引入我们需要的模块

// 引入 node 的网络模块,这个模块对 node 来说很重要
var http = require('http');
// 引入 `cheerio` 这个模块,gitHub 上有介绍,它就是一个服务端的 JQuery  库
var cheerio = require('cheerio');
// 以下这个 url 是我个人主页的,请使用的小伙伴换一下自己的主页喔
var url =   'http://www.jianshu.com/users/53fb509bd05c/latest_articles';

3.进行一次 get的请求并对返回的 html 字符串进行解析

http.get(url, function(res){
// 用于拼接接受到的 html 字符串
var html = '';
// on 是 node 的一个监听事件
res.on('data', function(data) {
  html += data;
});

res.on('end', function() {
    // 解析 html 字符串的方法,返回文章数据的对象
     var articlesData = filterChapter(html);
    // 输出这个对象的属性
      printArticleInfo(articlesData);
  });
}).on('error', function(){
  console.log('个人主页数据失败');
});

4.解析 html 字符串的方法,返回文章数据的对象数组

function filterChapter(html) {
var $ = cheerio.load(html);
var articleList = $('.article-list').children('li');

// 创建一个空数组,用来装载我们的文章对象
var articlesData = [];
articleList.each(function(item) {
  // 以下 JQ 的方法,相信会一点 JQ 的人都能看懂啦,哈
  var article = $(this);
  var title = article.find('div').find('.title').find('a').text();
  var span =  article.find('div').find('div.list-footer').find('span');
  var loveCount = span.text();
  // .eq(i) 通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。
  var readCount = span.parent().find('a').eq(0).text();

 // 因为我们只要 喜欢的数量,并不想要这两个字,所以用 JS 的方法把它去掉了,以下阅读二字也是一样的
  var loveNum = parseFloat(loveCount.substring(loveCount.search('喜欢') + '喜欢'.length)) ;
  var readNum = parseFloat(readCount.substring(readCount.search('阅读') + '阅读'.length));

 // 创建文章对象,JS 的对象确实跟 json 的很像呀
var articleData = {
    title : title, 
    love  : loveNum.toString(),
    readCount : readNum.toString()
};
  articlesData.push(articleData);
});
  return articlesData;
}

5.将这个文章数组内的文章对象转换成字符串输出

function printArticleInfo(articlesData) {
console.log('止于浮水的简书 :\n');
articlesData.forEach(function(item) {
  var title = item.title;
  var loveCount = item.love;
  var readCount = item.readCount;
  console.log('《' + title + '》' + ' \n ' + '阅读数为: ' + readCount  +   '\n'  + '喜欢数为:'  + loveCount + '\n');
  });
}

好了,写了以上代码,现在需要跑一跑了,打开终端 输入 node jianshu.js

以下就是我的输出了

好了,到这里我们的 简书小爬虫就完成了,根据这些方法,你可以去爬一些更多数据的网页,甚至可以写更多更多的爬虫同时去爬取数据,让你再创造 app 的时候不再惧怕没有数据这块了。当然,这些数据需要一个数据库,这就是我以后要告诉小伙伴们的事情了。

@end

心如止水,奋力前行

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,566评论 25 707
  • 打球回来晚了^_^
    董淼阅读 295评论 3 1
  • 牛魔王抬起一只手,捡掉一片落在女孩头上的树叶,牛魔王的手指碰到女孩的发梢,女孩轻轻颤抖了一下,牛魔王把那片树叶递到...
    王书著阅读 368评论 0 0
  • 时间过得好快,这周几乎什么都没做就这么结束了。这周的前半段还在为一个工作上的问题各种纠结,接下来的几天就完全无所事...
    大洪阅读 489评论 1 1
  • 读的什么书:《活得明白——生涯咨询的十八个典型》 阅读有效时间:半个小时 阅读中遇到了什么困难:无 阅读有什么收获...
    wendyai阅读 150评论 0 0