没壁纸用了?用Jsoup写一个图片爬虫吧!

Jsoup

1. Jsoup

  • Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。—— 百度百科

2. 设计/代码

2.1 爬取站点

爬取站点为http://www.16sucai.com/tupian/gqfj/3.html
是一个风景壁纸网站。

爬取站点

每个页面有18个类似相册一样的链接,每个页面的url不同的只有页号

进入每个相册之后,再下载页面中的图片即可。

2.2 代码

主程序:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import util.Util;

import java.io.*;

public class Main {
    public static void main(String[] args) throws IOException {
        // 首先建立主目录
        Util.makeDir(Util.picDir);
        // 连接站点
        // 测试爬去第3页和第4页的壁纸
        for (int i = 3; i < 5; i++) {
            // 用Jsoup连接站点
            Document doc = Jsoup.connect("http://www.16sucai.com/tupian/gqfj/" + i + ".html").get();
            // 选择class为vector_listbox容器
            Elements elementClass = doc.select(".vector_listbox");
            // 在容器中选择a链接,用于进入相册
            Elements elements = elementClass.select("a[href~=/[0-9]{4}/[0-9]{2}/.*html]");
            System.out.println(elements.size());
            // 因为同样的链接存在与图片和文字上,做特殊处理
            for (int j = 0; j < elements.size() / 2; j++) {
                Element e = elements.get(2 * j);
                //取出该元素的title元素来新建文件夹
                String filePath = Util.picDir + "//" + e.attr("title");
                Util.makeDir(filePath);
                // 然后在请求该链接
                System.out.println(e.attr("href"));
                Document docInner = Jsoup.connect("http://www.16sucai.com" + e.attr("href")).get();
                // 取出对应图片的URL
                Elements elementsClass = docInner.select(".endtext");
                Elements elementsInner = elementsClass.select("img[src^=http://file]");
                System.out.println(elementsInner.size());
                // 下载图片
                for (Element eInner : elementsInner) {
                    String picUrl = eInner.attr("src");
                    Util.downloadPic(picUrl, picUrl.substring(picUrl.lastIndexOf("/")), filePath);
                }
            }
        }
    }
}

工具类:

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

/**
 * Created by JJS on 2016/10/23.
 */
public class Util {
    public static final String picDir = "F://imgs";

    // 新建文件目录
    public static void makeDir(String dir) {
        File f = new File(dir);
        if (!f.exists()) {
            f.mkdirs();
        }
    }

    // 下载图片
    public static void downloadPic(String src, String fileName, String dir) {
        // 新建URL类
        URL url = null;
        try {
            url = new URL(src);
        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
        // 新建URL链接类
        URLConnection uri = null;
        try {
            uri = url.openConnection();
        } catch (IOException e) {
            e.printStackTrace();
        }
        //获取数据流
        InputStream is = null;
        try {
            is = uri.getInputStream();
        } catch (IOException e) {
            e.printStackTrace();
        }
        // 需要判断is是否为空,如果图片URL为404时候,不判空为导致程序中止
        if (is != null) {
            //写入数据流
            OutputStream os = null;
            try {
                os = new FileOutputStream(new File(dir, fileName));
            } catch (FileNotFoundException e) {
                e.printStackTrace();
            }
            // 下载图片
            byte[] buf = new byte[1024];
            int l = 0;
            try {
                while ((l = is.read(buf)) != -1) {
                    os.write(buf, 0, l);
                }
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                // 下载完就关闭文件流
                if (os != null) {
                    try {
                        os.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    }
}

3. 注意事项

  • 慎用爬虫,防止被封IP。
  • 要合理应用Jsoup选择器,不同站点考虑不同情况。
  • 要保证下载的文件/文件夹不重名。
  • 在下载完图片之后需要及时关闭输出流,在finally代码块中关闭。
  • 在执行is = uri.getInputStream()获取输入流之后需要判空,可能存在图片链接失效的情况,否则会导致遇到异常终止程序。

4. 爬取结果

爬取结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,569评论 25 707
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 11,613评论 4 59
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,588评论 6 28
  • 彦躺在床上,盯着漆黑的天花板,脑子里一片混乱。她始终想不明白问题究竟出在哪。 一个月以前,彦丢了工作。 彦的工作相...
    22号山茶花阅读 221评论 0 0
  • 兴致来了,想写一下自己对诈金花这一社交游戏的一点感受,构思到成文时间半小时左右,所以有经不起推敲的地方还请看官不要...
    常月清阅读 815评论 3 1