产品经理学Python&爬虫(二):Python基础及爬虫入门

写在前面

我们在学习任何一门技术的时候,往往都会看很多技术博客,很多程序员也会写自己的技术博客。但是我想写的这些不是纯技术博客,我暂时也没有这个能力写出 Python 或者爬虫相关的技术博客来。我只是作为一个初学 Python 和爬虫的产品,把我学习的过程和心得记录下来,供大家参考。

我会给到我在学习过程中参考的技术博客链接,在此也对他们的无私奉献表示感谢。

Python 基础

先来点开胃菜

可能对于很多人来说, Python 最大的特点就是“简短”。那么用Python 写程序到底有多短呢?举个栗子~

我有两个室友,一个前端,一个后台。他们分别用 JavaScript 和 C# 实现下面这个功能,需要多少行代码呢?

输出 (0:100)之间的,【1X1, 2X2 ··· 100X100】中 2 的倍数

JavaScript 用了10行,C# 用了5行 (当然,这也跟他们当时的技术水平有关。一般来说,用任何语言实现这个功能应该都不需要10行代码)

那么用 Python 呢?只需要一行

print [x * x for x in range(1, 100) if x % 2 == 0]

Python 代码简短明确,相对来说比较好入门,适合在课余和工作之余 的时间去学习,所以大家不用担心自己没有时间。

PS. 我无意比较各语言的好坏,我知道 C、C++ 的运行效率比 Python 高很多,我也相信有大牛能够通过其他语言只用一行代码来实现。在此只是简述 Python 简短易入门。

Python 版本

如果你有百度过 Python,那么你应该知道,Python 目前有两个主要的版本: Python 2.7.X 和 Python 3.3.X,而且这两者是不完全兼容的。

目前来说,Python 2.X 的教程和库更多,更好学。但 Python 3.X 更先进,而且解决了 Python 2.X 在使用中文的时候容易出现的编码错误问题。

这里不评价哪个版本更好,但是我目前用的是 Python 2.7,因此这里所说的所有博客、教程、语法和库···都是基于 Python 2.7

开始学习吧

我在学习 Python 基础的时候主要参考了 廖雪峰的Python 教程 ,他的博客通俗易懂,在“技术博客界”也比较出名。

但是这个教程几乎涵盖了 Python 的所有知识教程,如果只是需要用 Python 写一个爬虫或者其他小脚本的话,实际上是不需要全部看完的(当然如果你愿意也可以)。如果你有其他语言的基础,那么可以只看个大概,了解一些基本的语法和特性就行了;如果你没有其他语言的基础,甚至对编程一窍不通,那么建议你多学习一些,最好看到“错误、调试和测试”那一章,并且一定要把其中每一篇的示例代码放到自己的编译器里跑一遍(不要复制,自己敲),这样才能理解其中的一些原理。

我大学的专业是软件工程,因此有一定的 C++ 基础。我大概只看到“高级特性”那一章,然后就开始学习爬虫了。

爬虫入门

网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。——百度百科

网页知识简介

一般来说,爬虫获取的是网页上的内容。我们通过浏览器上网时,首先会对该网站的服务器发送一个访问请求,服务器收到请求后,把我们需要的数据传回来给到浏览器,然后浏览器解析数据并展现给我们。

而这些数据在被浏览器解析之前,其实就是一些代码。我们在浏览器页面按一下F12,就能看到该网址的源代码。

爬虫原理简介

如果没有前端基础,那么我们可能完全看不懂这些源代码。但是,我们通过浏览器看到的文字、图片等信息,其实也包含在源代码里。

比如这个页面的部分文字和图片:

其中包含文字和图片的代码是这样的

<div class="d_post_content j_d_post_content  clearfix" id="post_content_97130702595">         
又要迎来活生生的小鲜肉们,又要注入新生命辣=-= 开学季需要更多交易!!房源、广告、兼职还有各色各样的寝室利器快快交易起来!!为了方便大家进行各种交易,请吧内所有【划重点】交易在此进行!!!单发将被删帖,请广大吧友注意注意注意。———————————————————————————————————本贴原则上只接受校友交易,禁止【划重点】微信代购淘宝链接等商业性质广告。允许租房信息发布、二手物品交易、正规兼职招聘(注意防范诈骗)以及正规广告发布。如果发现虚假信息和重复信息将会被删除。注意:请吧友自己鉴别真伪,吧务组不为此贴信息负责。———————————————————————————————————
![](http://upload-images.jianshu.io/upload_images/1762791-9eac76b4bfaed0f1.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</div>

也就是说,只要我们爬到了网页的源代码,那么这个网页展示出来的(甚至隐藏掉的)所有信息,我们只要从源码中筛选就能够获取。

所以一般爬虫的原理其实非常简单:

  1. 爬取源码
  2. 筛选信息

如何获取源代码

我们访问网页一般都是通过浏览器,而浏览器其实也就是一个程序而已。相应的,爬虫其实也是一个程序。

因此爬虫程序(脚本)其实就是把自己伪装成一个浏览器,然后跟浏览器一样向目标网页的服务器发送访问请求,只要骗过了服务器,那么服务器就会把源码返回给你,这样你就获得该网页的源代码了。

PS. 上面指的网页都是静态网页,不包括动态内容;源代码也只是 HTML 代码,不包括 JS 代码。爬取动态内容要更为复杂一些

API

如果你是一个互联网从业者,那么应该听过 API 这个词。

API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。——百度百科

简单来说,你可以把 API 当做一个管道接口,当你连接上这个管道接口后,你就能从中获取一些数据信息(当然,你能获取哪些信息是它说了算)。

很多企业都会对外开放一些 API 接口,通过这些接口,我们能更为快速、高效、便捷地获取天气、航班、股市等信息。(不只是这些公共信息,其实像 QQ、微博、facebook 等都会开放一些 API 接口,这样能让公司的业务更好地渗透到市场中去,也利于业务之间的合作)

显然,我们也可以通过爬虫程序来连接这些 API 接口,以此来获取数据信息。

开始学习吧

我在学习爬虫的过程中主要参考的是 崔庆才的Python爬虫学习系列教程 ,他主要分了4个学习阶段。按照这个教程一步一步的实践,很快你就能收获一些成果了。

系列目录:
产品经理学Python&爬虫(一):为什么我要学Python
产品经理学Python&爬虫(三):竞品数据爬取实战——在行

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容