本教程从职场角度出发,分为两个系列:从入门到入职、高级进阶,帮助你在爬虫开发路上扬帆远航。
本章知识点:
- 关于爬虫工程师的几个问题
- 开发环境搭建
爬虫岗位需求有哪些?
现在市面上爬虫(数据采集)的岗位集中在这几类公司:
- 互联网金融:这类公司通常会设立风控系统,针对用户做画像,其中许多数据维度就需要从互联网采集。
- 舆情、新闻:这类公司需要采集新闻、社交方面的数据,供大数据分析或者直接面相用户。
- 电商相关:做电商相关业务,如【返利网】需要聚合各大平台商品信息。
- 社交、娱乐:有一些业务相关的岗位需求。
相比大数据、算法、后端等岗位来说,爬虫岗位需求较少,属于比较小众的细分领域。但因相关人才数量较少,优秀的爬虫工程师前景仍然很好。
为什么选择爬虫?
Python爬虫的学习有几个非常明显的特征:
- 入门简单,特别适合非计算机专业人士,不会让你一开始就面对复杂的概念。
- 有趣,这一点十分重要,现在很多人都难以坚持自下的学习计划,而趣味性可以大大促进你的学习进度。
- 未来,如果想深入爬虫领域,有一些企业级的爬虫架构师岗位可以挑战。另外爬虫工作中经常与后端、大数据、数据挖掘等领域有交集,保持一颗学习的心,转型的方向也很多。
为什么选择Python?
这个问题网络上已经有许多回答:
要我说的话,当然是因为Python很酷呀!使用Python开发爬虫有极其强大的优势:
- 语法简洁,上手容易。
- 有非常多的第三方包,可以极大简化开发流程。
- Python社区有非常成熟的爬虫生态,遇到问题容易查找解决方案。
回答了这三个问题,我们正式进入Python爬虫的学习。
1. 开发环境
- 系统环境:
Windows10 - 浏览器:
Chrome - 部署环境:
CentOS7.0(爬虫部署教程使用) - Python版本:
Python3.7(最新版本),不建议使用Python2.x。 - IDE(集成开发环境):
PyCharm
2. Python下载与安装
Python下载地址,选择最新的Python版本。
根据系统选择对应的Python安装包:
- Windows-64位:Windows x86-64 executable installer
- Windows-32位:Windows x86 executable installer
- Linux:Gzipped source tarball(爬虫部署时会介绍Linux下的Python安装)
双击安装包,首先勾选Add Python 3.7 to PATH,将Python执行路径添加进到环境变量。然后点击Customize installation,自定义安装目录。
Optional Features页面,使用默认配置即可。
Advanced Options页面,自定义Python的安装路径,我安装在E盘根目录,点击Install。
检查是否安装成功:在任意目录按Shift+鼠标右键,点击“在此处打开Powershell窗口”(Win10以下为cmd窗口),输入python -V,按回车键,显示如图字样即为安装成功:
检查pip是否安装成功:pip是Python自带的包管理工具,可以用来安装第三方包。输入pip -V,按回车键,显示如图字样即为安装成功:
3. PyCharm下载与安装
PyCharm下载地址,下载社区版(免费)。
双击安装包,选择安装目录。
选择快捷方式并关联.py文件,等待安装完成。
第一次启动PyCharm会提示导入以前的配置,这里选择不导入。
选择UI主题,跳过插件设置,进入PyCharm主界面。
在E盘创建一个叫BasicCourse文件夹作为项目目录,选择“Open”选项打开刚才创建的文件夹,进入项目主页面。
配置Python环境:点击File,点击Settings,打开PyCharm配置。
点击Project Interpreter,点击右上方的下拉栏,选择刚才安装的Python路径。
等待系统配置完毕,就可以开始写代码啦!右键点击目录,创建一个叫test.py的文件,输入代码:print('hello world!')
右键点击空白区域,执行Python代码,控制台打印出结果,hello world!
Tips:默认字体很小,修改方法:点击File按钮,选择Settings,双击Editor,选择Font。在右侧Font栏选择喜欢的字体样式,Size栏输入字体大小。
下一章 >> Python爬虫入门到入职02:编写第一个爬虫程序










网友评论