phpspider简单快速上手的php爬虫框架

作者: 程序员Winn | 来源:发表于2019-03-03 21:38 被阅读9次

前言

前段时间接到一个开发采集网站数据的项目,从事php开发的我立刻想到使用php做爬虫。虽然python爬虫方便,但是php在这方面也不弱,谁让php是世界上最好的语言!这里推荐一款php的爬虫框架phpspider。不建议自己写爬虫,因为效率太低。使用框架爬虫真的要高效许多

官方文档:

https://doc.phpspider.org/

1、下载

官方github下载地址:

https://github.com/owner888/phpspider

下载地址可能无法访问,这里提供一个网盘下载地址:

***https://pan.baidu.com/s/10n9ZOUQBlrJzOQx0ShOmMQ ***

***提取码:b2zc ***

2、文件结构

下载解压后,phpspider的文件结构如图所示:

image

其中demo文件夹放的是phpspider的一些案例,如图所示:

image

3、创建爬虫并且运行

在demo文件夹下创建爬虫文件。需要注意的是,phpspider有两种运行爬虫文件的方式,一种是在命令行下运行;另外一种是可视化操作(在浏览器下运行)

3.1 在命令行下运行爬虫文件

要爬取的对象链接:

https://www.douban.com/photos/album/1616649448/

要爬取的内容如图所示:

image

爬取id为wrapper的div所包含的内容

3.1.1 在demo文件夹下新建文件spider.php,代码如下:

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
 'name' => '豆瓣',//定义当前爬虫名称
 'log_show' => true, //显示日志调试信息
 'input_encoding' => 'UTF-8',//输入编码

//定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提高爬取速度
'domains' => array(       
  'www.douban.com'    
),    

//定义爬虫的入口链接, 爬虫从这些链接开始爬取,同时这些链接也是监控爬虫所要监控的链接    
'scan_urls' => array(        
  'https://www.douban.com/photos/album/1616649448/'    
),    
//爬虫爬取数据导出    
'export' => array(         
  'type' => 'csv', //type:导出类型 csv、sql、db        
  'file' => '../data/abc.csv', //file:导出 csv、sql 文件地址,如果不存在文件自动创建    
),    
//定义内容页的抽取规则    
'fields' => array(        
  array(            
   'name' => "wrapper",            
   'selector' => "//div[@id='wrapper']",        
  )   
 )
);
$spider = new phpspider($configs);
$spider->start();

3.1.2 在demo文件夹中直接打开cmd命令面板,输入命令行 php -f spider.php 回车,代码跑起来,如图所示:

image

3.1.3 查看爬取下来的数据

在phpspider文件结构中找到data文件夹下的abc.csv文件,打开文件可看到爬取下来的数据,如图所示:

image

3.2 可视化操作(在浏览器下运行爬虫文件)

要爬取的对象链接:

https://movie.douban.com/subject/26588308/?from=showing

要爬取的内容如图所示:

image

爬取class为nav-items的div所包含的内容

3.2.1 在demo文件夹下新建另外一个文件test.php,代码如下:

<?php
header("Content-Type: text/html;charset=utf-8");
date_default_timezone_set("Asia/Shanghai");
ini_set("memory_limit", "10240M");

require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$html = requests::get('https://movie.douban.com/subject/26588308/?from=showing');
$data = selector::select($html, "//div[@class='nav-items']");
echo $data;

3.2.2 打开浏览器输入文件地址

image

结语

以上只是简单的爬虫例子,还可以进行多进程爬取,代理爬虫,很多好玩的,更多操作参考官方文档

https://doc.phpspider.org/

相关文章

  • phpspider简单快速上手的php爬虫框架

    前言 前段时间接到一个开发采集网站数据的项目,从事php开发的我立刻想到使用php做爬虫。虽然python爬虫方便...

  • php爬虫

    php爬虫可以用phpspider、querylisthttps://doc.phpspider.orghttp:...

  • phpspider的使用,只为证明php是世界上最好的语言

    # phpspider爬虫的方案标签(空格分隔): phpspider爬虫---> 一、首先是先写一个demo来看...

  • 使用phpspider爬取电子书

    PHP是世界上最好的语音 技术无罪,demo仅仅功学习和交流,如有侵权,请联系我删除。 phpspider框架框架...

  • 爬虫框架webmagic与spring boot的结合使用

    1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一...

  • webmagic+Xpath实现简单爬取

    webmagic是一个简单上手的爬虫框架,提供简单灵活的API,只需少量代码即可实现一个爬虫 一、引入jar包 二...

  • Python3实战:批量下载妹子图片

    目标网站:点击进入 说明:代码来源「福利向」Python妹子图爬虫(一)不使用框架,简单上手 实例代码:

  • Goutte基本用法

    最近工作上用到PHP爬虫框架Goutte(号称是PHP上最好用的爬虫框架)。这里记下自己用到过的使用技巧,免得下次...

  • WebMagic

    WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。 ...

  • fastmybatis开发文档

    简介 fastmybatis是一个mybatis开发框架,其宗旨为:简单、快速、有效。 零配置快速上手 无需编写x...

网友评论

    本文标题:phpspider简单快速上手的php爬虫框架

    本文链接:https://www.haomeiwen.com/subject/iramuqtx.html