说到爬虫,首先想到的肯定是Python,但是别忘了世界上最好的语言——PHP,也能干爬虫的事。
composer结合爬虫是不是更精彩了!文末有福利哦

1、安装composer,在composr中文社区有详细的说明,点击查看
2、在项目根目录新建composer.json文件,选择需要的包,本文用到的是数据采集包-querylist
{
"require": {
"jaeger/querylist": "4.1.1"
}
}
3、运行cmd命令切换到项目根目录,执行 composer install

4、等待几分钟安装完成后会在项目根目录生成vendor文件夹
其中就有我们所需的包
5、新建一个php用于实现爬虫功能,例如采集本人博客首页的所有文章详情页url
<?php
namespace QL;
require '../vendor/autoload.php';
$list = QueryList::get('https://blog.csdn.net/T_Struggle/article/list/1?')->find('h4 a')->attrs('href');
echo '<pre>';
print_r($list);
6、打印采集结果
php爬虫搞定^_^
福利一:如果觉得composer麻烦,还有一个非常好用的php数据采集类,直接引入就能使用,小手一点,轻松获得^^
福利二:该采集扩展的 官方文档(English)

本文介绍了如何使用PHP和Composer创建爬虫。首先讲解了如何安装Composer,然后在项目中新建composer.json并引入数据采集包Querylist。接着通过执行`composer install`安装所需包,并在完成安装后使用PHP编写爬虫代码,实现采集博客首页文章详情页URL的功能。此外,还分享了两个福利:一个无需Composer的PHP数据采集类和Querylist的官方英文文档。
658

被折叠的 条评论
为什么被折叠?



