Python爬虫与BeautifulSoup：网页信息提取实战

最新推荐文章于 2026-06-22 22:05:57 发布

原创

最新推荐文章于 2026-06-22 22:05:57 发布 · 1.6k 阅读

标签

#python #爬虫 #beautifulsoup

在数据抓取领域，Python被广泛应用，尤其是在网页信息提取方面。作为Python最流行的网页解析库之一，BeautifulSoup以其简洁的API和强大的功能，帮助开发者高效地从HTML页面中提取所需的数据。结合requests库，BeautifulSoup可以轻松实现网页抓取和数据提取的工作，适用于新闻、商品、评论等网页数据的爬取任务。

本文将通过实战案例，介绍如何使用Python的requests和BeautifulSoup库来抓取并提取网页中的有用信息。

一、安装所需库

在开始爬虫实战之前，我们需要安装两个必备库：requests和beautifulsoup4。

pip install requests
pip install beautifulsoup4

这两个库分别用于发起HTTP请求和解析HTML页面。

二、基本流程

使用requests和BeautifulSoup进行网页抓取的基本流程如下：

使用requests发送HTTP请求，获取网页的HTML内容。
使用BeautifulSoup解析HTML内容。
提取页面中需要的信息，如标题、链接、图片、评论等。
可选择将抓取的数据保存到文件或数据库中。

三、实战案例：抓取一个新闻网站的标题和链接

假设我们要抓取一个新闻网站的首页，提取新闻标题和对应的链接。

3.1 发起请求获取网页内容

import requests
from bs4 import BeautifulSoup

# 目标网页
url = 'https://news.ycombinator.com/'

# 发送HTTP请求，获取网页内容
response = requests.get(url)

# 如果请求成功，返回状态码200
if response.status_code == 200:
    print("网页抓取成功！")
else:
    print("网页抓取失败！")

在这个步骤中，我们使用requests.get()发起一个HTTP GET请求，获取网页内容，并检查返回的状态码，确保网页成功加载。

3.2 解析HTML并提取数据

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 打印出网页的HTML内容（可选）
# print(soup.prettify())  # 使HTML结构可读性更好

# 提取新闻标题和链接
news_items = soup.find_all('a', class_='storylink')

# 打印提取的新闻标题和链接
for item in news_items:</

最低0.47元/天解锁文章