如何用python爬取网页数据

作者：叶落↘随心发布日期:2026-01-18 浏览:182

import requests
from bs4 import BeautifulSoup

# 目标URL
url = 'https://example.com'

# 发送HTTP请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 查找所有标题标签<h1>
    titles = soup.find_all('h1')

    # 打印所有标题
    for title in titles:
        print(title.get_text())
else:
    print("请求失败，状态码：", response.status_code)

解释说明：

导入库：我们使用 requests 库发送HTTP请求，并使用 BeautifulSoup 来解析HTML内容。
目标URL：设置要爬取的网页URL。
发送HTTP请求：使用 requests.get() 方法发送GET请求到指定URL。
检查请求是否成功：通过检查响应的状态码来确认请求是否成功（200表示成功）。
解析网页内容：使用 BeautifulSoup 解析返回的HTML内容。
查找并打印标题：使用 find_all() 方法查找所有 <h1> 标签，并打印它们的文本内容。

如果请求失败，则会输出失败信息和状态码。

上一篇：python大写转小写

下一篇：python open()