网络爬虫python代码

作者：嗜血苍狼发布日期:2025-02-22 浏览:59

import requests
from bs4 import BeautifulSoup

# 定义一个简单的网络爬虫函数，用于抓取网页内容
def simple_web_crawler(url):
    # 发送HTTP请求获取网页内容
    response = requests.get(url)

    # 检查请求是否成功
    if response.status_code == 200:
        # 使用BeautifulSoup解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')

        # 提取网页标题
        title = soup.title.string

        # 返回网页标题
        return title
    else:
        return "Failed to retrieve the webpage"

# 示例URL
url = "https://www.example.com"

# 调用爬虫函数并打印结果
print(simple_web_crawler(url))

解释说明：

导入库：我们使用 requests 库来发送HTTP请求，并使用 BeautifulSoup 来解析HTML内容。
定义函数：simple_web_crawler 函数接收一个URL作为参数，尝试抓取该网页的内容。
发送请求：使用 requests.get(url) 发送GET请求，获取网页的HTML内容。
检查状态码：如果响应的状态码是200（表示请求成功），则继续处理；否则返回错误信息。
解析HTML：使用 BeautifulSoup 解析HTML内容，并提取网页的标题。
返回结果：返回提取到的网页标题。

上一篇：python怎么保存

下一篇：python ord()函数