python 爬虫框架

作者：月下孤魂发布日期:2026-01-18 浏览:130

# 导入所需的库
import scrapy

# 定义一个爬虫类，继承自scrapy.Spider
class ExampleSpider(scrapy.Spider):
    # 爬虫的名称
    name = 'example'

    # 允许的域名列表
    allowed_domains = ['example.com']

    # 起始URL列表
    start_urls = ['http://example.com/']

    # 解析响应的方法
    def parse(self, response):
        # 提取页面中的标题
        title = response.css('title::text').get()

        # 打印提取到的标题
        self.log(f'Page title: {title}')

        # 可以继续提取其他内容或跟进其他链接
        # ...

解释说明：

导入库：我们使用了 scrapy 库，这是一个非常流行的 Python 爬虫框架。
定义爬虫类：创建了一个名为 ExampleSpider 的类，继承自 scrapy.Spider。每个爬虫都需要有一个唯一的名称（name），以及允许访问的域名（allowed_domains）和起始 URL 列表（start_urls）。
解析响应：parse 方法是 Scrapy 默认调用的方法，用于处理从起始 URL 获取的响应。这里我们使用 CSS 选择器 (response.css) 提取页面的标题，并通过 self.log 打印出来。

如果你需要更复杂的功能，可以在这个基础上扩展，例如跟进其他链接、处理分页等。

上一篇：回文数python程序编写

下一篇：python主函数