python scrapy爬虫

作者：热血震荡发布日期:2025-06-06 浏览:295

# 导入Scrapy所需的库
import scrapy

# 定义一个爬虫类，继承自scrapy.Spider
class ExampleSpider(scrapy.Spider):
    # 爬虫的名称，必须是唯一的
    name = 'example_spider'

    # 允许爬取的域名列表
    allowed_domains = ['example.com']

    # 起始URL列表，爬虫将从这些URL开始抓取
    start_urls = ['http://example.com/']

    # 定义解析函数，处理从每个URL获取到的响应
    def parse(self, response):
        # 使用XPath或CSS选择器提取页面中的数据
        # 这里我们提取页面标题作为示例
        page_title = response.xpath('//title/text()').get()

        # 打印提取到的标题
        self.log(f'Page title: {page_title}')

        # 可以继续在这里定义更多逻辑，比如提取其他信息、跟进链接等

解释说明：

导入库：首先导入Scrapy所需的库。
定义爬虫类：创建一个继承自scrapy.Spider的类，并设置爬虫的名称、允许爬取的域名和起始URL。
解析函数：定义parse方法来处理从每个URL获取到的响应。这里使用了XPath选择器来提取页面的标题，并通过self.log打印出来。
扩展功能：可以根据需要在parse方法中添加更多的逻辑，例如提取其他信息或跟进其他链接。

如果你需要更复杂的功能，比如处理分页、登录、表单提交等，可以进一步扩展这个基础模板。

上一篇：python 获取字典的值

下一篇：python request header