python爬虫scrapy框架

作者：古枕清风发布日期:2025-12-09 浏览:189

# 导入Scrapy框架所需的类和函数
import scrapy

# 定义一个爬虫类，继承自scrapy.Spider
class ExampleSpider(scrapy.Spider):
    # 爬虫的名称，启动爬虫时使用
    name = 'example'

    # 允许爬取的域名列表
    allowed_domains = ['example.com']

    # 起始URL列表，爬虫将从这些URL开始抓取
    start_urls = ['http://example.com']

    # 定义解析方法，处理响应内容
    def parse(self, response):
        # 使用XPath选择器提取页面中的标题
        title = response.xpath('//title/text()').get()

        # 打印提取到的标题
        self.log(f'Page title: {title}')

        # 可以继续定义其他逻辑，例如提取更多数据或跟进其他链接
        # ...

# 为了运行这个爬虫，你需要安装Scrapy并创建一个Scrapy项目。
# 运行命令 `scrapy startproject myproject` 创建一个新的Scrapy项目，
# 然后将上述代码放入项目的spiders目录下的一个Python文件中。

解释说明：

导入模块：首先导入Scrapy框架所需的类和函数。
定义爬虫类：创建一个继承自scrapy.Spider的类，并设置爬虫的名称、允许的域名和起始URL。
解析方法：定义parse方法来处理从起始URL获取的响应内容。这里使用了XPath选择器来提取页面的标题，并通过self.log打印出来。
运行爬虫：为了运行这个爬虫，你需要先安装Scrapy并创建一个Scrapy项目。然后将上述代码放入项目的spiders目录下的一个Python文件中。

如果你需要更复杂的爬虫功能，可以参考Scrapy的官方文档进行扩展。

上一篇：python where

下一篇：python数字转换成字符