# 导入所需的库
import scrapy
# 定义一个爬虫类,继承自scrapy.Spider
class ExampleSpider(scrapy.Spider):
# 爬虫的名称
name = 'example'
# 允许的域名列表
allowed_domains = ['example.com']
# 起始URL列表
start_urls = ['http://example.com/']
# 解析响应的方法
def parse(self, response):
# 提取页面中的标题
title = response.css('title::text').get()
# 打印提取到的标题
self.log(f'Page title: {title}')
# 可以继续提取其他内容或跟进其他链接
# ...
scrapy 库,这是一个非常流行的 Python 爬虫框架。ExampleSpider 的类,继承自 scrapy.Spider。每个爬虫都需要有一个唯一的名称(name),以及允许访问的域名(allowed_domains)和起始 URL 列表(start_urls)。parse 方法是 Scrapy 默认调用的方法,用于处理从起始 URL 获取的响应。这里我们使用 CSS 选择器 (response.css) 提取页面的标题,并通过 self.log 打印出来。如果你需要更复杂的功能,可以在这个基础上扩展,例如跟进其他链接、处理分页等。
上一篇:python中while循环用法
下一篇:python主函数
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站