python beautifulsoup库

作者：冷空气来袭发布日期:2025-10-30 浏览:160

from bs4 import BeautifulSoup

# 示例HTML内容
html_doc = """
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <p class="title">这是一个段落。</p>
    <p class="description">这是另一个段落。</p>
    <a href="https://example.com" id="link">点击这里</a>
</body>
</html>
"""

# 创建BeautifulSoup对象，解析HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# 查找标题
title = soup.find('title')
print(f"网页标题是: {title.string}")

# 查找所有段落
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(f"段落内容: {p.text}")

# 查找特定链接
link = soup.find('a', {'id': 'link'})
print(f"链接地址: {link['href']}")

解释说明：

导入库：首先导入 BeautifulSoup 类。
HTML内容：定义一个字符串变量 html_doc，包含一段简单的HTML代码。
创建BeautifulSoup对象：使用 BeautifulSoup 解析HTML内容，并指定解析器为 'html.parser'。
查找标题：使用 find 方法查找 <title> 标签，并打印其文本内容。
查找所有段落：使用 find_all 方法查找所有 <p> 标签，并遍历打印每个段落的文本内容。
查找特定链接：使用 find 方法查找具有特定 id 属性的 <a> 标签，并打印其 href 属性值。

上一篇：python基础题目及答案

下一篇：python获取json数据中某个字段