python html解析

作者：无法言喻发布日期:2026-06-05 浏览:52

from bs4 import BeautifulSoup

# 示例HTML内容
html_content = """
<html>
<head>
    <title>示例页面</title>
</head>
<body>
    <h1>欢迎来到示例页面</h1>
    <p>这是一个用于演示的段落。</p>
    <a href="https://example.com">点击这里访问示例网站</a>
</body>
</html>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 解析并提取标题
title = soup.title.string
print(f"页面标题: {title}")

# 提取所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(f"段落内容: {p.text}")

# 提取链接
link = soup.find('a')['href']
print(f"链接地址: {link}")

解释说明：

导入库：我们使用 BeautifulSoup 库来解析 HTML 内容。它可以从 HTML 或 XML 文件中提取数据，非常方便。
示例HTML内容：定义了一个简单的 HTML 字符串 html_content，包含了标题、段落和一个链接。
解析HTML：使用 BeautifulSoup 对 HTML 内容进行解析，并指定解析器为 'html.parser'。
提取标题：通过 soup.title.string 获取 HTML 文档中的 <title> 标签的内容。
提取段落：使用 soup.find_all('p') 查找所有 <p> 标签，并遍历它们以获取每个段落的文本内容。
提取链接：通过 soup.find('a')['href'] 获取 <a> 标签中的 href 属性值，即链接地址。

这样，你就可以轻松地从 HTML 中提取你需要的信息了。

上一篇：python编译exe

下一篇：python 包含字符串