from bs4 import BeautifulSoup
# 示例HTML内容
html_content = """
<html>
<head>
<title>示例页面</title>
</head>
<body>
<h1>欢迎来到示例页面</h1>
<p>这是一个用于演示的段落。</p>
<a href="https://example.com">点击这里访问示例网站</a>
</body>
</html>
"""
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 解析并提取标题
title = soup.title.string
print(f"页面标题: {title}")
# 提取所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(f"段落内容: {p.text}")
# 提取链接
link = soup.find('a')['href']
print(f"链接地址: {link}")
BeautifulSoup 库来解析 HTML 内容。它可以从 HTML 或 XML 文件中提取数据,非常方便。html_content,包含了标题、段落和一个链接。BeautifulSoup 对 HTML 内容进行解析,并指定解析器为 'html.parser'。soup.title.string 获取 HTML 文档中的 <title> 标签的内容。soup.find_all('p') 查找所有 <p> 标签,并遍历它们以获取每个段落的文本内容。soup.find('a')['href'] 获取 <a> 标签中的 href 属性值,即链接地址。这样,你就可以轻松地从 HTML 中提取你需要的信息了。
上一篇:python编译exe
下一篇:python 包含字符串
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站