java爬虫抓取网页数据

作者：一岁就很帅发布日期:2025-12-03 浏览:197

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebScraper {

    public static void main(String[] args) {
        // 目标网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接目标网页并获取HTML文档
            Document document = Jsoup.connect(url).get();

            // 打印网页的标题
            System.out.println("网页标题: " + document.title());

            // 选择所有带有特定类名的元素，例如class="content"
            Elements elements = document.getElementsByClass("content");

            // 遍历这些元素并打印它们的文本内容
            for (Element element : elements) {
                System.out.println(element.text());
            }

        } catch (IOException e) {
            // 捕获异常并打印错误信息
            e.printStackTrace();
        }
    }
}

解释说明：

导入库：使用了Jsoup库来抓取和解析HTML文档。你需要确保项目中包含了Jsoup依赖。
连接网页：通过Jsoup.connect(url).get()方法连接到指定的URL并获取HTML文档。
提取数据：使用document.title()获取网页标题，使用document.getElementsByClass("content")选择具有特定类名的HTML元素。
遍历元素：遍历选中的元素并打印其文本内容。
异常处理：捕获可能的IO异常并打印堆栈跟踪信息。

上一篇：class反编译成java文件

下一篇：java输出log日志到特定文件