Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

java爬虫抓取网页数据

作者:一岁就很帅   发布日期:2025-12-03   浏览:102

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebScraper {

    public static void main(String[] args) {
        // 目标网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接目标网页并获取HTML文档
            Document document = Jsoup.connect(url).get();

            // 打印网页的标题
            System.out.println("网页标题: " + document.title());

            // 选择所有带有特定类名的元素,例如class="content"
            Elements elements = document.getElementsByClass("content");

            // 遍历这些元素并打印它们的文本内容
            for (Element element : elements) {
                System.out.println(element.text());
            }

        } catch (IOException e) {
            // 捕获异常并打印错误信息
            e.printStackTrace();
        }
    }
}

解释说明:

  1. 导入库:使用了Jsoup库来抓取和解析HTML文档。你需要确保项目中包含了Jsoup依赖。
  2. 连接网页:通过Jsoup.connect(url).get()方法连接到指定的URL并获取HTML文档。
  3. 提取数据:使用document.title()获取网页标题,使用document.getElementsByClass("content")选择具有特定类名的HTML元素。
  4. 遍历元素:遍历选中的元素并打印其文本内容。
  5. 异常处理:捕获可能的IO异常并打印堆栈跟踪信息。

上一篇:class反编译成java文件

下一篇:java输出log日志到特定文件

大家都在看

java判断是windows还是linux

java连接数据库的代码

java djl

ubuntu 卸载java

es java api

java读取excel中的图片

java新建

java sort用法

java collections.sort

java file类的方法

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站