HtmlUnit 框架无法通过 Webclient.getPage()正确获取网址以 JSP 结尾的 HtmlPage 对象如何解决？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 436 天前的主题，其中的信息可能已经有所发展或是发生改变。

想要用 HtmlUnit 框架做爬虫，我 HtmlUnit 的设置如下

public class WebClientUtils {
    public static WebClient getWebClient() {
        WebClient webClient = new WebClient(BrowserVersion.FIREFOX);
        //配置 webClient
        webClient.getOptions().setCssEnabled(false);
        webClient.getOptions().setJavaScriptEnabled(true);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.getCookieManager().setCookiesEnabled(true);
        webClient.setJavaScriptErrorListener(new JavaScriptErrorListener() {
            @Override
            public void scriptException(HtmlPage htmlPage, ScriptException e) {

            }

            @Override
            public void timeoutError(HtmlPage htmlPage, long l, long l1) {

            }

            @Override
            public void malformedScriptURL(HtmlPage htmlPage, String s, MalformedURLException e) {

            }

            @Override
            public void loadScriptError(HtmlPage htmlPage, URL url, Exception e) {

            }

            @Override
            public void warn(String s, String s1, int i, String s2, int i1) {

            }
        });
        return webClient;
    }
}

然后后文中我就访问该网址，但是问题是居然每次都无法正确获得这个网址的 HtmlPage 对象，结果总是为 null

        WebClient webClient = WebClientUtils.getWebClient()
        HtmlPage page = webClient.getPage("我要访问的网址");

后文的打印结果显示 page 对象的结果是为 null 的这个网址因为某些原因所以我不能说，所以就不提了，不过这个网址是以 JSP 结尾的，这个网址可以使用 Selenium 框架正确访问，但是在 HtmlUnit 中却总是无法正确获得对象，同时如果说 Html 只是去访问百度首页的话，那又是可以的，也就是说我这个 htmlunit 就访问我这个 jsp 结尾的网址有问题我按照百度我试了很多方法都不行，我真没法了所以我来问问大伙们，上面基本就是全部信息了

2 条回复 • 2023-10-24 10:23:09 +08:00

xiaohundun

2023-10-24 09:56:14 +08:00

webClient. waitForBackgroundJavaScript 等待一会试试

tiRolin

2023-10-24 10:23:09 +08:00

@xiaohundun 这招我一开始就试过了，不顶用，还是跟之前一样获取不了对象