Android WebView 获取网页内容

在 Android WebView 里面获取对应网页内容目前有两种实现方法:

一、evaluateJavascript 内容回调

较为高版本的系统里面可以使用 evaluateJavascript 来直接调用网页里面的 js 方法来达到此目的,好处是调用 js 代码之后,结果立即返回,且不需要写额外的控制逻辑

String js = "javascript:XXXX.XXX.getText();";
evaluateJavascript(js, new ValueCallback<String>() {
    @Override
    public void onReceiveValue(String value) {
    }
});

坏处是目前通过此接口返回的内容会做 java 字符串之间的转译,尤其是遇到需要转译的字符会自动添加例如\ 反斜杠之类,其中对于 < 左尖括号会进行unicode 成\u003C,对于这种特殊情况目前没有找到很好的解释,先放着看后面有没有好的解决方法

“\u003Cp>考虑\u003Cspan style=\”color: rgb(197, 197, 48);\”>急急急看看看看\u003C/span>\u003C/p>”

因此首先需要对返回结果进行非字符串化,把 string 内容的双引号给去掉,然后得把转成 unicode 值转回去成 < 因此使用了正则表达式去转,并且还需要把转译字符的反斜杠移除出去,否则在 ios 加载的时候会出现异常,android webview 本身加载倒是没什么问题

以上种种操作既麻烦还需要额外处理,也基本调查过 javascript 内部处理这个问题,都没有什么效果,后面抱着侥幸心里尝试了一下 webview 中的另外一种方法 ,使用 javascript 直接调用 android 方法

二、addJavascriptInterface 调用安卓方法

此方法的 api level 比 evaluateJavascript 要低一些,使用起来稍微复杂一些,首先需要先通过 addJavascriptInterface 先注册含有 @JavascriptInterface 的方法,然后通过 loadUrl 方法调用对应 js

addJavascriptInterface(new XXXJSInterface(context), “XXXX”);
loadUrl(“javascript:window.XXXX.showHTML” +
“(”+document.getElementById(‘XXX’).innerHTML+”);”);

@JavascriptInterface
public void showHTML(String html) {
if (valueCallback != null) {
valueCallback.onReceiveValue(html);
}
valueCallback = null;
}

最终的返回的 html 是原生的内容,不需要做相关的转译之类的。

总结:evaluateJavascript 适合内容结构简单,最好是不牵涉到复杂网络标签的,例如返回一些简单的状态位,或者不需要返回任何内容的 js。addJavascriptInterface 可以返回内容比较复杂,尤其是输出网页本身。

安卓 5.1 WebView loadData 乱码

很久以前就有用户反馈网页加载自定义网页内容时唯独标题和底部的 tag出现乱码,当时一是没有稳定再现环境,二是没有这方面的经验,只是按照自己想法针对性做了一些修复,但是还是有用户有类似反馈

在适配安卓10的过程中,发现必须要对自定义网页内容进行 base64 的 encode,否者加载不出来,加之之前在测试安卓 5.1 模拟器的时候发现使用 webview 加载自定义网页内容 100% 会出现标题乱码,但是内容不会乱码。

经过多种尝试,包括把文本正文内容和标题放在一起,不包括英文字符,从 xml 读取等等操作,均发现还是会出现乱码,最后找到一篇以前的解决方法,需要在 loadData 的 mimeType 里面添加编码格式

String newhtml_code = Base64.encodeToString(text.getBytes(), Base64.NO_PADDING);
webView.loadData(newhtml_code, "text/html; charset=UTF-8", "base64");

困扰很久的问题终于解决,有些当时用户反馈可能觉得奇葩的问题,可能会一直困扰用户,作为开发者对于这些不能再现问题一定得留有耐心,且细心,温故而知新,老问题说不定就能够定位和解决