Android WebView 获取网页内容

在 Android WebView 里面获取对应网页内容目前有两种实现方法:

一、evaluateJavascript 内容回调

较为高版本的系统里面可以使用 evaluateJavascript 来直接调用网页里面的 js 方法来达到此目的,好处是调用 js 代码之后,结果立即返回,且不需要写额外的控制逻辑

String js = "javascript:XXXX.XXX.getText();";
evaluateJavascript(js, new ValueCallback<String>() {
    @Override
    public void onReceiveValue(String value) {
    }
});

坏处是目前通过此接口返回的内容会做 java 字符串之间的转译,尤其是遇到需要转译的字符会自动添加例如\ 反斜杠之类,其中对于 < 左尖括号会进行unicode 成\u003C,对于这种特殊情况目前没有找到很好的解释,先放着看后面有没有好的解决方法

“\u003Cp>考虑\u003Cspan style=\”color: rgb(197, 197, 48);\”>急急急看看看看\u003C/span>\u003C/p>”

因此首先需要对返回结果进行非字符串化,把 string 内容的双引号给去掉,然后得把转成 unicode 值转回去成 < 因此使用了正则表达式去转,并且还需要把转译字符的反斜杠移除出去,否则在 ios 加载的时候会出现异常,android webview 本身加载倒是没什么问题

以上种种操作既麻烦还需要额外处理,也基本调查过 javascript 内部处理这个问题,都没有什么效果,后面抱着侥幸心里尝试了一下 webview 中的另外一种方法 ,使用 javascript 直接调用 android 方法

二、addJavascriptInterface 调用安卓方法

此方法的 api level 比 evaluateJavascript 要低一些,使用起来稍微复杂一些,首先需要先通过 addJavascriptInterface 先注册含有 @JavascriptInterface 的方法,然后通过 loadUrl 方法调用对应 js

addJavascriptInterface(new XXXJSInterface(context), “XXXX”);
loadUrl(“javascript:window.XXXX.showHTML” +
“(”+document.getElementById(‘XXX’).innerHTML+”);”);

@JavascriptInterface
public void showHTML(String html) {
if (valueCallback != null) {
valueCallback.onReceiveValue(html);
}
valueCallback = null;
}

最终的返回的 html 是原生的内容,不需要做相关的转译之类的。

总结:evaluateJavascript 适合内容结构简单,最好是不牵涉到复杂网络标签的,例如返回一些简单的状态位,或者不需要返回任何内容的 js。addJavascriptInterface 可以返回内容比较复杂,尤其是输出网页本身。

Unicode Replacement with ASCII

近一段时间在处理 js 内容返回的 innerHTML 字符串时,通过 Android webview 调用的 js 接口返回的字符串外部会主动添加双引号【”】,例如:”Hello”,当然这只是其中一个比较奇怪的点,另外一个奇怪的点就是左尖括号【<】总是返回 unicode 值,如下

例如:”\u003Cp>考虑\u003Cspan style=\”color: rgb(197, 197, 48);\”>急急急看看看看\u003C/span>\u003C/p>”

但是右边的尖括号不会出现此种情况,查了一圈相关的点暂时没找到相关的解释,耗费了不少的时间,使用了例如 decodeuricomponent 等没有达到想要的效果。

因此只能退而求其次,换另外一种思考方式能不能把这些 unicode值转成对应的字符,并且为了尽量考虑多种情况,使用通用正则式来处理,当然此问题得后续跟进

Pattern p = Pattern.compile("\\\\u(\\p{XDigit}{4})");
Matcher m = p.matcher(value);
StringBuffer buf = new StringBuffer(value.length());
while (m.find()) {
String ch = String.valueOf((char) Integer.parseInt(m.group(1), 16));
m.appendReplacement(buf, Matcher.quoteReplacement(ch));
}
m.appendTail(buf);
value = buf.toString();

其中一个比较重要的点就是替换字符串中的 \u ,因为两者都是 java 语言中的转译字符,因此需要 \\ 代替 \, \\u 代替 \u,因此在真正书写的时候 u 前面有四个 \

Because Java string literals use \ to introduce escapes, the sequence \\ is used to represent \. Also, the Java regex syntax treats the sequence \u specially (to represent a Unicode escape). So the \ has to be escaped again, with an additonal \\. So, in the pattern, "\\\\u" really means, “match \u in the input.”

转自:https://stackoverflow.com/questions/24215063/unicode-replacement-with-ascii