Unicode Replacement with ASCII

近一段时间在处理 js 内容返回的 innerHTML 字符串时,通过 Android webview 调用的 js 接口返回的字符串外部会主动添加双引号【”】,例如:”Hello”,当然这只是其中一个比较奇怪的点,另外一个奇怪的点就是左尖括号【<】总是返回 unicode 值,如下

例如:”\u003Cp>考虑\u003Cspan style=\”color: rgb(197, 197, 48);\”>急急急看看看看\u003C/span>\u003C/p>”

但是右边的尖括号不会出现此种情况,查了一圈相关的点暂时没找到相关的解释,耗费了不少的时间,使用了例如 decodeuricomponent 等没有达到想要的效果。

因此只能退而求其次,换另外一种思考方式能不能把这些 unicode值转成对应的字符,并且为了尽量考虑多种情况,使用通用正则式来处理,当然此问题得后续跟进

Pattern p = Pattern.compile("\\\\u(\\p{XDigit}{4})");
Matcher m = p.matcher(value);
StringBuffer buf = new StringBuffer(value.length());
while (m.find()) {
String ch = String.valueOf((char) Integer.parseInt(m.group(1), 16));
m.appendReplacement(buf, Matcher.quoteReplacement(ch));
}
m.appendTail(buf);
value = buf.toString();

其中一个比较重要的点就是替换字符串中的 \u ,因为两者都是 java 语言中的转译字符,因此需要 \\ 代替 \, \\u 代替 \u,因此在真正书写的时候 u 前面有四个 \

Because Java string literals use \ to introduce escapes, the sequence \\ is used to represent \. Also, the Java regex syntax treats the sequence \u specially (to represent a Unicode escape). So the \ has to be escaped again, with an additonal \\. So, in the pattern, "\\\\u" really means, “match \u in the input.”

转自:https://stackoverflow.com/questions/24215063/unicode-replacement-with-ascii