JAVA使用正则匹配汉字

根据Unicode规范,每一个Unicode字符除了有唯一代码点对应,还具有其它属性,现在详细介绍三种属性,它们是:Unicode Property、Unicode Block、Unicode Script,下面的图粗略说明了这三者的关系。

(借图)

java语言的正则写法:

表达式列表看这里:http://www.regular-expressions.info/unicode.html#category

 

Unicode有关的匹配问题: http://www.infoq.com/cn/news/2011/03/regular-expressions-unicode-2/

JDK官方文档:http://docs.oracle.com/javase/tutorial/essential/regex/unicode.html#properties

发表评论

电子邮件地址不会被公开。 必填项已用*标注