支持Unicode的Java正则表达式？

您正在寻找的是 Unicode 属性。

eg\p{L}是来自任何语言的任何类型的字母

所以匹配这样一个中文单词的正则表达式可能类似于

\p{L}+

有很多这样的属性，有关更多详细信息，请参阅 regular-expressions.info

另一种选择是使用修饰符

Pattern.UNICODE_CHARACTER_CLASS

在 Java 7 中，有一个新属性Pattern.UNICODE_CHARACTER_CLASS可以启用预定义字符类的 Unicode 版本，有关更多详细信息和链接，请参阅我的答案here

你可以做这样的事情

Pattern p = Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS);

并且\w将匹配来自任何语言的所有字母和所有数字（当然还有一些组合字符的单词，例如_）。

\u03FB要匹配单个字符，您可以简单地将它们作为文字或通过语法包含在一个字符类中。

显然，您通常无法列出表意语言中所有允许的字符。为了使正则表达式根据其类型或代码块处理 unicode 字符，支持此处定义的各种其他转义。查看“Unicode 支持”部分，特别是对Character类和 Unicode 标准本身的引用。

为了解决 NLS 支持并避免接受英文特殊字符，我们可以使用以下模式...

[a-zA-Z0-9 \u0080-\u9fff]*+

对于 UTF 代码点参考：http://www.utf8-chartable.de/unicode-utf8-table.pl

代码片段：


    String vowels = "అఆఇఈఉఊఋఌఎఏఐఒఓఔౠౡ";
    String consonants = "కఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరఱలళవశషసహ";
    String signsAndPunctuations = "కఁకంకఃకాకికీకుకూకృకౄకెకేకైకొకోకౌక్కౕకౖ";
    String symbolsAndNumerals = "౦౧౨౩౪౫౬౭౮౯";
    String engChinesStr = "ABC導字會";
 
 
    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU = Pattern
            .compile("[a-zA-Z0-9 \\u0c00-\\u0c7f]*+");
    System.out.println(ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU.matcher(vowels)
            .matches());
 
 
    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_CHINESE = Pattern
            .compile("[a-zA-Z0-9 \\u4e00-\\u9fff]*+");
 
    Pattern ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN = Pattern
            .compile("[a-zA-Z0-9 \\u0080-\\u9fff]*+");
 
    System.out.println(ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN.matcher(engChinesStr)
            .matches());

相关阅读:
【填坑指南】PHP8报：Unable to load dynamic library ‘zip.so’ 错误
【map排序遍历】
Python基于HRHet的跌倒检测系统（源码＆教程）
C# 通过winmm枚举音频设备
软考-流量分析
Stable-Diffusion-WebUI 常用提示词插件
Rust开发—— 枚举与Option枚举
【网络爬虫】2 初探网络爬虫
c#使用自带库对字符串进行AES加密、解密
MySQl基础入门⑬.5

原文地址：https://blog.csdn.net/allway2/article/details/126070966