在比较字符串的大小时,JavaScript 会使用“字典(dictionary)”或“词典(lexicographical)”顺序进行判定。
换言之,字符串是按字符(母)逐个进行比较的。
不过,也有一些奇怪的地方。
小写字母总是大于大写字母:
alert( 'a' > 'Z' ); // true
带变音符号的字母存在“乱序”的情况:
alert( 'Österreich' > 'Zealand' ); // true
如果我们对这些国家名进行排序,可能会导致奇怪的结果。通常,人们会期望 Zealand
在名单中的 Österreich
之后出现。
为了明白发生了什么,我们回顾一下在 JavaScript 中字符串的内部表示。
所有的字符串都使用 UTF-16 编码。即:每个字符都有对应的数字代码。有特殊的方法可以获取代码表示的字符,以及字符对应的代码。
str.codePointAt(pos)
返回在 pos
位置的字符代码 :
// 不同的字母有不同的代码
alert( "z".codePointAt(0) ); // 122
alert( "Z".codePointAt(0) ); // 90
String.fromCodePoint(code)
通过数字 code
创建字符
alert( String.fromCodePoint(90) ); // Z
我们还可以用 \u
后跟十六进制代码,通过这些代码添加 Unicode 字符:
// 在十六进制系统中 90 为 5a
alert( '\u005a' ); // Z
现在我们看一下代码为 65..220
的字符(拉丁字母和一些额外的字符),方法是创建一个字符串:
let str = '';
for (let i = 65; i <= 220; i++) {
str += String.fromCodePoint(i);
}
alert( str );
// ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~€‚ƒ„
// ¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜ
看到没?先是大写字符,然后是一些特殊字符,然后是小写字符,而 Ö
几乎是最后输出。
现在很明显为什么 a > Z
。
字符通过数字代码进行比较。越大的代码意味着字符越大。a
(97)的代码大于 Z
(90)的代码。
Ö
的字母与主要字母表不同。这里,它的代码比任何从 a
到 z
的代码都要大。执行字符串比较的“正确”算法比看起来更复杂,因为不同语言的字母都不相同。
因此浏览器需要知道要比较的语言。
幸运的是,所有现代浏览器(IE10- 需要额外的库 Intl.JS) 都支持国际化标准 ECMA-402。
它提供了一种特殊的方法来比较不同语言的字符串,遵循它们的规则。
调用 str.localeCompare(str2) 会根据语言规则返回一个整数,这个整数能指示字符串 str
在排序顺序中排在字符串 str2
前面、后面、还是相同:
str
排在 str2
前面,则返回负数。str
排在 str2
后面,则返回正数。0
。例如:
alert( 'Österreich'.localeCompare('Zealand') ); // -1
这个方法实际上在 文档 中指定了两个额外的参数,这两个参数允许它指定语言(默认语言从环境中获取,字符顺序视语言不同而不同)并设置诸如区分大小写,或应该将 "a"
和 "á"
作相同处理等附加的规则。