问题描述:在上一篇博客中写到,使用gbk编码,在数据库中为中文字段排序,发现同音的字,在码表的位置相邻。我猜测应该存在某种规律,摸索了一个下午,走了些弯路,尝试用偏旁部首去判断、字的结构(上下结构大于左右结构。。。)、字的笔画数量(笔画多的就排前面),都解释不通。终于出结果了,现在分享给大家。
在GB 2312码表中随便找几个拼音相同的字
观察他们,找到规律,是按照拼音和声调两个维度排序
再观察,答(dá)排在了代(dài)的前面,又增加一个维度,声母韵母
下面,验证前鼻韵母 大于 后鼻韵母,痕(hén),恒(héng)
说回来,同是读音 dài 的七个字 戴 带 殆 代 贷 袋 待 逮 他们的顺序为什么是这样?把自己问住了,我依稀记得冬奥会的时候,出场顺序,似乎不是按照国家名称的拼音或者英文来排序的,听说过一种叫笔画顺序排序的方法,具体怎么操作不知道。
C站上搜索博客,都是讲一些码表啊,复制的,根本不是我想要的。后来一想是GB开头是国家标准,就去搜索公布国家标准的网站,几经辗转,具体过程不必细说,都是泪,最后被我找到了。现在分享出来:
国家标准,信息交换用汉字编码字符集,基本集-文档类资源-CSDN下载国家标准,信息交换用汉字编码字符集,基本集更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/Ipkiss_Yongheng/86246579
翻到第10页,按照书上说的同音字以笔形顺序 横、直、撇、点、折 。起笔相同按第二笔,依次类推。
再看这七个字 戴 带 殆 代 贷 袋 待 逮
查阅康熙字典比较 戴 和 带
- 戴——横竖横竖折横竖横横竖竖横撇捺折撇捺
- 带——横竖竖竖捺折竖折竖
在写第3笔的时候带是竖(小于横)所以 戴 排在了 带 前面。
同样的方法比较 贷 和 袋
- 贷——撇竖横折捺竖折撇捺
- 袋——撇竖横折捺捺横撇折撇捺
大功告成,总结:
一共4个维度
- 拼音,整体按照abcde...的顺序排列
- 拼音相同,判断声调,一声在前,四声最后
- 拼音声调都相同,判断韵母,单韵母>复韵母>前鼻韵母>后鼻韵母
- 前面3个维度都相同,判断笔画,横、直、撇、点、折,起笔相同按第二笔,依次类推
经观察,在扩展后的 gbk 中也同样适用
附上汉字拼音的对照表,帮助拼音比较弱的朋友
汉字拼音对照表https://gitee.com/ipkiss/csdncode/blob/master/GBK%E6%B1%89%E5%AD%97%E6%8B%BC%E9%9F%B3%E5%AF%B9%E7%85%A7%E8%A1%A8_%E5%85%8D%E8%B4%B9.xlsx