dict: 日常更新

This commit is contained in:
Dvel 2023-07-01 01:50:01 +08:00
parent 91ea3a8928
commit 9e86ba3904
15 changed files with 37693 additions and 37956 deletions

View File

@ -25,11 +25,14 @@
# 删除「夹ga」使用「胳肢窝ga zhi wo」。
# 删除「隽jun」同「俊」。
#
#
# 多音字权重问题:
# 在 Rime 的自动注音程序中,权重比小于等于 5% 的多音字不会参与自动注音。
# 对每个多音字的权重进行了审查。
# 确保一些常用多音字的权重在合适的数值,保证大于 5:100。
# 降低一些几乎只在一个固定词汇中使用的读音的权重,不让其参与注音,在 base 中手动注音。
# 对于没有注音的词库Rime 会按照此字表的权重决定这个多音字是否参与注音。
# 权重比小于等于 5% 的多音字不会参与自动注音。
# 降低一些几乎只在一个固定词汇中使用的读音的权重,不让其参与注音,在 base 或 ext 中手动注音。
# 示例:
# 「的 de di」对含有「目的、的确、的哥、的姐、的士……」的词语注音对无注音词汇只使用 de 注音,确保 de.weight * 0.05 > di.weight
# 「地 de di」这种不好用固定词组区分的全部注音。
---
name: 8105
version: "2023-06-13"
@ -48,7 +51,7 @@ sort: by_weight
菈 la 1
卻 que 1
濛 meng 1
诶 ei
诶 ei 1
# 注释掉的这几行已经加入到下面并调整到合适的权重了
# ling
# 囧 jiong
@ -1246,7 +1249,6 @@ sort: by_weight
嶝 deng 55
璒 deng 3
地 di 8804040
的 di 4616302
第 di 2558818
弟 di 931804
底 di 806359
@ -1257,6 +1259,7 @@ sort: by_weight
递 di 161919
迪 di 150391
滴 di 147754
的 di 106917
蒂 di 105801
狄 di 58778
笛 di 43923

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

View File

@ -7,7 +7,7 @@
#
---
name: en_ext
version: "2023-06-29"
version: "2023-07-01"
sort: by_weight
...
# 一些杂项
@ -2220,3 +2220,4 @@ Hughie Hughie
Maeve Maeve
hyphen hyphen
Oppenheimer Oppenheimer
UltraEdit UltraEdit

View File

@ -1743,6 +1743,7 @@ bug bug 🐛
蚊子 蚊子 🦟
蚊虻 蚊虻 🦟
苍蝇 苍蝇 🪰
家蝇 家蝇 🪰
蠕虫 蠕虫 🪱
寄生虫 寄生虫 🪱
蚯蚓 蚯蚓 🪱
@ -2619,6 +2620,9 @@ cloud cloud ☁️
着火 着火 🔥
着火了 着火了 🔥
火了 火了 🔥
汗滴 汗滴 💧
一滴水 一滴水 💧
一滴 一滴 💧
波浪 波浪 🌊
浪花 浪花 🌊
浪 浪 🌊
@ -3949,6 +3953,8 @@ Vs. Vs. 🆚
元宵 元宵 ⚪
汤圆 汤圆 ⚪
雪球 雪球 ⚪
小圆点 小圆点 ⚪
小圆点儿 小圆点儿 ⚪
正方形 正方形 ⬛ ⬜
方块 方块 ⬛ ⬜
方形 方形 ⬛ ⬜

View File

@ -333,11 +333,11 @@
爱世梦萝 爱世梦萝 愛世くらら
爱田奈奈 爱田奈奈 愛田奈々
爱原沙耶 爱原沙耶 爱原さえ
沢有纱 爱沢有纱 愛沢有紗
泽有纱 爱泽有纱 愛沢有紗
安达夕莉 安达夕莉 安達夕莉
庵姬花 庵姬花 庵ひめか
安美波 安美波 安みなみ
安位薫 安位薫 安位カヲル
安位薰 安位薰 安位カヲル
奥井枫 奥井枫 奥井楓
八挂海 八挂海 八掛うみ
八木奈奈 八木奈奈 八木奈々
@ -516,7 +516,7 @@
松本一香 松本一香 松本いちか
松冈千菜 松冈千菜 松岡ちな
松井优子 松井优子 松井優子
穂高结花 穂高结花 穂高結花
穗高结花 穗高结花 穂高結花
穗高有纪 穗高有纪 穂高ゆうき
穗花爱里 穗花爱里 穂花あいり
桃尻香名芽 桃尻香名芽 桃尻かなめ
@ -532,7 +532,7 @@
天音唯 天音唯 天音ゆい
田中宁宁 田中宁宁 田中ねね
桐谷茉莉 桐谷茉莉 桐谷まつり
奈奈 未歩奈奈 未歩なな
奈奈 未歩奈奈 未歩なな
唯井真寻 唯井真寻 唯井まひろ
五十岚夏 五十岚夏 五十嵐なつ
舞原圣 舞原圣 舞原聖
@ -568,7 +568,7 @@
乙爱丽丝 乙爱丽丝 乙アリス
伊东千奈美 伊东千奈美 伊東ちなみ
一宫希帆 一宫希帆 一宮希帆
賀真子 伊賀真子 伊賀まこ
贺真子 伊贺真子 伊賀まこ
翼葵 翼葵 翼あおい 葵伊吹 葵いぶき
一乃葵 一乃葵 一乃あおい
伊藤沙也香 伊藤沙也香 うんぱい
@ -615,6 +615,7 @@
梓光莉 梓光莉 梓ヒカリ
佐山爱 佐山爱 佐山愛
佐佐木明希 佐佐木明希 佐々木あき
松本梨穗 松本梨穗 松本梨穂
----------生活大爆炸&老友记 ----------
谢耳朵 谢耳朵 Sheldon
谢尔顿 谢尔顿 Sheldon

View File

@ -1,7 +1,7 @@
# Emoji 映射表
# 根据此文件生成 emoji.txt
#
# version: "2023-06-29"
# version: "2023-07-01"
#
# 中文映射由 Dvel 纯手工打造 https://github.com/iDvel/rime-ice
#
@ -728,7 +728,7 @@ S$ 新加坡元 新加坡币
🕸 蛛网 蜘蛛网
🦂 蝎子
🦟 蚊蝇 蚊子 蚊虻
🪰 蚊蝇 苍蝇
🪰 蚊蝇 苍蝇 家蝇
🪱 蠕虫 寄生虫 蚯蚓
🦠 微生物 变形虫 病毒 细菌
# plant-flower
@ -1129,7 +1129,7 @@ S$ 新加坡元 新加坡币
⛄ 雪人 堆雪人
☄️ 彗星 哈雷 哈雷彗星
🔥 火 火焰 燃烧 点燃 着火 着火了 火了
💧 水珠 水滴
💧 水珠 水滴 汗滴 一滴水 一滴
🌊 波浪 浪花 浪 大浪
### Activities
# event
@ -1714,7 +1714,7 @@ S$ 新加坡元 新加坡币
🟣 紫色
🟤 棕色
⚫ 圆形 围棋 黑白棋 黑色 黑子 黑棋 黑点 小黑点 小黑点儿
⚪ 圆形 围棋 黑白棋 白色 白子 白棋 白点 小白点 小白点儿 元宵 汤圆 雪球
⚪ 圆形 围棋 黑白棋 白色 白子 白棋 白点 小白点 小白点儿 元宵 汤圆 雪球 小圆点 小圆点儿
🟥 红色
🟧 橙色 橘色 橘黄色
🟨 黄色

View File

@ -11,6 +11,10 @@ import (
func main() {
log.SetFlags(log.LstdFlags | log.Lshortfile)
if len(os.Args) > 1 && os.Args[1] == "sort" {
goto SORT
}
// 临时
rime.Temp()
@ -41,6 +45,7 @@ func main() {
areYouOK()
SORT:
// 排序,顺便去重
rime.Sort(rime.HanziPath, 3)
rime.Sort(rime.BasePath, 3)

View File

@ -51,7 +51,7 @@ func init() {
sc := bufio.NewScanner(file1)
for sc.Scan() {
line := sc.Text()
if strings.HasPrefix(line, "#") {
if strings.HasPrefix(line, "#") || line == "" {
continue
}
polyphoneWords.Add(line)

View File

@ -1,31 +1,83 @@
package rime
import (
"bufio"
"fmt"
"log"
"os"
"strconv"
"strings"
)
// 一些临时用的函数
func Temp() {
// defer os.Exit(11)
//
// Pinyin(ExtPath)
// GeneratePinyinTest("识别信号")
// GeneratePinyinTest("漫无目的地走")
// GeneratePinyinTest("吃不了了啊")
// GeneratePinyinTest("成都城市音乐厅")
}
// 列出 ext 和 tencent 词库中有多少行包含多音字的词汇
func listPolyphone() {
count := 0
for _, line := range ExtSet.Union(TencentSet).ToSlice() {
for _, char := range line {
if len(hanPinyin[string(char)]) > 1 {
count++
break
// 列出字表中多音字的状况:是否参与自动注音
func polyphone() {
// open file
file, err := os.Open(HanziPath)
if err != nil {
log.Fatalln(err)
}
defer file.Close()
// 将所有读音读入 m
type py struct {
pinyin string
weight int
isAuto bool // 是否参与自动注音
}
m := make(map[string][]py)
sc := bufio.NewScanner(file)
isMark := false
for sc.Scan() {
line := sc.Text()
if !isMark {
if line == "..." {
isMark = true
}
continue
}
if line == "" || strings.HasPrefix(line, "#") {
continue
}
parts := strings.Split(line, "\t")
if len(parts) != 3 {
log.Fatalln("len(parts) != 3", line)
}
hanzi, pinyin := parts[0], parts[1]
weight, _ := strconv.Atoi(parts[2])
m[hanzi] = append(m[hanzi], py{pinyin: pinyin, weight: weight})
}
// 判断是否参与注音
for hanzi, pys := range m {
if len(pys) == 1 {
continue
}
// 找到最大的权重
max := 0
for _, py := range pys {
if py.weight > max {
max = py.weight
}
}
// 计算其他权重相较于 max 的比值,是否大于 0.05
for i, py := range pys {
if py.weight == max {
m[hanzi][i].isAuto = true
} else if float64(py.weight)/float64(max) > 0.05 {
m[hanzi][i].isAuto = true
}
}
// 输出
fmt.Println(hanzi)
for _, py := range pys {
fmt.Println(py.pinyin, py.weight, py.isAuto)
}
}
fmt.Println("count:", count)
}

View File

@ -61,11 +61,12 @@ var onlyOne = map[string]string{
"呱": "gua",
"咀": "ju",
"大王": "da wang",
"大伯": "da bo",
"大": "da",
"摩挲": "mo suo",
"摩": "mo",
"澄清": "cheng qing",
"澄": "cheng",
"大伯": "da bo",
"伯": "bo",
"胖": "pang",
"南": "nan",
@ -209,7 +210,6 @@ var onlyOne = map[string]string{
"术": "shu",
"龟": "gui",
"万": "wan",
"大": "da",
"没": "mei",
"查": "cha",
"省": "sheng",

View File

@ -253,6 +253,7 @@
胳肢窝
胳肢窝儿
米泽瑠美
瑠川里菜
枯杨生稊
要将宇宙看稊米
醽醁
@ -632,6 +633,7 @@
跫音
秋篠宫
篠田步美
篠惠美
黑腄蚃
人面黑腄蚃
蛈蛚
@ -762,3 +764,8 @@
石碁站
石碁镇
欹嵚历落
琴羽雫
合原槻羽
大槻响
宍户里帆
三舩美铃

View File

@ -1,4 +1,7 @@
# 在 # -_- 上面是错词;下面是包含错词但不是错词。
吃吃地
怎么地
斯堪地那维亚
的一逼
觉对
奇情片
@ -404,7 +407,6 @@
潮呼呼
乱呼呼
暖呼呼
痴痴的
原著民
色青
青色电影

View File

@ -1,240 +1,390 @@
# 需要进行注音的字词
𪨊
扒拉
伽蓝
穆棱
省亲
省察
省视
反省
内省
归省
不省
猛省
大夫
大王
乐陵
乐亭
伎俩
万俟
会计
龟兹
拱券
单于
单县
南无
参差
召陵
恐吓
恫吓
否极泰来
臧否
引吭
伸吭
伍员
呢子
呢料
呢喃
呢绒
呱呱坠地
尖沙咀
吟哦
哕哕
哪吒
啁哳
唼喋
嘁嘁喳喳
嘚儿
噌吰
尉犁
尉迟
工尺
崆峒
繁峙
巷道
弄堂
里弄
倔强
差忒
戆直
屈戌
扁舟
咋舌
咋呼
力能扛鼎
拾级
逼拶
提防
提溜
摩挲
南无
期年
期月
蚌山
白术
朴树
枞阳
枸橼
柜柳
柞水
栅极
栎阳
椑柿
殷红
沌阳
沌口
泌阳
泌城
洪洞
浚县
洴浰
溃脓
澹台
瀑河
炮烙
犍为
番禺
碌碡
秘鲁
稽首
筠连
糜子
纶巾
自给
补给
给养
配给
家给人足
络子
绿林
鸭绿江
缉鞋口
缉边儿
缩砂密
纰缪
体胖
脉脉
腌臜
膀胱
膻中
无臭
乳臭
怨艾
自艾
艾安
荸荠
莎草
莘莘
落枕
落实
落色
落下
蔚县
枕藉
慰藉
蕴藉
蚌埠
匕首见
匕见
解池
解数
卖解
解州
博闻强识
强识
游说
说客
句读
冠豸山
趑趄
迫击
铅山
饼铛
阿弥陀佛
阿房宫
不阿
阿胶
山阿
东阿
家雀
雀盲眼
脖颈
颉颃
驮子
龟兹
龟裂
般若
酢浆草
不省心
不省油
不省钱
河长
湖长
埋怨
的弟弟
唵嘛呢嘛呢叭咪吽
乐府
的一
地一
得一
兰若
琅邪
给予
魔都
圣都
帝都
首都
水之都
王都
之都
雾都
幽都
信长
重创
圈地
宿醉
# 需要进行注音的字词。
# Rime 是如何自动注音的:
# 对于没有注音的词汇Rime 按照方案中字表中多音字的权重比值,大于 5:100 的就会参与注音。
# 所以一个解决方案就是:例如「的 de di」手动注音 di然后确保字表权重 `de * 0.05 > di`。
# 即手动注音 di只让 de 参与自动注音。
# 的 di
的哥
的姐
的士
的当
的确
没法
没人
还好
联系
奇高
奇迹
了了
银行
厦门
基地
觉得
度高
长尾
南都
上地
鸡扒
牛扒
猪扒
咯吱
咯血
咯痰
吡咯
欧米伽
奥米伽
亲家
都统
传给
还小
还要
一圈
长图
降息
的证
目的
无的
之的
破的
标的
打的
怎的
怎么的
咋的
阿的平
巴尔的摩
加的斯
# 大 dai
大夫
# 会 kuai
会计
# 地 di de 全部注音
# 行 12777
# 待处理的多音字:
# tencent 词库一共约有 484039 个多音字
# 多音字 | 个数:
# 车 12344
# 合 11511
# 区 10819
# 色 10642
# 长 10203
# 度 9828
# 重 8780
# 了 8485
# 无 8226
# 数 8024
# 和 7766
# 员 7681
# 术 7591
# 乐 7489
# 系 7162
# 期 7071
# 强 6297
# 南 6275
# 价 6138
# 传 6109
# 单 5947
# 得 5820
# 提 5704
# 种 5468
# 都 4522
# 解 4489
# 调 4353
# 查 4129
# 模 4067
# 校 4052
# 省 4017
# 什 3579
# 着 3507
# 没 3368
# 率 3276
# 万 3140
# 说 3080
# 石 3065
# 卡 2980
# 识 2958
# 血 2906
# 见 2647
# 亲 2496
# 奇 2436
# 核 2280
# 络 2224
# 角 2158
# 约 2087
# 参 2085
# 便 1981
# 降 1979
# 洗 1829
# 综 1820
# 读 1811
# 阿 1798
# 择 1766
# 觉 1760
# 绿 1721
# 落 1669
# 差 1585
# 圈 1364
# 叶 1347
# 屏 1318
# 还 1310
# 弹 1286
# 藏 1256
# 熟 1152
# 哪 1114
# 朝 1086
# 谁 1058
# 秘 1052
# 露 1046
# 给 990
# 恶 986
# 称 969
# 盛 918
# 摩 883
# 盖 875
# 陆 863
# 折 830
# 券 821
# 佛 800
# 曾 770
# 柜 702
# 缩 695
# 句 687
# 尾 625
# 塞 620
# 繁 600
# 宿 587
# 乘 570
# 殖 564
# 洞 551
# 仔 537
# 纤 532
# 尺 531
# 娜 522
# 尿 517
# 艾 506
# 扎 506
# 薄 491
# 脉 491
# 似 470
# 劲 468
# 咖 455
# 伯 451
# 胖 451
# 拓 441
# 氏 438
# 勒 384
# 炮 363
# 堡 334
# 召 315
# 朴 306
# 曝 296
# 迫 284
# 壳 274
# 否 267
# 颈 263
# 虹 261
# 番 259
# 泌 248
# 臭 245
# 臂 232
# 莎 222
# 抹 215
# 莞 215
# 卜 210
# 栅 208
# 柏 205
# 贾 193
# 祭 173
# 泊 167
# 仇 167
# 刹 167
# 兹 166
# 哦 166
# 匙 159
# 埋 155
# 伽 154
# 畜 153
# 涡 151
# 厦 147
# 膀 142
# 雀 140
# 溃 139
# 钥 138
# 咳 138
# 弄 130
# 靓 127
# 磅 127
# 拾 125
# 吓 124
# 粘 124
# 槛 122
# 杉 115
# 巷 114
# 涌 113
# 咽 106
# 削 105
# 铅 105
# 禅 94
# 爪 90
# 伺 87
# 殷 84
# 辟 83
# 澄 83
# 龟 82
# 碌 82
# 瀑 81
# 剥 80
# 扁 80
# 蔓 79
# 腌 78
# 沌 74
# 扛 71
# 俩 68
# 嚼 62
# 蔚 62
# 呢 62
# 枸 57
# 浒 56
# 茜 56
# 屯 48
# 缉 46
# 叨 43
# 稽 41
# 琢 41
# 攒 40
# 哟 39
# 吁 39
# 楷 39
# 纶 39
# 卒 36
# 侥 36
# 牟 35
# 翟 35
# 咋 35
# 咀 34
# 扒 34
# 晟 32
# 泷 32
# 棱 32
# 吱 30
# 槟 29
# 尉 29
# 埔 29
# 炅 25
# 戌 25
# 刨 24
# 烙 24
# 裳 24
# 嘘 24
# 糜 23
# 褪 23
# 呱 21
# 囤 21
# 蛤 19
# 喔 19
# 峙 17
# 焯 17
# 缪 16
# 撮 15
# 浚 15
# 戛 15
# 桔 15
# 脯 14
# 幢 14
# 荨 13
# 覃 11
# 绰 10
# 亟 10
# 耙 9
# 熨 9
# 吭 9
# 嚓 9
# 筠 8
# 喋 8
# 奘 8
# 鞘 8
# 偻 8
# 葚 7
# 藉 7
# 枞 7
# 膻 7
# 疟 7
# 拗 6
# 苣 6
# 栎 5
# 嘚 5
# 噌 5
# 捋 5
# 鹄 4
# 莘 4
# 蚌 4
# 桧 4
# 喳 4
# 咯 4
# 珲 3
# 貉 3
# 掴 2
# 蕃 2
# 嘞 2
# 颉 2
# 啜 2
# 禺 2
# 乜 1
# 葰 1
# 澹 1
# 圜 1
# 陂 1
# 糁 0
# 饹 0
# 芾 0
# 漴 0
# 圩 0
# 荑 0
# 莨 0
# 铊 0
# 孛 0
# 铫 0
# 驮 0
# 啁 0
# 峤 0
# 媞 0
# 宓 0
# 骀 0
# 荥 0
# 鹘 0
# 螣 0
# 阇 0
# 柞 0
# 垌 0
# 艴 0
# 鬲 0
# 浰 0
# 欸 0
# 𦝼 0
# 犴 0
# 欻 0
# 峒 0
# 谌 0
# 搒 0
# 帱 0
# 耏 0
# 犍 0
# 蛸 0
# 蹊 0
# 裨 0
# 骠 0
# 芫 0
# 荠 0
# 铛 0
# 轧 0
# 拶 0
# 沓 0
# 栟 0
# 戆 0
# 梣 0
# 俟 0
# 豸 0
# 慊 0
# 杻 0
# 裼 0
# 忒 0
# 挲 0
# 棽 0
# 鿎 0
# 馇 0
# 郇 0
# 嗌 0
# 趄 0
# 镡 0
# 玢 0
# 絜 0
# 蝤 0
# 湫 0
# 麇 0
# 焌 0
# 趵 0
# 椑 0
# 𦰡 0
# 茈 0
# 岨 0
# 哕 0
# 贲 0
# 茄 0
# 虷 0
# 喁 0
# 笮 0