dict: 完成同义多音字注音 close #353

This commit is contained in:
Dvel 2023-10-30 20:09:27 +08:00
parent bb0fdea74c
commit fa12fa4a02
16 changed files with 4491 additions and 2008 deletions

1
.gitignore vendored
View File

@ -12,6 +12,7 @@ user.yaml
custom_phrase_double.txt custom_phrase_double.txt
others/script/scel2txt/out/* others/script/scel2txt/out/*
others/script/scel2txt/scel/* others/script/scel2txt/scel/*
cn_dicts/temp.txt
*private* *private*

View File

@ -33,7 +33,7 @@
# 需要注音的字词设定在 others/script/rime/需要注音.txt # 需要注音的字词设定在 others/script/rime/需要注音.txt
--- ---
name: 8105 name: 8105
version: "2023-10-09" version: "2023-10-30"
sort: by_weight sort: by_weight
... ...
### 按需启用 ### 按需启用
@ -2948,7 +2948,6 @@ sort: by_weight
揭 jie 57148 揭 jie 57148
竭 jie 48555 竭 jie 48555
届 jie 38051 届 jie 38051
价 jie 23092
藉 jie 20781 藉 jie 20781
婕 jie 19606 婕 jie 19606
睫 jie 18742 睫 jie 18742
@ -2957,6 +2956,7 @@ sort: by_weight
芥 jie 7468 芥 jie 7468
桔 jie 7128 桔 jie 7128
诘 jie 3733 诘 jie 3733
价 jie 3500
颉 jie 3359 颉 jie 3359
嗟 jie 3220 嗟 jie 3220
孑 jie 2490 孑 jie 2490
@ -5108,7 +5108,7 @@ sort: by_weight
樵 qiao 8689 樵 qiao 8689
撬 qiao 6740 撬 qiao 6740
锹 qiao 4077 锹 qiao 4077
壳 qiao 2000 壳 qiao 3000
谯 qiao 1914 谯 qiao 1914
橇 qiao 1666 橇 qiao 1666
诮 qiao 1506 诮 qiao 1506

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

View File

@ -14,7 +14,7 @@
# 转化应当大写的单词 # 转化应当大写的单词
--- ---
name: en name: en
version: "2023-10-22" version: "2023-10-30"
sort: by_weight sort: by_weight
... ...
# +_+ # +_+
@ -12414,7 +12414,7 @@ named named
namely namely namely namely
names names names names
namespace namespace namespace namespace
namibia namibia Namibia Namibia
naming naming naming naming
nan nan nan nan
Nancy Nancy Nancy Nancy
@ -14196,7 +14196,7 @@ poison poison
poisoning poisoning poisoning poisoning
poisonous poisonous poisonous poisonous
poke poke poke poke
pokemon pokemon Pokemon Pokemon
poker poker poker poker
# pol pol # pol pol
Poland Poland Poland Poland
@ -17118,7 +17118,7 @@ sing sing
Singapore Singapore Singapore Singapore
singer singer singer singer
singers singers singers singers
singh singh Singh Singh
singing singing singing singing
single single single single
singled singled singled singled

View File

@ -7,7 +7,7 @@
# #
--- ---
name: en_ext name: en_ext
version: "2023-10-22" version: "2023-10-30"
sort: by_weight sort: by_weight
... ...
# 一些杂项 # 一些杂项
@ -432,7 +432,7 @@ WYSIWYG WYSIWYG
What You See Is What You Get WYSIWYG What You See Is What You Get WYSIWYG
Mark Text MarkText Mark Text MarkText
Joplin Joplin Joplin Joplin
Obsidian Obsidian obsidian obsidian
SteamOS SteamOS SteamOS SteamOS
TikTok TikTok TikTok TikTok
IDC IDC IDC IDC
@ -823,8 +823,6 @@ Overcast Overcast
Overflow Overflow Overflow Overflow
PaintCode PaintCode PaintCode PaintCode
Parallels Desktop ParallelsDesktop Parallels Desktop ParallelsDesktop
Password Password
Paste Paste
PayPal PayPal PayPal PayPal
PhotoDesk PhotoDesk PhotoDesk PhotoDesk
Picatext Picatext Picatext Picatext
@ -943,8 +941,6 @@ WSGI WSGI
BTC BTC BTC BTC
Bitcoin BTC Bitcoin BTC
Bitcoin Bitcoin Bitcoin Bitcoin
template template
IMDb IMDb
gank gank gank gank
debuff debuff debuff debuff
MagSafe MagSafe MagSafe MagSafe
@ -1008,7 +1004,6 @@ Optical Character Recognition OCR
Optical Character Recognition OpticalCharacterRecognition Optical Character Recognition OpticalCharacterRecognition
Déjà vu Dejavu Déjà vu Dejavu
FFmpeg FFmpeg FFmpeg FFmpeg
Pokemon Pokemon
DMCA DMCA DMCA DMCA
Digital Millennium Copyright Act DMCA Digital Millennium Copyright Act DMCA
Digital Millennium Copyright Act DigitalMillenniumCopyrightAct Digital Millennium Copyright Act DigitalMillenniumCopyrightAct
@ -1126,7 +1121,6 @@ Shottr Shottr
turbo turbo turbo turbo
Turbo Boost TurboBoost Turbo Boost TurboBoost
Turbo Boost Switcher TurboBoostSwitcher Turbo Boost Switcher TurboBoostSwitcher
P2P P2P
OPPO OPPO OPPO OPPO
vivo vivo vivo vivo
Uno Uno Uno Uno
@ -1526,19 +1520,14 @@ deprecate deprecate
deprecated deprecated deprecated deprecated
tum tum tum tum
rapper rapper rapper rapper
fucked fucked
Fedora Fedora Fedora Fedora
downbeat downbeat downbeat downbeat
hading hading hading hading
LeetCode LeetCode LeetCode LeetCode
danced danced danced danced
swept swept
spun spun
ghosts ghosts ghosts ghosts
admiral admiral
moonlit moonlit moonlit moonlit
Helvetica Helvetica Helvetica Helvetica
rewrite rewrite
limon limon limon limon
annotate annotate annotate annotate
annotated annotated annotated annotated
@ -2347,3 +2336,28 @@ PVE PVE
player versus environment PVE player versus environment PVE
Elon Elon Elon Elon
Musk Musk Musk Musk
Logseq Logseq
WPS WPS
Morty Morty
destructible destructible
indestructible indestructible
Frundles Frundles
Brotato Brotato
homie homie
homey homey
cynical cynical
seduce seduce
pinky pinky
engineman engineman
unhuman unhuman
unhumified unhumified
unhumanize unhumanize
flares flares
P2P P2P
F2A F2A
B2B B2B
C2C C2C
B2C B2C
C2B C2B
O2O O2O
NBA 2K NBA2K

View File

@ -668,6 +668,7 @@ OK OK 👌 🙆‍♂️ 🙆‍♀️ 🆗
捏合 捏合 🤌 捏合 捏合 🤌
兰花指 兰花指 🤌 兰花指 兰花指 🤌
捏手指 捏手指 🤌 捏手指 捏手指 🤌
手指 手指 🤌
一点 一点 🤏 🕐 一点 一点 🤏 🕐
一点儿 一点儿 🤏 一点儿 一点儿 🤏
一点点 一点点 🤏 一点点 一点点 🤏
@ -1374,6 +1375,7 @@ baby baby 👶 🚼
泛舟 泛舟 🚣‍♂️ 🚣‍♀️ 泛舟 泛舟 🚣‍♂️ 🚣‍♀️
游泳者 游泳者 🏊‍♂️ 🏊‍♀️ 游泳者 游泳者 🏊‍♂️ 🏊‍♀️
游泳 游泳 🏊‍♂️ 🏊‍♀️ 游泳 游泳 🏊‍♂️ 🏊‍♀️
泳客 泳客 🏊‍♂️ 🏊‍♀️
男生游泳 男生游泳 🏊‍♂️ 男生游泳 男生游泳 🏊‍♂️
女生游泳 女生游泳 🏊‍♀️ 女生游泳 女生游泳 🏊‍♀️
篮球运动员 篮球运动员 ⛹️‍♂️ ⛹️‍♀️ 篮球运动员 篮球运动员 ⛹️‍♂️ ⛹️‍♀️
@ -2465,6 +2467,7 @@ SUV SUV 🚙
油桶 油桶 🛢 油桶 油桶 🛢
加油站 加油站 ⛽ 加油站 加油站 ⛽
加油 加油 ⛽ 加油 加油 ⛽
石油 石油 ⛽
车轮 车轮 🛞 车轮 车轮 🛞
轮胎 轮胎 🛞 轮胎 轮胎 🛞
轮子 轮子 🛞 轮子 轮子 🛞
@ -2961,6 +2964,7 @@ T恤衫 T恤衫 👕
板鞋 板鞋 👟 板鞋 板鞋 👟
板儿鞋 板儿鞋 👟 板儿鞋 板儿鞋 👟
休闲鞋 休闲鞋 👟 休闲鞋 休闲鞋 👟
鞋子 鞋子 👟
登山鞋 登山鞋 🥾 登山鞋 登山鞋 🥾
平底鞋 平底鞋 🥿 平底鞋 平底鞋 🥿
高跟鞋 高跟鞋 👠 高跟鞋 高跟鞋 👠
@ -3070,6 +3074,7 @@ T恤衫 T恤衫 👕
沙锤 沙锤 🪇 沙锤 沙锤 🪇
笛子 笛子 🪈 笛子 笛子 🪈
长笛 长笛 🪈 长笛 长笛 🪈
竖笛 竖笛 🪈
移动电话 移动电话 📱 移动电话 移动电话 📱
手机 手机 📱 手机 手机 📱
智能手机 智能手机 📱 智能手机 智能手机 📱
@ -3179,7 +3184,9 @@ TV TV 📺
小红书 小红书 📕 小红书 小红书 📕
第一卷 第一卷 📕 第一卷 第一卷 📕
书 书 📖 📚 书 书 📖 📚
图书 图书 📖 📚
书本 书本 📖 📚 书本 书本 📖 📚
书籍 书籍 📖 📚
打开的书 打开的书 📖 打开的书 打开的书 📖
打开的书本 打开的书本 📖 打开的书本 打开的书本 📖
绿色的书 绿色的书 📗 绿色的书 绿色的书 📗
@ -3194,7 +3201,6 @@ TV TV 📺
橘色的书 橘色的书 📙 橘色的书 橘色的书 📙
橘色书本 橘色书本 📙 橘色书本 橘色书本 📙
第四卷 第四卷 📙 第四卷 第四卷 📙
图书 图书 📚
账簿 账簿 📒 账簿 账簿 📒
带卷边的纸 带卷边的纸 📃 带卷边的纸 带卷边的纸 📃
卷边的纸 卷边的纸 📃 卷边的纸 卷边的纸 📃

View File

@ -4,6 +4,10 @@
## 2023-10-30 📖
完成同义多音字的注音问题 [#353](https://github.com/iDvel/rime-ice/issues/353)
## 2023-08-07 🆕 ## 2023-08-07 🆕
支持搜狗双拼 [34ab972](https://github.com/iDvel/rime-ice/commit/34ab9725ea9cdf918cbf9f6a4c27d61db7736b07) 支持搜狗双拼 [34ab972](https://github.com/iDvel/rime-ice/commit/34ab9725ea9cdf918cbf9f6a4c27d61db7736b07)

View File

@ -1,7 +1,16 @@
# Hamster 九宫格 # Hamster 九宫格
`rime_ice.dict.yaml` 覆盖到配置目录同名文件,删除了大写字母的编码,因为仓的九宫格用了大写字母。 要在仓输入法中启用九宫格,需要切换到九宫格方案,并启用九宫格布局。
需要做的额外操作:
1. 将 `rime_ice.dict.yaml` 覆盖到配置目录同名文件,删除了大写字母的编码,因为仓的九宫格用了大写字母。
2. (可选)将 `melt_eng.custom.yaml` 复制到配置目录,可以支持九宫格输入英文,方便输入一些短单词,但会导致全键盘方案无法输入英文。
<br> <br>
(可选)将 `melt_eng.custom.yaml` 复制到配置目录,可以支持九宫格输入英文,方便输入一些短单词。 ---
<br>
因为 [#332 ](https://github.com/imfuxiao/Hamster/issues/322)的原因,仓目前还不能选择拼音,九宫格不能选拼音其实基本没法用,不太建议使用,可以等 librime 更新了相关 API 再考虑尝试。

View File

@ -1,7 +1,7 @@
# Emoji 映射表 # Emoji 映射表
# 根据此文件生成 emoji.txt # 根据此文件生成 emoji.txt
# #
# version: 2023-10-14 # version: 2023-10-30
# #
# 中文映射由 Dvel 纯手工打造 https://github.com/iDvel/rime-ice # 中文映射由 Dvel 纯手工打造 https://github.com/iDvel/rime-ice
# #
@ -224,7 +224,7 @@ S$ 新加坡元 新加坡币
🫸 右手 右推 向右推 推手 向右推手 向右推的手 🫸 右手 右推 向右推 推手 向右推手 向右推的手
# hand-fingers-partial # hand-fingers-partial
👌 OK 好 好的 好哒 没问题 👌 OK 好 好的 好哒 没问题
🤌 手指捏和 捏合 兰花指 捏手指 🤌 手指捏和 捏合 兰花指 捏手指 手指
🤏 一点 一点儿 一点点 少量 少许 🤏 一点 一点儿 一点点 少量 少许
✌️ 和平手势 耶 哦耶 成功 胜利 赢了 剪刀手 赢啦 赢咯 两个 第二 ✌️ 和平手势 耶 哦耶 成功 胜利 赢了 剪刀手 赢啦 赢咯 两个 第二
🤞 手指交叉 交叉的手指 🤞 手指交叉 交叉的手指
@ -509,8 +509,8 @@ S$ 新加坡元 新加坡币
🚣‍♂️ 划船 划艇 泛舟 🚣‍♂️ 划船 划艇 泛舟
🚣‍♀️ 划船 划艇 泛舟 🚣‍♀️ 划船 划艇 泛舟
# 🏊 # 🏊
🏊‍♂️ 游泳者 游泳 男生游泳 🏊‍♂️ 游泳者 游泳 泳客 男生游泳
🏊‍♀️ 游泳者 游泳 女生游泳 🏊‍♀️ 游泳者 游泳 泳客 女生游泳
# ⛹ # ⛹
⛹️‍♂️ 篮球运动员 打篮球 玩篮球 ⛹️‍♂️ 篮球运动员 打篮球 玩篮球
⛹️‍♀️ 篮球运动员 打篮球 玩篮球 ⛹️‍♀️ 篮球运动员 打篮球 玩篮球
@ -1017,7 +1017,7 @@ S$ 新加坡元 新加坡币
🛣 高速公路 高速 公路 🛣 高速公路 高速 公路
🛤 铁轨 🛤 铁轨
🛢 油桶 🛢 油桶
⛽ 加油站 加油 ⛽ 加油站 加油 石油
🛞 车轮 轮胎 轮子 🛞 车轮 轮胎 轮子
🚨 警车旋转灯 警灯 警车灯 🚨 警车旋转灯 警灯 警车灯
🚥 交通信号灯 交通灯 信号灯 红绿灯 🚥 交通信号灯 交通灯 信号灯 红绿灯
@ -1252,7 +1252,7 @@ S$ 新加坡元 新加坡币
🎒 书包 双肩包 背包 背囊 🎒 书包 双肩包 背包 背囊
🩴 凉鞋 夹趾凉鞋 沙滩凉鞋 拖鞋 人字拖 🩴 凉鞋 夹趾凉鞋 沙滩凉鞋 拖鞋 人字拖
👞 皮鞋 男鞋 👞 皮鞋 男鞋
👟 网球鞋 跑鞋 运动鞋 板鞋 板儿鞋 休闲鞋 👟 网球鞋 跑鞋 运动鞋 板鞋 板儿鞋 休闲鞋 鞋子
🥾 登山鞋 🥾 登山鞋
🥿 平底鞋 🥿 平底鞋
👠 高跟鞋 高跟儿 高跟儿鞋 女鞋 👠 高跟鞋 高跟儿 高跟儿鞋 女鞋
@ -1302,7 +1302,7 @@ S$ 新加坡元 新加坡币
🥁 鼓 打鼓 敲鼓 🥁 鼓 打鼓 敲鼓
🪘 长鼓 康加鼓 🪘 长鼓 康加鼓
🪇 沙锤 🪇 沙锤
🪈 笛子 长笛 🪈 笛子 长笛 竖笛
# phone # phone
📱 移动电话 手机 智能手机 📱 移动电话 手机 智能手机
📲 来电 来电了 📲 来电 来电了
@ -1345,11 +1345,11 @@ S$ 新加坡元 新加坡币
# book-paper # book-paper
📔 笔记本 记事本 日记本 📔 笔记本 记事本 日记本
📕 红色的书 红色书本 小红书 第一卷 📕 红色的书 红色书本 小红书 第一卷
📖 书 书本 打开的书 打开的书本 📖 书 图书 书本 书籍 打开的书 打开的书本
📗 绿色的书 绿色书本 教科书 第二卷 📗 绿色的书 绿色书本 教科书 第二卷
📘 蓝色的书 蓝色书本 第三卷 📘 蓝色的书 蓝色书本 第三卷
📙 橙色的书 橙色书本 橘色的书 橘色书本 第四卷 📙 橙色的书 橙色书本 橘色的书 橘色书本 第四卷
📚 书 图书 书本 📚 书 图书 书本 书籍
📓 笔记本 记事本 日记本 📓 笔记本 记事本 日记本
📒 账簿 笔记本 记事本 日记本 📒 账簿 笔记本 记事本 日记本
📃 带卷边的纸 卷边的纸 📃 带卷边的纸 卷边的纸

View File

@ -21,9 +21,10 @@ func main() {
return return
case "p": case "p":
rime.CheckPolyphone(rime.BasePath) rime.CheckPolyphone(rime.BasePath)
rime.CheckPolyphone(rime.ExtPath)
return return
case "tp": case "tp":
rime.Pinyin(filepath.Join(rime.RimeDir, "cn_dicts/temp")) rime.Pinyin(filepath.Join(rime.RimeDir, "cn_dicts/temp.txt"))
return return
} }
} }
@ -53,6 +54,11 @@ func main() {
rime.Check(rime.TencentPath, 4) rime.Check(rime.TencentPath, 4)
fmt.Println("--------------------------------------------------") fmt.Println("--------------------------------------------------")
// 检查同义多音字
rime.CheckPolyphone(rime.BasePath)
rime.CheckPolyphone(rime.ExtPath)
fmt.Println("--------------------------------------------------")
areYouOK() areYouOK()
SORT: SORT:

View File

@ -18,9 +18,9 @@ func Temp() {
// GeneratePinyinTest("都挺长的") // GeneratePinyinTest("都挺长的")
// GeneratePinyinTest("血条长") // GeneratePinyinTest("血条长")
// findP(ExtPath, "熟") // findP(BasePath, "血")
Pinyin(ExtPath) // Pinyin(ExtPath)
AddWeight(ExtPath, 100) // AddWeight(ExtPath, 100)
} }
// 列出字表中多音字的状况:是否参与自动注音 // 列出字表中多音字的状况:是否参与自动注音
@ -90,7 +90,7 @@ func polyphone() {
} }
} }
// 在字典中找到此行是否包含同义多音字,如果包含切长度大于等于3从文件中删除这行并将所有删除的行写入到 1.txt 中 // 在词库中找到此行是否包含同义多音字,如果包含且长度大于等于3从文件中删除这行并将所有删除的行写入到 1.txt 中
func findP(dictPath string, ch string) { func findP(dictPath string, ch string) {
// open file // open file
file, err := os.OpenFile(dictPath, os.O_RDWR, 0666) file, err := os.OpenFile(dictPath, os.O_RDWR, 0666)

View File

@ -29,10 +29,12 @@ var polyphonicWords = []string{
// 不检查的词汇 // 不检查的词汇
var polyphonicWordsFilter = []string{ var polyphonicWordsFilter = []string{
"咀嚼", "咀嚼", "倒嚼", "嚼着", "咬文嚼字", "嚼用", "嚼服", "马嚼子", "嚼了", "干嚼", "边嚼边", "嚼舌", "嚼不了",
"薄暮", "薄地", "薄海", "薄酒", "薄礼", "薄面", "薄命", "薄情", "薄弱", "薄田", "薄物细故", "薄幸", "薄情", "薄葬", "厌薄", "厚积薄发", "履薄临深", "德薄望轻", "菲薄", "履薄", "孤军薄旅", "薄太后", "淡薄", "姓薄", "微薄", "绵薄", "缘薄", "薄暮", "薄施", "薄言", "儇薄", "鄙薄", "薄的", "薄雾", "薄被", "浇薄", "薄膜", "德薄任重", "德浅行薄", "恶衣薄食", "片长薄技", "薄纸", "硗薄", "薄产", "浅薄", "薄技", "命薄", "薄利", "瘠薄", "凉薄", "薄待", "削薄", "稀薄", "薄地", "喷薄", "薄薪", "薄海", "薄酒", "薄礼", "刻薄", "薄面", "薄命", "磨薄", "薄情", "薄弱", "薄弱地带", "薄弱学校", "薄弱学校改造", "薄志弱行", "薄批细抹", "薄抹灰", "薄伽丘", "薄伽梵", "薄伽梵歌", "薄砂地", "赢得青楼薄幸名", "薄田", "薄物细故", "薄幸", "薄情", "薄葬", "厌薄", "厚积薄发", "履薄临深", "德薄望轻", "菲薄", "履薄", "孤军薄旅", "薄太后", "薄荷",
"剥离", "剥夺", "剥削", "剥落", "剥蚀", "剥啄", "剥离", "剥夺", "剥削", "剥落", "剥除", "吞剥", "撕剥", "剥茧", "剥蚀", "剥取", "剥脱", "剥啄", "剥开", "椎肤剥髓", "毕剥", "剥肤之痛", "环剥", "盘剥", "生吞活剥",
"熟稔", "黄熟", "熟稔", "黄熟", "谙熟", "熟思", "熟睡", "厮熟", "精熟", "熟虑", "熟字", "熟道", "腐熟", "熟地", "熟手", "熟漆", "熟语", "熟妇", "熟路", "熟识", "熟谙", "熟习", "常熟",
"爪哇", "爪儿", "鳞爪", "棘爪", "握爪", "爪子", "爪牙",
"差忒", "忒弥斯", "忒修斯", "破忒头", "安菲特里忒", "阿塔兰忒", "阿佛洛狄忒", "阿芙忒娜", "忒伊亚", "得墨忒耳", "欧忒耳佩",
} }
// CheckPolyphone 检查 base、ext 中同义多音字是否有两种读音 // CheckPolyphone 检查 base、ext 中同义多音字是否有两种读音
@ -79,7 +81,7 @@ func CheckPolyphone(dictPath string) {
// 遍历 m输出单数读音的词汇 // 遍历 m输出单数读音的词汇
for text, codes := range m { for text, codes := range m {
if len(codes)%2 != 0 { if len(codes)%2 != 0 {
fmt.Println(text) fmt.Println("⚠️ 同义多音字: " + text)
} }
} }
} }

View File

@ -1,4 +1,9 @@
# 在 # -_- 上面是错词;下面是包含错词但不是错词。 # 在 # -_- 上面是错词;下面是包含错词但不是错词。
必剥
毛绒绒
斗志斗勇
翻云复雨
复雨翻云
目光所致 目光所致
浒野关 浒野关
贝克勒耳 贝克勒耳

View File

@ -183,7 +183,7 @@
木强少文 木强少文
# 南 na # 南 na
南无 南无
# 价 6138 # 价 jie
别价 别价
甭价 甭价
不价 不价
@ -678,8 +678,37 @@
脉脉 脉脉
# 似 shi # 似 shi
似的 似的
# 劲 jin jing (全部注音) # 劲 jing
遒劲
兵劲城固
苍劲
正劲
刚劲
劲爆
强劲
劲草
劲拔
劲吹
劲敌
劲风
劲歌
劲酒
劲烈
劲旅
劲弩
劲峭
劲射
劲升
劲松
劲挺
劲舞
劲直
劲卒
前茅后劲
坚劲
清劲风
雄劲
直节劲气
# 咖 ga # 咖 ga
咖喱 咖喱
# 伯 bai # 伯 bai
@ -718,7 +747,6 @@
迫榴炮 迫榴炮
# 壳 qiao # 壳 qiao
地壳 地壳
甲壳
脱壳 脱壳
壳菜 壳菜
壳斗 壳斗