dict: 日常更新; close #375

This commit is contained in:
Dvel 2023-06-29 20:44:38 +08:00
parent d9cf59d5f2
commit d00aac9ef4
14 changed files with 479 additions and 152 deletions

View File

@ -171,7 +171,11 @@ patch:
搜狗转 Rime[lewangdev/scel2txt](https://github.com/lewangdev/scel2txt)
大量参考[校对标准论坛](http://www.jiaodui.com/bbs/)。
大量参考:
- [校对标准论坛](http://www.jiaodui.com/bbs/)
- [汉典](https://www.zdic.net/)
- [成语典](https://dict.idioms.moe.edu.tw/)
Thanks to JetBrains for the OSS development license.

View File

@ -1593,7 +1593,7 @@
#///
---
name: base
version: "2023-06-27"
version: "2023-06-29"
sort: by_weight
...
# +_+
@ -40534,6 +40534,7 @@ sort: by_weight
猜的数儿 cai de shu er 1
猜的题 cai de ti 1
才得以 cai de yi 33505
菜得一逼 cai de yi bi 1111
猜得着 cai de zhao 190
才得知 cai de zhi 6100
猜得准 cai de zhun 85
@ -78317,6 +78318,7 @@ sort: by_weight
淡扫明湖开玉镜 dan sao ming hu kai yu jing 1
单色 dan se 48925
胆色 dan se 2325
丹色 dan se 1111
淡色杜鹃 dan se du juan 1
单色光 dan se guang 1145
单色画 dan se hua 175
@ -90686,6 +90688,7 @@ sort: by_weight
颠三倒四 dian san dao si 3085
电三轮 dian san lun 85
点三三 dian san san 15
靛色 dian se 1111
点啥 dian sha 3560
点杀 dian sha 2215
电扇 dian shan 10550
@ -91858,7 +91861,7 @@ sort: by_weight
钓得金龟婿 diao de jin gui xu 980
吊的是 diao de shi 60
刁德一 diao de yi 17
的一逼 diao de yi bi 111
得一逼 diao de yi bi 1111
吊灯 diao deng 22030
掉凳 diao deng 6666
刁蹬 diao deng 1
@ -134828,6 +134831,7 @@ sort: by_weight
哥斯达黎加双色木蝎 ge si da li jia shuang se mu xie 1
哥斯达黎加溪鳉 ge si da li jia xi jiang 1
哥斯达黎加鸺鹠 ge si da li jia xiu liu 1
葛斯·弗林 ge si fu lin 1111
哥斯拉 ge si la 1935
各司其事 ge si qi shi 9999
各司其职 ge si qi zhi 26175
@ -231583,6 +231587,7 @@ sort: by_weight
吭哧吭哧 keng chi keng chi 1125
坑翅夜蛾 keng chi ye e 1
坑道 keng dao 10205
坑得一逼 keng de yi bi 1111
坑点 keng dian 3333
坑点儿 keng dian er 3333
坑点钱 keng dian qian 333
@ -242566,6 +242571,8 @@ sort: by_weight
累死累活 lei si lei huo 2530
类似情况 lei si qing kuang 9480
泪似泉流 lei si quan liu 111
累死人 lei si ren 3333
雷死人 lei si ren 222
累死三军 lei si san jun 190
类似事件 lei si shi jian 120
类似问题 lei si wen ti 9355
@ -251523,7 +251530,7 @@ sort: by_weight
撩拨 liao bo 7090
聊博一笑 liao bo yi xiao 8
撩拨着 liao bo zhe 1285
寮步 liao bu 9620
聊不 liao bu 9999
料不到 liao bu dao 4540
聊不到 liao bu dao 692
了不得 liao bu de 10795
@ -251537,6 +251544,7 @@ sort: by_weight
聊不下去 liao bu xia qu 81
了不相干 liao bu xiang gan 23
了不相属 liao bu xiang shu 1
寮步镇 liao bu zhen 1
料仓 liao cang 5020
潦草 liao cao 9670
潦草塞责 liao cao se ze 3
@ -268767,6 +268775,7 @@ sort: by_weight
麦乳精 mai ru jing 2151
埋入土中 mai ru tu zhong 900
卖骚 mai sao 5555
麦色 mai se 1111
买啥 mai sha 9999
卖啥 mai sha 111
买山归卧 mai shan gui wo 1
@ -293179,6 +293188,8 @@ sort: by_weight
尼科尔 ni ke er 2995
尼科尔森 ni ke er sen 2205
尼科夫 ni ke fu 3525
你可来 ni ke lai 3333
尼科莱 ni ke lai 111
妮可·罗宾 ni ke luo bin 111
你可能 ni ke neng 4
你可能会觉得 ni ke neng hui jue de 111
@ -332261,6 +332272,7 @@ sort: by_weight
热卡 re ka 1315
热咖啡 re ka fei 4635
热开水 re kai shui 2415
热咳 re ke 1111
热柯觉乡 re ke jue xiang 3
热柯依达乡 re ke yi da xiang 4
热可炙手 re ke zhi shou 111
@ -383752,7 +383764,9 @@ sort: by_weight
松岛透明狮子鱼 song dao tou ming shi zi yu 1
送到咸阳见夕阳 song dao xian yang jian xi yang 1
送的 song de 67160
松的 song de 38060
怂得 song de 5555
怂的 song de 4444
松的 song de 3806
颂德 song de 1945
送得 song de 1180
颂德歌功 song de ge gong 111
@ -383760,6 +383774,7 @@ sort: by_weight
送得起 song de qi 75
送的是 song de shi 1395
松得像 song de xiang 85
怂得一逼 song de yi bi 1111
送递 song di 935
送点 song dian 6170
送电 song dian 1607
@ -433276,6 +433291,7 @@ sort: by_weight
五色 wu se 32590
物色 wu se 21690
雾色 wu se 1335
乌色 wu se 1111
五色斑斓 wu se ban lan 515
无色彩 wu se cai 585
五色彩球 wu se cai qiu 2
@ -459406,7 +459422,8 @@ sort: by_weight
心率失常分析仪 xin lv shi chang fen xi yi 1
心律紊乱 xin lv wen luan 144
心膂爪牙 xin lv zhao ya 111
新马 xin ma 6530
信吗 xin ma 5555
新马 xin ma 65
新马尔萨斯主义 xin ma er sa si zhu yi 55
新马莲 xin ma lian 181
新马路 xin ma lu 514
@ -528810,6 +528827,7 @@ sort: by_weight
樟茶鸭 zhang cha ya 838
樟茶鸭子 zhang cha ya zi 555
张槎医院 zhang cha yi yuan 36
长长 zhang chang 3333
张长城 zhang chang cheng 21
掌长肌 zhang chang ji 7
长长了 zhang chang le 111

File diff suppressed because it is too large Load Diff

View File

@ -10,9 +10,11 @@
#
# 只保留三个字及以上的词
# 与 base ext 没有重复
#
# 删除大量包含错别字和会造成困扰的黄网相关词汇
---
name: tencent
version: "2023-06-27"
version: "2023-06-29"
sort: by_weight
columns:
- text
@ -34213,7 +34215,6 @@ columns:
不信你看看 100
不信命 100
不信因果 100
不信地 100
不信服 100
不信来 100
不信的话 100
@ -49277,7 +49278,6 @@ columns:
不降低 100
不降反增 100
不降反涨 100
不降息 100
不降级 100
不降薪 100
不降质 100
@ -104754,7 +104754,6 @@ columns:
亮窗行动 100
亮粉色 100
亮紫色 100
亮红色 100
亮绿灯 100
亮绿色 100
亮职责 100
@ -177539,7 +177538,6 @@ columns:
全球闻名 100
全球阀门网 100
全球防疫 100
全球降息潮 100
全球限量发售 100
全球限量款 100
全球限量版 100
@ -180016,7 +180014,6 @@ columns:
全面降价 100
全面降低 100
全面降准 100
全面降息 100
全面降温 100
全面限制 100
全面隔离 100
@ -199333,7 +199330,6 @@ columns:
再问问 100
再阅读 100
再降低 100
再降息 100
再降温 100
再隔离 100
再障患者 100
@ -290521,7 +290517,6 @@ columns:
可能问 100
可能降 100
可能降低 100
可能降息 100
可能需要一些时间 100
可能需要一段时间 100
可能需要时间 100
@ -314752,7 +314747,6 @@ columns:
哎呀我去 100
哎哎哎 100
哎哎哎哎 100
哎哟不错哦 100
哎哟哎哟 100
哎哟哟 100
哎哟妈呀 100
@ -365623,7 +365617,6 @@ columns:
大幅释放 100
大幅降低 100
大幅降低成本 100
大幅降息 100
大幅降薪 100
大幅震荡 100
大幅面打印机 100
@ -375102,7 +375095,6 @@ columns:
天蓝地绿水清 100
天蓝水清 100
天蓝水碧 100
天蓝色的 100
天蓝色的彼岸 100
天蓝釉 100
天蓬归来 100
@ -378251,7 +378243,6 @@ columns:
央行逆回购到期 100
央行金融稳定局 100
央行降准 100
央行降息 100
央视一哥 100
央视一姐 100
央视一姐董卿 100
@ -412876,7 +412867,6 @@ columns:
定向钻穿越 100
定向销售 100
定向降准 100
定向降息 100
定品牌 100
定国公 100
定地点 100
@ -426705,7 +426695,6 @@ columns:
寨子里 100
寨里村 100
寨里镇 100
寮步镇 100
寰亚电影 100
寰宇一家 100
寰宇公司 100
@ -438738,7 +438727,6 @@ columns:
尼科拉 100
尼科斯 100
尼科洛 100
尼科莱 100
尼米兹号航母 100
尼米兹级 100
尼米兹级航母 100
@ -517356,7 +517344,6 @@ columns:
意外重逢 100
意外闯入 100
意外降临 100
意外降息 100
意外频出 100
意外频发 100
意外骨折 100
@ -537757,7 +537744,6 @@ columns:
打个游戏 100
打个滚 100
打个翻身仗 100
打个补丁 100
打个飞机 100
打个鸡蛋 100
打中单 100
@ -620544,7 +620530,6 @@ columns:
星云棋牌 100
星云法师 100
星云湖 100
星云紫 100
星云股份 100
星云链 100
星云集 100
@ -628331,7 +628316,6 @@ columns:
暖风频吹 100
暖黄的灯光 100
暖黄皮 100
暖黄色 100
暖黄色的灯光 100
暗一点 100
暗七对 100
@ -641450,7 +641434,6 @@ columns:
月光照耀 100
月光爱人 100
月光男孩 100
月光白 100
月光皎洁 100
月光直播在线观看 100
月光码头 100
@ -647513,7 +647496,6 @@ columns:
未来钱 100
未来销量 100
未来问题 100
未来降息 100
未来集团 100
未来集市 100
未来零售 100
@ -663230,7 +663212,6 @@ columns:
枯藤老树 100
枯黄的树叶 100
枯黄的落叶 100
枯黄色 100
架上绘画 100
架乃由罗 100
架势十足 100
@ -664383,7 +664364,6 @@ columns:
柠檬种植 100
柠檬籽 100
柠檬精油 100
柠檬绿 100
柠檬绿茶 100
柠檬网 100
柠檬膏 100
@ -665503,7 +665483,6 @@ columns:
柿子树下 100
柿子熟了 100
柿子皮 100
柿子红 100
柿子红了 100
柿子色 100
柿子苗 100
@ -671317,7 +671296,6 @@ columns:
梅琳达 100
梅笑寒 100
梅米舍维奇 100
梅红色 100
梅绛雪 100
梅罗争霸 100
梅罗二人 100
@ -673780,7 +673758,6 @@ columns:
森林精灵 100
森林系 100
森林经营 100
森林绿 100
森林群落 100
森林舞 100
森林舞会 100
@ -676516,7 +676493,6 @@ columns:
橡木板 100
橡木桶陈酿 100
橡木浴室柜 100
橡木色 100
橡木门 100
橡树叶 100
橡树岭 100
@ -695820,7 +695796,6 @@ columns:
水蒸发 100
水蒸蛋 100
水蓝星 100
水蓝色 100
水蓝蓝 100
水蚯蚓 100
水蛭养殖 100
@ -717037,10 +717012,8 @@ columns:
浅见光彦 100
浅野和之 100
浅野真由美 100
浅金色 100
浅间神社 100
浅阅读 100
浅青色 100
浅香航大 100
浅驼色 100
浅黑色 100
@ -721413,7 +721386,6 @@ columns:
海洋自然 100
海洋般 100
海洋船舶 100
海洋蓝 100
海洋装备 100
海洋观测 100
海洋调查 100
@ -736861,7 +736833,6 @@ columns:
湛蓝的海水 100
湛蓝的湖水 100
湛蓝的眼睛 100
湛蓝色 100
湟川三峡 100
湟水河 100
湟水流域 100
@ -770792,7 +770763,6 @@ columns:
玫瑰礼盒 100
玫瑰种植 100
玫瑰窗 100
玫瑰粉 100
玫瑰粉色 100
玫瑰精华 100
玫瑰精灵 100
@ -774503,7 +774473,6 @@ columns:
玲珑阁 100
玲琅满目 100
玳瑁猫 100
玳瑁色 100
玺子哥 100
玻利甲 100
玻利维亚总统 100
@ -774994,7 +774963,6 @@ columns:
珊瑚樱 100
珊瑚橘 100
珊瑚橘色 100
珊瑚橙 100
珊瑚橙色 100
珊瑚沙 100
珊瑚海海战 100
@ -775002,7 +774970,6 @@ columns:
珊瑚珠 100
珊瑚白化 100
珊瑚礁群 100
珊瑚粉 100
珊瑚红 100
珊瑚绒 100
珊瑚绒四件套 100
@ -775143,7 +775110,6 @@ columns:
珍珠湾 100
珍珠滩瀑布 100
珍珠漆 100
珍珠灰 100
珍珠熊 100
珍珠状 100
珍珠玛瑙 100
@ -777353,7 +777319,6 @@ columns:
琥珀酰亚胺 100
琥珀醇 100
琥珀金 100
琥珀黄 100
琦君煞 100
琦玉县 100
琦玉老师 100
@ -836530,7 +836495,6 @@ columns:
秋叶依剑 100
秋叶凌冰 100
秋叶大叔 100
秋叶红 100
秋叶落 100
秋叶静美 100
秋叶黄 100
@ -859091,7 +859055,6 @@ columns:
粉粒物料运输车 100
粉粒状 100
粉粹机 100
粉紫色 100
粉红丝带 100
粉红佳人 100
粉红大布娃娃 100
@ -864494,7 +864457,6 @@ columns:
紧急采购 100
紧急问题 100
紧急防控 100
紧急降息 100
紧急隔离 100
紧急集结 100
紧急需求 100
@ -864991,7 +864953,6 @@ columns:
紫色渐变 100
紫色火焰 100
紫色玫瑰 100
紫色的 100
紫色的光 100
紫色的头发 100
紫色的小花 100
@ -868996,7 +868957,6 @@ columns:
纯黑咖啡 100
纯黑白 100
纯黑的噩梦 100
纯黑色 100
纱布包 100
纱布毛巾 100
纱布沾 100
@ -893180,7 +893140,6 @@ columns:
美国陆军参谋长 100
美国陆军航空队 100
美国陆军部长 100
美国降息 100
美国限制 100
美国院校 100
美国陶氏 100
@ -895112,8 +895071,6 @@ columns:
美联储议息 100
美联储议息会议 100
美联储货币政策 100
美联储降息 100
美联储降息预期 100
美联储高官 100
美联储鸽派 100
美联军 100
@ -927446,7 +927403,6 @@ columns:
芥末花生 100
芥末酱 100
芥末酱油 100
芥末黄 100
芥花油 100
芥菜丝 100
芥菜疙瘩 100
@ -934175,7 +934131,6 @@ columns:
荧光蛋白 100
荧光跑 100
荧光颜料 100
荧光黄 100
荧光黄色 100
荧屏中 100
荧屏前 100
@ -939526,7 +939481,6 @@ columns:
葱白切段 100
葱白段 100
葱白部分 100
葱绿色 100
葱花儿 100
葱花和香菜 100
葱花少许 100
@ -941842,7 +941796,6 @@ columns:
薄荷牙膏 100
薄荷的味道 100
薄荷精油 100
薄荷绿 100
薄荷绿色 100
薄荷网 100
薄荷膏 100
@ -942142,7 +942095,6 @@ columns:
薰衣草的花语 100
薰衣草种植 100
薰衣草精油 100
薰衣草紫 100
薰衣草紫色 100
薰衣草纯露 100
薰衣草色 100
@ -942317,7 +942269,6 @@ columns:
藕丝步云履 100
藕塘村 100
藕粉色 100
藕荷色 100
藕饼小剧场 100
藕饼漫画 100
藕香榭 100
@ -978597,7 +978548,6 @@ columns:
豆沙粽 100
豆沙红 100
豆沙绿 100
豆沙色 100
豆沙色口红 100
豆沙色的口红 100
豆沙面包 100
@ -989321,7 +989271,6 @@ columns:
赤石特大桥 100
赤精子 100
赤红之瞳 100
赤红色 100
赤练仙子 100
赤羽根健治 100
赤老温 100
@ -998015,7 +997964,6 @@ columns:
跟随趋势 100
跟随镜头 100
跟随队友 100
跟随降息 100
跟项目 100
跟领导 100
跟领导汇报 100
@ -1020601,7 +1020549,6 @@ columns:
连续阴雨 100
连续阴雨天 100
连续阴雨天气 100
连续降息 100
连续降水 100
连续降雨 100
连续驾驶 100
@ -1052981,7 +1052928,6 @@ columns:
铁锈地带 100
铁锈带 100
铁锈战争 100
铁锈红 100
铁锈色 100
铁锤妹妹 100
铁锹把 100
@ -1070674,7 +1070620,6 @@ columns:
降准消息 100
降准资金 100
降准释放 100
降准降息 100
降准预期 100
降分优惠 100
降分补录 100
@ -1070738,17 +1070683,6 @@ columns:
降库存 100
降得住 100
降心火 100
降息一次 100
降息两次 100
降息信号 100
降息周期 100
降息幅度 100
降息概率 100
降息潮 100
降息空间 100
降息通道 100
降息降准 100
降息预期 100
降成本 100
降房价 100
降房租 100
@ -1078289,7 +1078223,6 @@ columns:
雪山片区 100
雪山环抱 100
雪山环绕 100
雪山白 100
雪山群 100
雪山脚下 100
雪山草原 100
@ -1079246,7 +1079179,6 @@ columns:
雷欧力 100
雷欧奥特曼 100
雷欧娜 100
雷死人 100
雷死人不偿命 100
雷江声 100
雷池一步 100
@ -1083958,7 +1083890,6 @@ columns:
静谧美好 100
静谧而美好 100
静谧舒适 100
静谧蓝 100
静贵妃 100
静距离 100
静载荷 100

View File

@ -14,7 +14,7 @@
# 转化应当大写的单词
---
name: en
version: "2023-06-16"
version: "2023-06-29"
sort: by_weight
...
# +_+
@ -18647,7 +18647,7 @@ tell tell
teller teller
telling telling
tells tells
telnet telnet
Telnet Telnet
Telstra Telstra
# tem tem
temp temp

View File

@ -7,7 +7,7 @@
#
---
name: en_ext
version: "2023-06-27"
version: "2023-06-29"
sort: by_weight
...
# 一些杂项
@ -479,8 +479,6 @@ Notion Notion
Touch Bar TouchBar
DOM DOM
D.VA D.VA
Logo Logo
Telnet Telnet
IPv4 IPv4
IPv6 IPv6
Rick and Morty RickandMorty
@ -597,13 +595,11 @@ V2EX V2EX
VSCode VSCode
Vue Vue
Vue.js Vue.js
Web Web
WebStorm WebStorm
Xcode Xcode
emoji emoji
exe exe
gakki gakki
hey hey
iMazing iMazing
jQuery jQuery
JPG JPG
@ -865,7 +861,6 @@ SSL SSL
StackSocial StackSocial
Sublime Text SublimeText
TechWeb TechWeb
Telegram Telegram
Terminal Terminal
TestFlight TestFlight
Texshop Texshop
@ -875,7 +870,6 @@ TextWrangler TextWrangler
The Unarchiver TheUnarchiver
Thunderbird Thunderbird
Time Capsule TimeCapsule
Timing Timing
TinkerTool TinkerTool
Touch ID TouchID
Trello Trello
@ -939,7 +933,6 @@ Bitcoin Bitcoin
template template
IMDb IMDb
gank gank
buff buff
debuff debuff
MagSafe MagSafe
Magic UI MagicUI
@ -963,7 +956,6 @@ GMT GMT
Greenwich Mean Time GMT
Greenwich Mean Time GreenwichMeanTime
GoDaddy GoDaddy
Portal Portal
Eason Eason
alchemy alchemy
SQLAlchemy SQLAlchemy
@ -993,7 +985,7 @@ imgur imgur
Stack Overflow StackOverflow
PyWebIO PyWebIO
Launchpad Launchpad
Squoosh Squoosh
squoosh squoosh
cosplay cosplay
Gravatar Gravatar
copilot copilot
@ -1139,10 +1131,7 @@ Objective-C Objective-C
Mac mini Macmini
Garena Garena
WonderCV WonderCV
Spark Spark
WebKit WebKit
Blink Blink
Opera Opera
Igalia Igalia
WebCore WebCore
GNU GNU
@ -2072,7 +2061,7 @@ troublemaker troublemaker
troublemaking troublemaking
espanso espanso
okey okey
okey dokey okeydokey
okey-dokey okey-dokey
CAPTCHA CAPTCHA
Coinbase Coinbase
Kraken Kraken

View File

@ -754,6 +754,7 @@ OK OK 👌 🙆‍♂️ 🙆‍♀️ 🆗
厉害 厉害 👍
赞 赞 👍
点赞 点赞 👍
绝了 绝了 👍
大拇指向下 大拇指向下 👎
大拇指朝下 大拇指朝下 👎
拇指朝下 拇指朝下 👎

View File

@ -1,7 +1,7 @@
# Emoji 映射表
# 根据此文件生成 emoji.txt
#
# version: "2023-06-27"
# version: "2023-06-29"
#
# 中文映射由 Dvel 纯手工打造 https://github.com/iDvel/rime-ice
#
@ -241,7 +241,7 @@ S$ 新加坡元 新加坡币
☝️ 食指 一个 第一
🫵 食指指向观察者 指向观察者的食指 你自己 就是你 指着 指着你 指你 指我 指人
# hand-fingers-closed
👍 拇指 大拇指 大拇指向上 拇指向上 大拇指朝上 拇指朝上 好 强 棒 棒啊 真棒 好棒 很棒 特棒 非常棒 棒棒 棒棒的 棒棒哒 太棒 太棒了 太棒啦 干得好 很好 不错 表扬 牛逼 厉害 赞 点赞
👍 拇指 大拇指 大拇指向上 拇指向上 大拇指朝上 拇指朝上 好 强 棒 棒啊 真棒 好棒 很棒 特棒 非常棒 棒棒 棒棒的 棒棒哒 太棒 太棒了 太棒啦 干得好 很好 不错 表扬 牛逼 厉害 赞 点赞 绝了
👎 拇指 大拇指 大拇指向下 拇指向上 大拇指朝下 拇指朝下 不好 不强 不棒 垃圾 太差 太差了 太差啦 差劲
✊ 举起拳头 举起的拳头 握拳
👊 握紧的拳头 拳头 出拳 打击 重拳出击 打你 揍你 干你

View File

@ -22,9 +22,13 @@ func main() {
rime.CnEn()
fmt.Println("--------------------------------------------------")
// 为没注音的词汇半自动注音
rime.Pinyin(rime.ExtPath)
fmt.Println("--------------------------------------------------")
// 为 ext、tencent 没权重的词条加上权重,有权重的改为下面设置的权重
rime.AddWeight(rime.ExtPath, rime.DefaultWeight)
rime.AddWeight(rime.TencentPath, rime.DefaultWeight)
rime.AddWeight(rime.ExtPath, 100)
rime.AddWeight(rime.TencentPath, 100)
fmt.Println("--------------------------------------------------")
// 检查

View File

@ -9,6 +9,7 @@ import (
"strconv"
"strings"
"time"
"unicode"
"unicode/utf8"
"github.com/yanyiwu/gojieba"
@ -215,36 +216,40 @@ var onlyOne = map[string]string{
}
func init() {
// 从 base 准备结巴的词典和词组拼音映射
baseFile, err := os.Open(BasePath)
if err != nil {
log.Fatalln(err)
}
defer baseFile.Close()
sc := bufio.NewScanner(baseFile)
isMark := false
for sc.Scan() {
line := sc.Text()
if !isMark {
if strings.HasPrefix(line, mark) {
isMark = true
}
continue
}
if strings.HasPrefix(line, "#") || line == "" {
continue
}
parts := strings.Split(line, "\t")
if len(parts) != 3 {
log.Fatalln("len(parts) != 3", line)
}
text, code := parts[0], parts[1]
weight, err := strconv.Atoi(parts[2])
// 从 base、ext 准备结巴的词典和词组拼音映射
for _, dictPath := range []string{BasePath, ExtPath} {
file, err := os.Open(dictPath)
if err != nil {
log.Fatalln(err, line)
log.Fatalln(err)
}
jieba.AddWordEx(text, weight, "")
wordPinyin[text] = append(wordPinyin[text], code)
sc := bufio.NewScanner(file)
isMark := false
for sc.Scan() {
line := sc.Text()
if !isMark {
if strings.HasPrefix(line, mark) {
isMark = true
}
continue
}
if strings.HasPrefix(line, "#") || line == "" {
continue
}
parts := strings.Split(line, "\t")
if len(parts) < 2 || !isAllLower(parts[1]) {
continue
}
text, code := parts[0], parts[1]
weight, err := strconv.Atoi(parts[2])
if err != nil {
log.Fatalln(err, line)
}
jieba.AddWordEx(text, weight, "")
wordPinyin[text] = append(wordPinyin[text], code)
}
file.Close()
}
// 拷贝 hanPinyin 到 hanziPinyin再从 onlyOne 替换掉映射中的注音
@ -287,16 +292,21 @@ func Pinyin(dictPath string) {
}
parts := strings.Split(line, "\t")
if len(parts) <= 1 {
fmt.Println("parts <= 1:", line)
}
text := parts[0]
// parts[1] 不是权重或已经注音(包含空格),不再注音
// if _, err := strconv.Atoi(parts[1]); err != nil || strings.Contains(parts[1], " ") {
// continue
// }
// 注音
code := generatePinyin(text)
var code string
// parts[1] 可能是:空、已经注音完成、注音到一半(含有未能自动注音的多音字汉字)
// 注音完成的,不再注音,其余的进行注音
if len(parts) == 1 { // 只有汉字
code = generatePinyin(text)
} else if len(parts) == 2 || len(parts) == 3 {
if isAllLower(parts[1]) { // 全小写,不包含汉字,代表已经注音完成
code = parts[1]
} else { // 注音到一半(含有汉字),重新注音
code = generatePinyin(text)
}
} else {
log.Fatalln("分割错误:", line)
}
lines[i] = text + "\t" + code
}
@ -358,3 +368,16 @@ func GeneratePinyinTest(s string) {
r := generatePinyin(s)
fmt.Printf("%s %q\n", words, r)
}
// 判断 code 是否全小写,不判断空格
func isAllLower(s string) bool {
for _, ch := range s {
if ch == ' ' {
continue
}
if !unicode.IsLower(ch) {
return false
}
}
return true
}

View File

@ -23,7 +23,6 @@ type lemma struct {
var (
mark = "# +_+" // 词库中的标记符号,表示从这行开始进行检查或排序
DefaultWeight = 100 // ext、tencent 词库中默认的权重
RimeDir = getRimeDir() // Rime 配置目录
EmojiMapPath = filepath.Join(RimeDir, "others/emoji-map.txt")

View File

@ -1,3 +1,5 @@
# 在 # -_- 上面是错词;下面是包含错词但不是错词。
的一逼
觉对
奇情片
不还意思

View File

@ -237,3 +237,4 @@
还要
一圈
长图
降息

View File

@ -15,6 +15,7 @@ import_tables:
# 建议把扩展词库放到下面,有重复词条时,最上面的权重生效
# - cn_dicts/mydict
...
# 按需启用:
# 大写字母