v1.1->v1.2 数据和功能扩充
v1.2.0更新概述:
1. 新增按字形结构(上下、左右、包围等)和音韵属性(切韵)的筛选功能。目前四类筛选是单选,最多选一个起效。切韵暂分声母、韵母、声调,不必全部作为筛选条件。
2. 极大扩充了姓名数据集(原数据共新增约12万条),在朝代(汉朝到明朝->秦朝到清朝)、女性姓名(新增五千余条)、人物来源(正史->更多典籍和墓志)上较前版更为丰富。
3. 优化了算法和执行逻辑。
4. 优化了UI,新增功能包括但不限于可用姓名的实时数目更新、朝代选择、简繁转换、复制导出。
以下照搬v1.2版网页“更新内容”一栏的内容(请在v1.2版的网页上浏览排版美观的版本):
筛选方式
增加字形结构和切韵(暂限声母、韵母、声调)上的限制。目前限定具体字、部件、结构、切韵这四种限制条件同时最多只能选择一个。选择切韵时声母、韵母、声调这三种属性的约束是“与/AND/交集/∩”的关系,不需要全部选上(全部选上后的可选字也很少)。另外现在调整限制时,会同步更新显示姓名各部分可用字的数量。
姓名数据
扩充了数据集和朝代。主要姓名数据集改用知识图谱提供的人物数据。同时参考知识图谱,对部分朝代进行了细分。
此版本和上一版本的姓氏、人名一(包括单名和双名中的第一部分)、人名二各部分可以通过熵值量化对比。简而言之,熵值越高,表明从数据中抽取姓、名的不确定性越大,生成的结果多样性越高。从数值上看,各部分的熵都增加了,是符合扩充数据集的预期的。
就是很简单地套公式计算了一下。
v1.2(现版本) | v1.1(上版本) | ||
---|---|---|---|
名字一(包括单名) | 10.12 | > | 10.03 |
名字一(单名) | 10.76 | > | 10.29 |
名字二 | 9.92 | > | 9.26 |
姓氏 | 7.21 | > | 7.08 |
另附现版本各时期的姓名熵值变化。由于数据规模不同,差别很大。
此版本的缺点是由于下文所述的对女性姓名做了非常朴素的过采样,而导致部分偏向于女性用字的字频率比直觉要高,占据高频字的前列。但其实这类高频字的计数远不如姓氏,,因此与低频字的差距也远不如姓氏,过采样后的分布还是没有太离谱的。熵值中亦可以看出,姓氏的概率分布更集中在高频姓氏上。附姓氏
, 名字一(单名)
、名字一(非单名)
, 名字二
的各朝代高频字的凹凸线图(为控制网页的大小,尺寸较大的原图请见开发日志,此处仅放送姓氏的缩略图)。除了姓氏看起来比较合理以外,其它折线图都不足以代表真实的古代人名高频字,仅供说明本网页所用姓名数据的一种变化趋势。
扩充了女性姓名(进行中)。当前的女性姓名数据来源详见参考资料。由于部分数据的朝代暂未细分(主要是唐朝),归入细分姓名时暂时采取了复制若干份的做法;由于各朝代原姓名数目(所有性别)和收集到的女性姓名数目相差过大,目前暂时依旧采用对女性姓名重复计数的方法来稍微抵消差距,重复计数的次数不超过10次。大多数朝代因为比例相差远超过十倍,重复计数的影响不大,但后期仍需要用更好的方法替换。另外字、号、幼名等之类看起来像名字的也一并列入了。
原数据集(维基百科,wiki)、现主要数据集(知识图谱,cnkgraph)和单独收集的女性姓名数目比较如下(粗略计数,不准确,仅能体现大概,请悬停或点按放大查看):
知识图谱的姓名数目与女性名字数目的比例(注:唐朝看上去差别不大是因为偷懒给唐朝的四个时期各复制了一份,实际比例需要大概乘以四,但是知识图谱中标注的女名绝大多数来源于明清两代,唐朝的计数不是很多,而其他朝代比例相差过于悬殊,故提取成网页所用数据之前的完整原始姓名数据中男女姓名比差不多大概是柱状图中的数据(远大于十的部分)除以十。另外为方便与旧有数据比较,合并了部分时期朝代):
采样方式
优化了姓名各部分遵守现实分布和均匀采集的规则。
UI
优化了界面,增加了若干交互功能,如可用姓、名的实时数目更新,快速选择朝代等,不一一列举。实时更新可用规模里没有考虑单双名的限制,虽然但是懒得加了就这么发吧!
Files
Get 古代人名生成器: Ancient Chinese Name Generator
古代人名生成器: Ancient Chinese Name Generator
秦朝到清朝 Historically Chinese name generator, from Qin to Qing dynasty
Status | In development |
Category | Tool |
Author | Raycosine |
Tags | Generator, name-generator, Procedural Generation |
Languages | Chinese, Chinese (Simplified), Chinese (Traditional) |
Accessibility | Color-blind friendly, High-contrast |
More posts
- v1.2->v1.3 增补数据、性别偏度估计、优化显示、问题修正3 days ago
- v1.3 附:性别偏度的说明和计算3 days ago
- v1.2 附:此版本数据中的各朝代人名高频字词演变53 days ago
- v1->v1.1 一些微小的修订(单双名比例,按钮加载,姓名数据...64 days ago
- v1->v1.1 收录了更多朝代65 days ago
Comments
Log in with itch.io to leave a comment.
修正“大昌勃价”姓名分割方式为“大/昌勃价”(唐时渤海人。原在特殊情况判断中遗漏,误归为“大昌/勃价”)
暂删去以下人名(原划分为XXX/XX):
宜勒库莫提
若库辰树兰
原因:
《全后魏文》注:《魏书》未见,《太武纪》真君八年有征东将军武昌王提,疑即其人。
宜勒库莫提疑为拓跋提,一说“宜勒”乃“直勤”之讹(《宋书校勘记·卷九十五·列传第五十五·三二》),观《移书梁益二州》所涉人物此说较合理。一说库莫提为鲜卑名,不知典出何处。又有“《穆崇传》有宗人丑善子莫提”,不知如何分剖。
《官氏志》无宜勒库氏,亦无若库辰氏。
若库辰树兰未见于别处。
如此后发现有鲜卑人名研究述及,再放回。