WordStat 2022 版有哪些新功能?
我们很高兴推出 WordStat 2022。从 WordStat 9 到新版本 WordStat 2022(以及新版本号方案)意味着更快地引入每年发布一次的新功能,而不是每 2 或 3 年发布一次,并且很可能甚至每年不止一次。
新的 WordStat 2022 实现了几个重要的功能,虽然没有以前的主要版本那么多,但我们认为它们具有重要意义,特别是对于开发分类模型、分类法或词典。
1. 高度优化的主题建模与因素分析
在 WordStat 2022 中,我们实施了一个新的多线程因素分析例程,比以前的版本快 65 倍。这意味着现在可以在不到一分钟的时间内解决需要一个小时计算的大型问题。我们还能够将因素分析容量增加到 10,000 个单词(之前版本为 3,000 个)。
我们自己的研究工作表明,与依赖 LDA 和神经网络技术的主题建模技术相比,使用因子分析的主题建模产生的主题解决方案更加连贯和多样化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它还具有稳定性的额外好处,每次都会产生相同的结果。然而,它的主要不便一直是它的速度和容量。这使我们在 WordStat 8 中实现了一个使用非负矩阵分解(或 NMF)的特殊主题提取例程。这种技术可以更快地产生结果,这些结果与使用因子分析获得的结果非常相似。然而,它的概率实现会导致每次运行的结果略有不同,这让一些研究人员感到有些不安。重要的是要注意,计算机科学中几乎所有其他流行的主题建模技术产生的主题解决方案甚至比我们自定义的 NMF 实现更不稳定。那些寻求zui佳和稳定的主题解决方案的人可能会喜欢新的因素分析主题建模例程的速度和容量大大提高。
2.改进了频率页面上的建议
WordStat 早期版本中的“建议”面板显示同义词库可用的语言的同义词、反义词和相关词。它还提供了以相同首字母开头的单词,使人们能够识别一些拼写错误以及相关的单词。一个新的关联词部分现在从文本语料库中检索与频率表中所选词在语义、句法和统计上相关的其他词。这个新功能应该适用于任何语言。默认情况下,条目将按相关性降序排列。同义词、反义词和相关词也会按照相关性降序排列,便于识别合适的建议。人们仍然能够按字母顺序或频率降序对这些条目进行排序。此外,一个新的频率过滤选项可以让人们过滤掉低频建议,让人们专注于更频繁的建议。
由于这种提取相关词和排序建议的新方法与语言无关,因此对于分析没有词库的语言的人来说尤其有用。然而,我们发现,即使有这样的语言资源,基于单词上下文使用的额外建议,以及根据相关性对现有同义词和相关单词进行排序,也应该极大地促进适当项目的识别。
3. 短语提取例程的新建议选项卡。
重叠面板已替换为建议面板,除了重叠短语外,还显示与短语频率表中所选行在语义、句法或统计上相关的短语。此功能也与语言无关。
4. 命名实体识别的改进。
命名实体识别页面中添加了一个新的相关面板。选择单个命名实体将带来相关的命名实体,以及属于同一类(人、地点、组织等)的命名实体。选择一个特定类别的多个示例(例如,多个城市)也将检索属于该类别的更多项目。上下文菜单还允许将任何项目移动到分类词典或排除列表中。还可以对选定的建议执行上下文中的关键字搜索。
5. 上下文关键词表中上下文词的突出显示。
在评估分类词典中的词或候选词时,通常需要查看在目标词或短语出现的上下文中是否存在其他关键字。一种新的突出显示功能允许人们指定要在单词的周围上下文中查找的单词和短语列表。当从主题建模或树状图中调用 KWIC 列表时,或者在评估包含多个条目的内容类别中的项目时,会自动填充此列表。
6.根据频率或距原点的距离过滤对应图中的项目。
超过几百个项目的对应图可能会在图的中心(原点)创建一大堆重叠的项目。添加了一个新的滑块控件以隐藏不太频繁或接近此原点的项目。除非有人想确定一个自变量的所有类的共同点,否则zui
有趣的项目是那些远离原点的项目,因为它们是不同类的特征。过滤掉这些项目可以让人们更容易地识别不同的项目。
7.改进关键字检索
关键字搜索的结果现在按相关性降序排列,同时考虑匹配项的频率和种类与检索到的文本段的长度的关系。新的频率列也可用于仅按频率排序。
8. 通过连接计算字符串变量
一种新的数据转换命令允许人们通过连接几个现有变量(数字、字符串、日期等)的值以及键入的文本来计算字符串变量。这样的过程也可用于用常量字符串值初始化字符串变量。
9.持久对比图设置
这些比较图表的图表类型和统计数据以及调色板现在链接到变量名称并存储在项目设置中。这些选项应该跨页面(频率、短语、主题建模、树状图等)和会话之间保持不变,从而减少不断重新调整这些选项的需要。
软件链接:
//www.uone-tech.cn/wordstat.html