手动标记的高昂成本使弱监督学习成为很多关注的焦点。
种子驱动是弱监督学习中的常见模型。
该模型要求用户提供少量的种子词,基于种子词为未标记的训练数据生成伪标签,并增加训练样本。
但是,由于存在多义词,同一种子词会出现在不同的类别中,这增加了生成正确的伪标签的难度;同时,单词w对语料库中的所有位置使用一个单词向量,这也会降低分类模型的准确性。
本文的主要贡献是:开发了一种基于词向量和种子词的可解决语料库中词多义问题的无监督方法。
设计一种排序机制,以消除种子词中的一些无效词;并将有效词扩展为种子词。
该模型的总体结构为:步骤1:使用聚类算法解决语料库中单词的歧义性问题。
对于每个单词w,假设w分别出现在语料库中的n个不同位置,并使用K-Means算法将其划分为K类,其中K可理解为单词w的K种不同解释。
使用以下公式计算K的值:其中向量表示第i个聚类中心。
的计算方法如下:其中s表示种子词,表示s在语料库中的第i个出现,对应的词向量为。
sim()表示余弦函数,而mid()表示中位数。
总之,用于解决单词的多义性问题的算法如下:使用上述算法,我们可以根据上下文将原始语料库转换为语料库:步骤2:为未标记的训练数据生成伪标记命令表示伪-文件d的标签;代表类别的种子词集;表示文档d中单词w的单词频率。
步骤3:使用基于上下文的语料库进行文档分类。
本文使用分层注意力网络(HAN)进行文本分类。
步骤4:设计排序功能并更新种子词。
我们设计了一个评分功能,以指示单词w仅经常出现在类别文档中。
分数越高,单词w对类别的重要性就越高。
我们可以选择得分最高的前几个单词作为新的种子单词。
您还可以消除一些不重要的种子词。
其中:指示类别中的文档数。
表示类别为w并包含单词w的文档数。
指示类别文档中单词w的出现频率。
n是语料库D中的文档总数,它表示语料库D中包含单词w的文档总数。
因此,我们完整的模型称为ConWea,而ConWea-NoCon是ConWea的变体,它实际上缺少第一步。
ConWea-NoExpan是ConWea的一种变体,它实际上缺少第四步。
ConWea-WSD用Lesk算法取代了ConWea的第一步。