“寞组词”,如果你没什么搞NLP的朋友圈,你可能不认识这个名词,但这个名词其实是一个关于机器学习的很有意思的话题。 首先,我们解释一下“寞组词”究竟能玩出什么花样来。“寞组”其实就是一个含有很多不重复词语的句子,我们姑且把这些句子叫做“组”吧。那么“寞组词”不就是指含有很多不重复词语的词汇表吗?那我们为什么要玩这个呢?众所周知,对于机器学习领域而言,数据量是关键,没有数据,就无法训练出一套良好的模型。
而大多数传统的机器学习模型在面对文本分类之类的任务时,数据是很难收集的。虽然自然语言处理(NLP)技术已经发展得非常成熟,但是对于一些小领域或者“特殊领域”而言,单靠语料库是很难覆盖到的。而对于这种特殊情况,处理“寞组词”不能说是最好的方法,但绝对算是一个很有意思的方式。
如果想要制作出“寞组词”,核心就是要尽量避免出现重复的内容,从而得到尽量密集的语义点,值得注意的是,寞组的信息密度是非常高的,而对于机器学习,密度高的信息意味着更好的训练效果。虽然现在并没有太多的人在专门做“寞组词”,但是这种方式的机会点非常之高,想象一下一些小众领域,做出一套“寞组数据库”,或许就能在机器学习领域一战成名罢!