语言学中art是什么?
在统计语言学、计算语言学等分支学科之中,‘Art’指代的是‘Algorithm’,即一种特定的方法论。 例如,对于文本分析来说,词性标注是一个必不可少的环节。那么,针对一个给定的待分析文本,做出正确的词性标注,这个‘Art’怎么搞呢?
一般说来有两种办法可以达成目的。一种是基于规则的语法规则,一种是以词典为基础的统计方式。基于规则的语法规则的做法是寻找句法规则去构建句子,然后再用句法规则去构建单词短语,最后得到词性标注结果。而以词典为基础的统计方式的词性标注则是把词语看成是在某个语料库中出现过的随机变量,然后利用统计工具得出概率分布,进而选取概率最大的值作为词性标签。这两种不同的方法就可以看做是两个算法(art)。
当然,可能还有一种方法我忘了╮( ̄▽ ̄)╭ 但是不管是哪种算法,能够实现词性标注的目标就是好的art! 然后我们引入另一个概念:art的性能(Perfomance)。这玩意儿跟计算机里面的性能是一个意思:指的是art实现目标的时候的准确度和效率。准确度一般采用准确率(Accuracy)和召回率(Recall)来衡量;对于一个给定集,如果art能够准确地标记出所有正例,并且不遗漏任何一个反例,则该art的准确率就很高且召回率也较高。不过这种perfect perfomance是很难实现的,因此实际上评估art往往使用其他指标,如F-measure或者N-gram的宏平均精确率/宏平均召回率等等。至于这些衡量指标的定义和计算方法详见各相关教程。
一个art是否好用,与它所用的数据是否有足够的样本规模,以及样本分布是否合适有关。对于基于机器学习的art而言尤其如此。当样本不足的情况下,学习的过程就会受到一定影响,从而导致最终的art表现不佳。这时可以通过增加样本来提高模型的精度,但是这样做会带来两个问题:一是计算量会随之增加,二是过拟合的问题也会变得更加严重。因此如何找到合适的样本规模以平衡这两个问题便是值得深思熟虑的地方。