语言指纹

对比分析研究人员利用一款名为“剽窃”的软件对《爱德华三世》剧本和同时期莎士比亚其他作品进行对比研究。分析后发现,这部剧本与1596年前的莎士比亚作品出现相同短语200处,当发现200处短语与莎士比亚剧作相符时,几乎可以肯定这部剧本也出自莎士比亚之手。但这些匹配情况只出现在4场,即40%的剧本中。
[1][2]研究人员经过进一步研究发现,剩余部分剧本的写作风格与当时另一位剧作家托马斯·基德相同,因为其中包含约200处与基德作品中相同的短语。因此研究人员认为,这表明该剧有60%是基德所作。
近150年来,《爱德华三世》的“身世”问题一直饱受争议。学术界直到1997年才认定莎士比亚参与其创作,并将它收入《莎士比亚全集》。经过对比试验,更证实了以上的猜测。
鉴别公式瑞典研究人员设计出一种分析作家“语言指纹”的公式,通过分析作品中较少出现的单词数与作品长度间的关系来研究作家的写作习惯。这项研究成果发表在2009年12月10日出版的《新物理学杂志》。“母本”理论研究人员说,一位作家的某一部作品其实只是从其“母本”中抽取的一部分。
所谓“母本”,可以大致理解为某位作家的语言习惯和词汇量构成的“框架”。作家的每一部作品都从这一“框架”中来。
美国哈佛大学语言学家乔治·齐普夫于1935年发现一部作品中某一单词出现的频率与这一频率高低次序之间的关系。他指出,最高频单词比第二高频单词出现频率高一倍,比第三高频单词出现频率高两倍,以此类推。
齐普夫揭示的这一规律为后来许多语言学中的定量研究奠定了基础。不少学者把它当作英语甚至所有语言中普遍适用的原则。有所突破瑞典于默奥大学研究人员在齐普夫的这一理论基础上进一步研究指出,该理论并非放之四海皆准。一部作品中单词出现的频率高低与作家本人语言水平有关,不能一概而论。
研究人员经过分析托马斯·哈代、赫尔曼·梅尔维尔和戴·赫·劳伦斯三位作家的全部作品后发现,随着作品篇幅加长,文中出现生僻单词的几率呈现下降趋势。
他们还发现,这三位作家的“生僻单词出现几率下降曲线”各不相同。更重要的是,这种下降趋势在每位作家的全部作品中都有所体现。
研究人员认为,今后在研究作者不详的作品时,可以用这种方法将其与已知的前人作品相比较,对比这种“语言指纹”的相似性。后续研究“母本”这一概念不仅包含某位作者掌握的词汇,还包含他自创的新词汇。不论是写《战争与和平》这样的名著,还是平时随便写写电子邮件,人们都有可能创造出新词汇。
研究小组将继续对更多使用英语和其他语言的作家展开研究。随着他们的“语言指纹”库不断扩充,研究人员期望未来能够利用这种方法鉴定出作者不详的作品“身世”之谜。