新浪新闻客户端

从词频分析的角度看吴氏石头记和80回《石头记》的关系

从词频分析的角度看吴氏石头记和80回《石头记》的关系
2019年11月16日 05:50 新浪网 作者 潇湘妃子恨玉

  一,《红楼梦》及红学两大派别

  《红楼梦》原名《石头记》,是中国古典文学的巅峰之作。一般认为,《红楼梦》的作者是清代作家“曹雪芹”。该书历史上流传下来很多版本,其中学界一般认为120回通行本的后40回不是“曹雪芹”的原著,而是后人的续作,但也有不同看法。一部没有最终结局的《红楼梦》引起了学界几百年的争论:《红楼梦》这部书到底创作的宗旨是什么?要表达什么思想?书中人物的结局分别是什么?由此还发展出一门红学。主要观点有两派:1,考证派。运用杜威实证主义方法,注重考证曹雪芹家事、《红楼梦》版本和成书过程。认为《红楼梦》是一部自传体小说,反映的是江宁织造曹家的兴衰史。这个学派的主要代表人物有胡适、周汝昌等。2,索隐派。又称政治索隐派。透过书中的谐音、拆字、藏头、谜语、谶纬等线索,用历史上或传闻中的人和事去考索《红楼梦》,考索出“所隐之事,所隐之人”。例如蔡元培先生的“吊明之亡,揭清之失”的观点。应该说上个世纪考证派是一个主流派别,索隐派被边缘化。

  二,吴氏石头记及其来历

  2005年刘心武先生在百家讲坛揭秘《红楼梦》,认为《红楼梦》是暗喻康雍乾三朝的宫廷政治斗争以及曹家在这场斗争中的家族兴亡史。2008年有一个网名叫何莉莉(又名赵文夕)的网友在网上公开了一个抄录本,就是后来被称作癸酉本或者吴氏石头记的第81回至108回,写的是原80回《石头记》后来的故事,有完整的回目和回前诗,情节出乎所有人的预料,但却和前80回的批语透漏出的人物故事结局高度吻合,也印证了蔡元培先生的排满之说,即明写青年男女的爱情故事及家族的兴衰,实际上是暗喻明清交际改朝换代的历史。为什么把此版本称为癸酉本或吴氏石头记呢,那是因为在此版本的最后一回结尾出现了这么一段批语:“本书至此告终,癸酉腊月全书誊清。梅村夙愿得偿,吾所受之托亦完。若有不妥,俟再增删之。虽不甚好,亦是尽心,故无憾矣。”从而可以得知此书的落款时间为癸酉年,故名"癸酉本";而批语中的梅村是指吴梅村(明末清初著名诗人,文学家),即本书的原作者,故又称“吴氏石头记”。此版本在社会上引起了轩然大波,支持者认为这才是《红楼梦》的真实结局,和前80回的情节遥相呼应堪称完美。但很快就有人指出该版本中很多诗词质量低劣,且文风和前80回迥然不同还夹杂着大量现代词语。何莉莉则解释目前发布的文字是其姐姐从原本上过录下来的,其姐姐文化水平不高,在抄写过程中对原文进行了相当程度的删改。后又有人指责上述关键批语是伪造等等,一时众说纷纭。目前主流红学界对此版本大都保持沉默,也有的持否定态度。

  从词频分析的角度看吴氏石头记和80回《石头记》的关系

  三,本研究的目的和使用的方法

  面对这个有种种缺陷的吴氏石头记,我们想分析它的真伪肯定有相当的难度。我们采用的方法是考察吴氏石头记后28回的文字和原《石头记》前80回的文字相关性,即使用人工智能的词频统计软件对前后两部分高频词进行统计,比较两部分高频词使用状况的异同。另外我们也考察了一些特色词在两个版本中的出现情况。最后再综合分析给出一个客观的结论。

  四,版本的选取

  《红楼梦》的版本众多,版本之间的文字都稍有差异,我们在网上找了一个不带批语的120回通行本(人民文学出版社 1987.4),我们截取了前80回的文本,作为底本。然后为了慎重起见我们又找了一个带批语的《石头记》版本,也一并作为分析的底本。吴氏石头记的选取,最新一版的吴氏石头记和原版本的文字变异较大,综合考虑我们还是选取了比较忠实于吴氏石头记最初原貌的一个早期电子版本作为底本(出版人:金俊俊,何玄鹤)。

  五,词频统计软件的选取

  我们在网上查询了多家在线词频统计系统,各家的统计原理不尽相同,结果也有一定的差异,最后选取了两家,一个是图悦在线词频统计,它除了能统计词频还可以统计权重;另外一个就是sco在线词频查询,它的分词方式和图悦有差别,它会把两个字的词和包含这两个字的三字词分开统计,但它的优点是除了统计词频,还能统计出现率。最后我们把图悦作为我们的主要统计工具,sco作为补充工具。

  六,词频统计结果及分析

  首先我们要明确的是三个版本的字数规模,吴氏石头记后28回大约在21.8万字左右,不带批语的通行本80回约62.55万字,带批语的80回有71.8万字左右,也就是说吴氏石头记的正文大约是前80回正文的三分之一左右,那么吴氏石头记词频如果为前80回正文三分之一左右属高度相关,但可能受情节变化等因素的影响,一些词频可能有比较大的变化,我们为慎重起见,把吴氏石头记的词频高于前80回本词频六分之一规定为正常,低于六分之一为异常。

  首先,脂批本有很多批语的专用词,如甲戌、庚辰这样的表达时间的词,这些词和不带批语版本进行比较是无意义的。另外表格里人名占了很大一部分,而且随着情节的变化,人名的频次和权重发生变化这是很正常的,所以我们把上述高频词分门别类进行比较,去掉无比较意义的批语专用词,把人名专用词和非人名词分开比较,以便观察各版本的分布特点。三个版本的人名和特指专人名词因为表格不能太长,只取6个分析如下:

  三本人名高频词统计表(部分)

  从词频分析的角度看吴氏石头记和80回《石头记》的关系

  我们看到和前80回相比,在上表格中吴氏石头记中一些人物名字的频次和权重排序发生了一些较大变化,这个主要是情节变化产生的影响,比如凤姐,贾母,王夫人等人在前80回具有很高的词频和权重,但在吴氏石头记中频次权重却下降得很明显,这个主要原因是在癸酉本中王熙凤、贾母、王夫人等都过早地死去,退出了舞台,导致相关数据下降,而贾政、妙玉、赵姨娘、贾环、金桂等人随着情节的发展他们的频次权重有明显增加。吴氏石头记的绝大多数人物基本上和前80回保持相关性,没有出现新的权重人物。只是随着情节的发展,人物频次权重有所调整,尚在正常范围内,但是也发现了一个异常词:“圣上”,该词在前80回里只出现了1次,是在第15回“王凤姐弄权铁槛寺 秦鲸卿得趣馒头庵”里面,水溶又将腕上一串念珠卸了下来,递与宝玉道:“今日初会,伧促竟无敬贺之物,此系前日圣上亲赐鹡鸰香念珠一串,权为贺敬之礼。”而吴氏石头记里面“圣上”却出现了34次之多,而且多有对圣上指责之词,如第85回中下述文字:“原来元春因国事辛劳累成小恙,说国之东北有一岛国屡屡侵犯海疆,另有戎羌觊觎,黄巾赤眉一干流寇造衅,圣上惊慌无措,又无人肯出头迎敌,只得自告奋勇为圣上分忧,亲上战场鼓舞士气,因多日奔波劳苦,不觉病倒,此回千叮咛万嘱咐,赶紧把众公子、小姐的亲事办了,自己也十分关心宝玉成亲立业。” 东北一岛国,戎羌,黄巾赤眉等句很明显是影射明朝历史,分别指的是倭寇、 满清、 李自成等起义首领。86回:“岂料近几年大旱不雨,蝗灾肆虐。因之东北距之海路三千里有一蛮夷岛国,人称‘玉户岛’某屡屡滋事侵犯海疆,意图不良。坎方有戎羌入侵,坤方有流寇作反。更有坎方痘疹等瘴疫流传,平民死亡愈万。贾赦被派往坤方听令,贾政等皆被圣上召集前往海疆监督防御工事。平安州亦有流贼造反,节度使命贾琏前去应奉公事,一连数月未归。”这和上面一样都写得很露骨。87回:黛玉道:“又打败了吗?”宝玉泣道:“可不是,圣上打不过人家就派人说情,说只要与海寇联了姻,就是亲戚了,仗保准打不起来了。”平儿道:“圣上竟出如此下策,要南安郡王的女儿和亲。南安郡王比咱有势力,怕自己女儿嫁到那里吃苦,就要到咱家找人顶替。”还有下面:黛玉道:“圣上也太没个筹算了,叫人欺负到家门口,尚要和颜悦色讨好他们和亲,竟是昏暧不明了!”探春忙握住他的口道:“快别说了,这话不好听,仔细外头听见。”黛玉低了头不言语了。105回:蠢物道:“奶奶此次回来,可曾知道贾家已家败人亡了!”凤姐听了如被雷击一般,哭道:“到底又为什么?你别吓我啊。”蠢物道:“我见你回来,犹蒙在鼓里,替你有所不值。奶奶可知,如今的天下早不是汉人的天下,都是戎羌的天下了。圣上被…强盗攻破京城,官员全被斩首,新帝早已登基,你们王家也都死在贼寇之手了。”凤姐听了如被人摘去心肺一般痛哭起来。

  这些再明显不过的犯忌语言,也使我们理解为什么吴氏石头记不能在社会上流传起来,因为在当时严酷的文字狱背景下,这无疑是一部干涉时政的反书。这似乎和第一回作者所述宗旨有点违背,作者肯定是有话要说,即把一段真事隐藏于假语村言中,但如此直白地表达和前80回的风格似大不相同。在第一回中有关本书宗旨有以下叙述:

  【此书只是着意于闺中,故叙闺中之事切,略涉于外事者则简,不得谓其不均也。】

  【此书不敢干涉朝廷,凡有不得不用朝政者只略用一笔带出,盖实不敢以写儿女之笔墨唐突朝廷之上也。又不得谓其不备。】

  【此书开卷第一回也,作者自云:“因曾历过一番梦幻之后,故将真事隐去,而撰此《石头记》一书也,故曰‘甄士隐梦幻识通灵’ ”】。

  以上种种显示作者似有要将某种不方便直接表达的情节、观点通过隐晦的方式表达出来,但该表达可能要写得非常隐晦,如吴氏石头记如此直接影射明末清初历史恐怕非是前80回作者的本意,尽管我们认为该情节和前80回吻合得非常好。

  下面我们重点对非人名的高频词进行分析。现只取其中6个,也可看出一斑:

  三本非人名高频词统计表(部分)

  从词频分析的角度看吴氏石头记和80回《石头记》的关系

  从上表中我们惊奇地发现,吴氏石头记和脂批80回的前四个高频词竟然完全一样且高度相关:笑道、姑娘、只见、众人这四个词,尤其“笑道”这个词,过去就有网上文章提到《红楼梦》里的人爱笑,指小说里大量使用“笑道”这个词,在前80回非人名词频里排名第一,令人震惊的是吴氏石头记中“笑道”也高居非人名类词频的榜首。同样,我们可以查一下程高本的后40回续书“笑道”这个词的频率位次只排在第11位,明显低于前80回和吴氏石头记.当然在吴氏石头记中也出现了一些独有的高频词,如众贼,强盗,贼寇等等,这是因为在吴氏石头记中情节发生了急剧变化,天下大乱,盗贼蜂起,作为明朝政权象征的贾府也被内忧外患所困扰。除了这些词外,前后两版本的高频词大多还是具备一定相关性的。那能否就简单地认为两版本就是一个作者?恐怕还没有那么简单。我们只能说不排除吴氏石头记作者和前80回《石头记》是同一作者的可能性。因为很快我们又发现了新的问题,即图悦并没有统计诸如“什么”、“怎么”、“这样”、“东西”等这些更基本的常用词,我们觉得这些词虽然是一些古今通用的高频常用词,但如果把他们在两本当中的频次比较一下也许会发现新的问题。我们在网上发现了一个叫糖果云的软件,它曾统计了《红楼梦》中一百个高频词,然后我们用文档的查找功能分别统计了上述100个词在《石头记》前80回,《红楼梦》通行本前80回,癸酉本28回中的相关词频。现只取7个:

  从词频分析的角度看吴氏石头记和80回《石头记》的关系

  从上面表格中我们确实发现了重大的问题,首先看“所以”这个在前80回中出现了292次的高频词,在吴氏石头记中竟然只出现了一次!很难相信在前80回六十多万字中使用了二百多次的“所以”在后28回二十多万字中居然只用了一次。如果不是藏书者抄录的原因,那么很难相信这两个版本是一人所作,还有“凤姐儿”这个词,在前80回中“凤姐”和带儿化音的“凤姐儿”都有使用,但在后28回中只有“凤姐”没有“凤姐儿”。其他吴氏石头记中频次较少和前80回不成比例的词和习惯用法还有“今日”、“罢了”、“说着”、“一面”、“这一”等等。这些前80回高频词在吴氏石头记中的频次急剧下降,我们不得不指出吴氏石头记的作者和80回《石头记》的作者用词习惯不同,可以排除二者是完全相同的一个作者。

  特色词的比较

  我们知道《红楼梦》的语言文字非常生动形象,其中的人物使用了大量生活中的口语,或者带有那个时代特色的词语。下面我们找了一些特色词分析前后两个版本中使用异同。

  从词频分析的角度看吴氏石头记和80回《石头记》的关系

  先看“这会子”这个词在前80回中使用频次为208次,而吴氏石头记中只有8次,该词有的说是北京方言,也有说是山西晋南方言。在中国古代小说中如此高频地使用该词还只有《红楼梦》如此。吴氏石头记的“这会子”和前80回比起来,频次明显过少。我们也查了一下其他明清小说,“这会子”这个词难说是高频词,吴氏石头记中“这会子”的使用频率和这些小说中的频率相对接近,所以它在前80回中如此高频使用值得我们深思,也许它是解决《红楼梦》作者问题的一把钥匙。相同情况的词还有“素日”、“倘或”、“打发”、“一早”、“前儿”“横竖”等等,这些词吴氏石头记中的出现率明显低于前80回,占比只有不到十分之一,特别要提到的是前80回中“可巧”这个出现91次的词在吴氏石头记中竟没出现。吴氏石头记中多用打量,而前80回既用“打量”也用“打谅”。前80回多用“伏侍”,偶尔用“服侍”, 吴氏石头记只有“服侍”,前80回中用了清朝的礼仪“打千儿”4次,而癸酉本中却用了4个“道个万福”这种汉族礼节。前80回使用儿化音比较多,如“猴儿崽子”等,吴氏石头记儿化音相应较少,用的是“猴崽子”等。当然,也有“小厮”、“里间”、“忖”、“劳什子”、“真真”“唬”等前后两本频次比较正常的特征词,另外有文章提到《红楼梦》前80回多用“帕”,而程高本的后40回多用“绢”,在吴氏石头记中我们看到也是多用帕,这一点和前80回比较符合。综上所述我们认为从特色词这个角度看,吴氏石头记和前80回有一定的关系,但也有相当大的用词区别。

  结论

  如果我们假设《红楼梦》的正文是由一个作家“曹雪芹”独立完成,而一个作家的写作习惯在文本中应该是相对稳定的,那么“圣上”、“所以”、“可巧” 、“素日”、“这会子” “倘或”、“打发”、“一早儿”、“前儿” 这些高频词和特色词在吴氏石头记中急剧减少,只能说明吴氏石头记后28回和前80回不是一个作者。那么也许有人会提出会不会是抄录者的因素导致这种变化,但我们想不明白抄录者有何动机如此做。另外,从 “笑道”、“众人”、“姑娘”、“只见”、“一时” “真真”、“劳什子”、"帕"等高频词和特色词的应用上我们又觉得吴氏石头记和80回《石头记》之间有一定的关系。那么是什么导致了如此完全相反的结论呢?我们做如下分析,首先《红楼梦》的成书过程可能极为复杂,我们看第一回中关于本书来历的一番叙述:

  空空道人听如此说,思忖半晌,将《石头记》【甲戌侧批:本名。】再检阅一遍,【甲戌侧批:这空空道人也太小心了,想亦世之一腐儒耳。】因见上面虽有些指奸责佞贬恶诛邪之语,【甲戌侧批:亦断不可少。】亦非伤时骂世之旨,【甲戌侧批:要紧句。】及至君仁臣良父慈子孝,凡伦常所关之处,皆是称功颂德,眷眷无穷,实非别书之可比。虽其中大旨谈情,亦不过实录其事,又非假拟妄称,【甲戌侧批:要紧句。】一味淫邀艳约、私订偷盟之可比。因毫不干涉时世,【甲戌侧批:要紧句。】方从头至尾抄录回来,问世传奇。从此空空道人因空见色,由色生情,传情入色,自色悟空,遂易名为情僧,改《石头记》为《情僧录》。至吴玉峰题曰《红楼梦》。东鲁孔梅溪则题曰《风月宝鉴》。【甲戌眉批:雪芹旧有《风月宝鉴》之书,乃其弟棠村序也。今棠村已逝,余睹新怀旧,故仍因之。】后因曹雪芹于悼红轩中披阅十载,增删五次,纂成目录,分出章回,则题曰《金陵十二钗》。【甲戌眉批:若云雪芹披阅增删,然则开卷至此这一篇楔子又系谁撰?足见作者之狡猾之甚。后文如此者不少。这正是作者用画家烟云模糊处,观者万不可被作者瞒蔽了去,方是巨眼。】并题一绝云:

  满纸荒唐言,一把辛酸泪!

  都云作者痴,谁解其中味?”

  从上述一段叙述当中,本书的第一作者是石头,它将自己的经历记在石上,然后是"空空道人"是他将书从石头上抄录下来,然后是吴玉峰、孔梅溪,最后增删者才是“曹雪芹”,还有“曹雪芹”之弟棠村似也参与了创作, 上面提到的这些人名里有几人是真名?有几人是伪托?书名则从《石头记》,到《情僧录》,再到《红楼梦》,《金陵十二釵》,另外《石头记》还有多位批书人:脂砚斋、畸笏叟、松斋、棠村等。所以我们大胆地推理,《石头记》很可能是多人长时间的共同创作,非“曹雪芹”一人独立完成,“曹雪芹”只是其中最重要的增删者。近年来关于《红楼梦》的作者以及成书过程出现了很多新的观点,传统的红学观点遭到严重的质疑,“曹雪芹”是曹寅之孙的观点并不可靠。我们认为在“曹雪芹”增删润色之前,很可能就有了《红楼梦》的某种底本,其中的故事情节已经完整,最初的作者很可能是明朝的遗民,写书的目的就是怀念明朝故国,表达对当政的满清统治者不满,吴氏石头记可能就出自这个底本。在清初严酷的文字狱背景下,吴氏石头记无疑是反书一部,所以只在少数人当中传阅,“曹雪芹”作为最后的增删润色者肯定试图把书中犯了大忌的语言文字情节修改得更隐晦,应该说前80回润色修改得非常成功(增加了一些属于“曹雪芹”的高频词),文笔极其精彩老练,但面对后28回指责满清统治者的露骨情节,曹氏也感到很难修改,所以脂砚斋才有“书未成,芹为泪尽而逝”的遗憾。这也是世上只流传了80回没有结局的《石头记》原因。如此我们才能解释吴氏石头记略显粗糙,和前80回之间异中有同,同中有异的现象,当然要想彻底揭开吴氏石头记的谜底,还需藏家何莉莉公开藏本。

  参考文献:

  1.癸酉本《石头记》后28回,金俊俊,何玄鹤 编,当代世界出版社

  2.《红楼梦》前80回和后40回的差异,汪维新,浙江大学

  3.基于计算机的词频统计研究——考证《红楼梦》作者是否唯一,李国强,李瑞芳,沈阳化工学院学报

  4.用Python分析《红楼梦》后40回是曹雪芹所写吗? 楼宇 知乎,Python中文社区

  5.红楼梦 曹雪芹 高鹗著 人民文学出版社 1987.4

  6.红楼探佚 丁维忠著,京华出版社2006

  7.红尘冷眼魇红楼:红楼方家谭 周汝昌等著 团结出版社,2006.6

  8. 戚蓼生序本《石头记》,2011.04

  9. 百度“红学”

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有