春来茶馆分享 http://blog.sciencenet.cn/u/chensuiyang

博文

读昌凤君诗词,谈数语与诗语的联系

已有 6250 次阅读 2008-6-18 00:27 |个人分类:池蛙集|系统分类:人文社科

来科网开博有三月,原图制《池蛙集》大话教与学,不意因3.145.12而卷入情感旋涡,也幸识昌凤先生等君。当初曾问昌凤先生可是专攻数语与诗语,今日就谈数语与诗语的联系,本质是能否设计一个能写出昌凤君诗词风格的机器人,当然不仅是朗颂机器人。

 

 

昌凤君诗词,谈数语与诗语的联系

 

陈绥阳

 

2008-6-16

 

 

    昌凤先生学业专攻偏微分方程数值解,博士后出站于武汉华中科技大学,有重要文献数十篇,数学功底非浅。我早年曾拜华中数学所所长陈庆益先生为师,与昌凤君应算是武汉第一山——瑜珈山之友。在科网读昌凤君诗词,又别有感触。于是,在评论中戏称要谈数语与诗语的联系。这里,分别简称数学语言与诗词语言为“数语”和“诗语”。

    这一联系在什么地方?

    前,昌凤君博士师承数科院梁国平研究员。梁先生自1983年开始研制有限元程序自动生成系统,于1995年获国家科技进步二等奖,2004年又将该自动生成系统推广至并行计算平台(集群)。昌凤君对这一系统并不佰生。2003年,余主持西交大理学院万亿次集群计算机项目,也知道这一平台。这一平台的关键在“自动生成”。而数语与诗语的联系,关键也在诗语的计算机“自动生成”这四个字上。

    这里的计算机“自动生成”特指:计算机通过学习一类诗词,在放松若干限制条件的情况下,通过必要的人机交互而自动生成“学习集(集合,下同)”中没有的诗词。显然,为了说明基本的思想,这里削弱了诗词的约束条件并降低了生成的自动化程度。为了方便,仅以七言诗为例。

    由学习集生成新诗的技术路线有两条:

    1、由句生成;

    2、由词生成。

 

    一、由句生成

    昌凤先生在“暂别”一文中讲:依依惜别之情,何堪细说?拳拳怀想之意,实难尽言!今集古人诗句,吟成一绝,以作临别之留言:

 

泥上偶然留指爪,月穿潭底水无痕。

仰天大笑出门去,从此萧郎是路人。

 

    该绝句“人”、 “痕”押新韵én,艮声,比平水韵宽。在平水韵中,“人”、 “痕”分别为上平十一真、十三元。

    “泥”句出自苏轼《和子由渑池怀旧》:人生到处知何似?应似飞鸿踏雪泥。泥上偶然留指爪,鸿飞那复计东西?

    “月”句出自凌云山临江竞秀亭()对联“竹影扫街尘不动,月穿潭底水无痕。”

    “仰”句出自李白《南陵别儿童入京》:“白酒新熟山中归,黄鸡啄黍秋正肥。呼童烹鸡酌白酒,儿女嬉笑牵人衣。高歌取醉欲自慰,起舞落日争光辉。游说万乘苦不早,著鞭跨马涉远道。会稽愚妇轻买臣,余亦辞家西入秦。仰天大笑出门去,我辈岂是蓬蒿人。”

    “从”句出自崔郊《赠婢诗》:公子王孙逐后尘,绿珠垂泪滴罗巾。侯门一入深似海,从此萧郎是路人。”

 

    在含有上述诗的学习集中,可建立如下的倒排语句树(这里用表来表示)

    艮声(én)…十一真……痕无水底潭穿月

    艮声(én)…十一真………………………

    ………………………

    艮声(én)…十三元……人路是郎萧此从

    艮声(én)…十三元………………………

    ………………………

其中,“艮”是树结点,“十一真”、“十三元”分别构成子树,各倒排语句是许许多多的叶结点。

    于是,从上面的语句树中,选定艮声(én)后,一种可能的抽取为:

“月穿潭底水无痕 从此萧郎是路人”

“从此萧郎是路人 月穿潭底水无痕”

显然,这样的组合有许多。例如,这里选用:“月穿潭底水无痕,从此萧郎是路人”的搭配为诗的基础搭配,再设法选另外的两句。

 

    这里已经看出,这种由句生成的方法有一个困难,在于每句的语义和语用很难形式化。

    两个语句的相似性或相关程度,在知网中有一种计算方法可参考,但要基于汉语分词技术。

 

    二、由词生成

    由词生成新诗句的办法有三步:第一步是将学习集中的诗句进行分词(切分),得到词集;第二步是通过机器学习得到组成诗句的规则;第三步是选取词集中的词按生成规则构成新的语句。

    1、分词

    汉语分词是汉语语言处理中特有的,在英语中单词已用空格分开,其技术主要有两大类,一是有字典分词,一是无字典分词。律诗中基本没有“废”字,有时可一字一词,如,句“月穿潭底水无痕”可分为:

/穿/////痕,

然而,分出的词越长其语义越准确,如:

从此/萧郎//路人。

 

分词也可以采用倒排的方法。汉语分词的困难在于歧义性,如成都有一个地方叫狮子山,语句“狮子山下马上到”,可分为:狮子/山下/马上/到;又可分为:狮子山/下马/上到,这就是歧义。

    假设诗句的分词已完成而得到词集。

    2、生成规则

    由词集取词并生成诗句,需要生成规则。一类是形式化方法,如正规语言的生成算法;另一类是基于语义的网络表示方法,如语义网络,这是一种比较实用的方法。语义网络,可通过机器学习的方式从学习集中得到。下面,以最简单的语义树来说明问题。如,有两棵语义树:

月——穿——潭——底

月——明——星——稀

月——落——乌——啼

月——————

水——无——痕

水——自——流

水————

由这两棵语义树可生成如下语句:

月穿潭底水无痕,

月穿潭底水自流,

月明星稀水无痕,

月明星稀水自流,

月落乌啼水无痕,

月落乌啼水自流,

…………………

等等。

    3、相似性和差异性判别

    相似性是讨论风格的一致性,差异性是讨论风格的创新性。这同样可以在定义基础词汇相似度的基础上,采用语义网络的方式来进行计算,可参考的例子仍是前面提到的知网中的方法。

    4、技术难点

    利用相似性和差异性,虽可以过滤部分应淘汰的语句。但机器仍可以生成一大堆有用和无用的语句,问题是哪些诗句才是需要的。这就是要研究的关键。目前的困难,在于语用的形式化基本是一个大的空缺。它涉及诗人赋诗的目标、心理、文化及其它背景。这和计算机下棋不同,后者可以转化为逻辑运算,从而将问题归结为运算的复杂性,在技术上是运算的速度问题。

    一种可行的方法是人机交互,加入人的干涉因素。

 

    三、数语与诗语

    数学语言可以是非形式化的公理系统,利用谓词演算可以将其形式化。从而数学的形式化语言可以按形式语言进行分类。后者按文法可以分为四类:正则语言、上下文无关语言、上下文有关语言与递归可枚举语言(图灵机语言)。凡是可计算的问题必是递归可枚举语言可解的问题。因而,数学中可解的问题,必是图灵机可计算的问题。

    上世纪五十年代N.Chomsky对自然语言结构进行研究,导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类,得到现在所称的Chomsky架构,它包括了文法的四个层次:0型文法、1型文法、2型文法和3型文法,且其中的每一个都是其前者的特殊情况。2型文法(或上下文无关文法)是程序设计语言结构的标准方式。相应方法生成的语言分别称为0型语言、1型语言、2型语言和3型语言,其关系是前者包含后者,后者是前者的真子集。

    Chomsky语言类型、形式语言与自动机有如下对应关系:

     

      Chomsky语言类型     形式语言             自动机

      0                 递归可枚举语言       图灵机

      1                 上下文相关语言     线性有界自动机

      2                 上下文无关语言       下推自动机

      3                 正规语言             有穷自动机

 

    自然语言,如果按词性组成短语,则可抽象出短语结构文法。对一个短语结构文法生成的自然语言,在不加其它限制条件时是0型语言。因而,对一个短语结构文法生成的诗语,是0型语言,对应数学上的递归可枚举语言,或图灵机。或者说0型文法生成的诗语必可为一个图灵机所接受,反之,一个诗语可被图灵机所接受,则它必是一个0型文法生成的语言。这就是诗语与数语的关系。

    目前,程序设计语言结构的文法是上下文无关文法,用其描述0型文法生成的语言,是用受限语言工具描述自由度更高的复杂事物,显然是困难的。

 

    四、语言的形式化

    语言的形式化研究,是多个学科的基础。

    从指号学的观点来看,语言分为语法、语义和语用三个部分。对语法的形式化研究是形式语言,对语义的形式化研究是形式语义,目前尚未对语用形成有效的形式化研究。

    计算机形式语言研究的一个里程碑是编译系统的产生。计算机程序设计语言的形式语义研究,一个重要的成果是代数语义学的抽象数据类型,由此而发展到今天的大型软件体系结构的研究。在程序设计方法学中,程序的自动生成一直是人们追求的目标。

    形式语义研究中的指称语义学,对语言哲学研究也有很重要的意义,也是数学应用于哲学研究的范例。

    自然语言处理属人工智能中的范畴,其理论与技术的突破将使创作机器人既可望又可及。这方面的研究还出现于基于机器学习的面向半结构化数据的文本处理与文本自动生成,也引起了面向非结构化数据的数据挖掘算法研究,一个典型的例子是非度量空间上的数据挖掘。

    在自动化领域中或人工智能中,形式语言方法还应用于模式识别。

    因而,语言形式化研究引起不少人的关注或研究相关问题。

 

    既然在科网,就谈点科学上的事情,免得说我不是谈佛,就是谈曲,还学池蛙叫,不务正业。科网中,有不少先生是语言大家。余东拉西扯,胡说八道,先在此道歉了。

 

    附1:在马昌凤《暂别科学网》一文中的留贴:

 

科门一入深如海,从此萧郎是路人。

路人,不必是人影绰绰却相隔在众人身后而不相识,既然大家都相识了,就是学识有山路,同登青云梯;半壁见海日,空中闻天鸡。

昌凤君诗词,朗朗上口,娓娓动听,虽清淡却甘醇,字婉丽而意深远,在数学界几十年的年轻人中为仅见。

暂别一文动了真情,令人唏嘘,令人叹息,我读数遍,无不动容。

有朋友相劝,望您移情正道,定不是一般之友,细细想来其情可真,其意可敬。

读文章伤神,写诗词伤情,在万古不废的江河中望君珍重。

 暂别只是暂别,还是说点轻松的吧。最初,我曾在评论中问君可是攻数语与诗语的。我真想写一篇文章说数语与诗语的桥梁。

   

   

    附2:有网友提及作诗机一事,下面给出一个作诗机的界面。这是一个很不错的偿试。其主要思想是在词库的基础上给出词的关联。有人用马尔科夫链作关联算法,有人用出现频率作关联算法,还有人研究所谓的链语法。其总体评价是“好”,但“没灵魂”、“功能不强”,在当前的技术水平上这要求是太高了,而且这是作者(稻香老农)在工(“养家糊口”)余后的作品,作到这种程度也不易了。这个软件在网上可免费使用。



 

 



https://blog.sciencenet.cn/blog-40049-29488.html

上一篇:江河水
下一篇:诗词与数学的思维异同
收藏 IP: .*| 热度|

0

发表评论 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 05:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部