2006-12-18

論文の紹介:言語の過程的構造と自然言語処理

言語の過程的構造と自然言語処理」についての紹介:

三浦文法は時枝の「言語過程説」を発展したものとして、「自然言語処理」の研究に親しまれている文法である。この論文も三浦文法の自然言語処理へ新しい応用の一つである。

言語の過程的構造と自然言語処理
Constructive Process of a Language and Natural Language Processing
宮崎 正弘*  池原 悟**  白井 諭**
Masahiro MIYAZAKI Satoru IKEHARA Satoshi SHIRAI
* 新潟大学工学部情報工学科 Faculty of Engineering, Niigata University
** NTT情報通信網研究所知識処理研究部 NTT Information Network Systems Laboratories [ 「自然言語処理の新しい応用」シンポジウム, pp.60-69 (1992.1). ][ In Proceedings of Symposium on "New application of natural language processing", pp.60-69 (January, 1992). ]
INDEX

1. はじめに
2. 言語の過程的構造
2.1 言語表現の生成過程
2.2 言語理解の過程
2.3 人間の言語活動のモデル
3. 人間の認識機構を取り入れた自然言語処理
3.1 話者の対象認識処理
3.2 言語表現の生成処理
3.3 言語表現の解析処理
4. おわりに
参考文献

1. はじめに

人間の言語能力をコンピュータ上に実現することを狙った自然言語処理については、近年盛んに研究されている。しかし、かな漢字変換方式の日本語ワープロのように実用システムとして成功した例はまれで、多くは実験システムの域にとどまっている。実際、自然言語の壁は厚く、多くの研究者が従来の言語理論と実際の自然言語との間に大きなギャップがあると感じている。事実、従来の計算言語学は強化されてきたとはいえ、自然言語の持つ論理的な一側面しか説明できず、現実の言語には余りにも無力で、計算言語学からみれば現実の言語は例外の集まりともいえる状態にある。また、自然言語処理には意味処理、文脈処理、文章生成なと解決すべき困難な課題を抱えている。現在、自然言語処理の研究は大きな転接点にさしかかっている。このような時期に、従来の研究の方法、進め方を見直すことは、従来の研究の限界を打破し、さらに自然言語処理の研究に新しい視点と方法論を打ち立てるためにも重要である。
上記のような観点から本稿では、従来の研究において見逃されていた言語の過程的構造に目を向けることが重要であることを述べ、言語における人間の役割、特に、話者の目・話者の認識の仕方、さらには人間の言語能力の過程的構造を探究することから、コンピュータによる言語処理の方法を発見していくことの必要性を述べる。その上で、実際の自然言語処理の新しい視点と方法について、文生成や文解析などの視点から諭じる。

2. 言語の過程的構造


2.1 言語表現の生成過程

今、人が野原に座って、そこから見える風景を文章に書く場合を想定する。同じ風景を眺めても、人によって書かれる文章は、千差万別だろう。これは、なぜだろうか。それは、書き手の目には色々の事物が見えるが、書き手は、それら全てを余すところ書くわけでなく、その中から自分が着目する事物を選び、それについて記述するからである。また、着目する事物が同じでも、それをどのような側面からどのように捉えて表現するかは、人によって異なってくるからである。このように、言語表現には万人に共通する対象のあり方がそのまま表現されているわけではなく、対象のあり方が書き手の認識(対象の見方、捉え方、書き手の感情・意志・判断などの対象に立ち向かう書き手の心的状況)を通して表現されているのである。
このような考え方で言語を正面から取り上げたのは、本居宣長、鈴木朖などの国学者の流れをくむ国語学者・時技誠記の言語過程説・時技文法を発展的に継承した三浦つとむである。三浦は、時技の言語過程説による主体的表現と客体的表現の言語表現上の遠いなどを継承しつつ、時枝が言語の意味を主体的意味作用として、話者(書き手)の活動そのものに求めていたのを排し、意味は表現自体が持っている客観的な関係であるとした関係意味論を提唱し、それに基づく新しい日本語の文法、三浦文法を提案した。三浦文法は、細部についての分析が及んでいない部分も多々ある、未完成の文法であるが、今後の自然言語処理研究に新しい視点を与えてくれるものと思われる。以下、三浦文法を基に言語表現の生成過程について考えて見よう。
(1)言語と認識の不可分性
ソシュールによれば、言語は現実的で物質的な存在として捉えられ、言語に関する社会的な約束事である言語規範は、人間の頭の中の精神的な存在とされ、区別されている。前者は言語規範の運用の結果、生成される個人的な言語表現としてパロールと呼ばれ、後者は同一言語を使う人間の頭の中に先天的に存在する観念実体であり、ラングと呼ばれる。このような考え方は、頭の中に道具があって、これを使って思想を伝達しようとする言語道具説の一つである。そこでは、言語は概念と聴覚映像とが固く結びついて構成された精神的な実体であると説明される。
時枝は、このような言語実体観を排し、対象/認識/表現の過程的構造をもって言語の本質とした。すなわち、時枝の言語過程説によれば、まず対象が存在する。対象は、実在するか否かを問わない。人間の頭の中に観念として存在する抽象物、属性、関係などのような観念的な対象や回想・想像・空想によって作り上げられる過去・未来・空想の世界であってもよい。次に、この対象を見る人が存在し、その人の頭の中に認識が生まれる。この認識が表現に結び付けられると考えるのである。
また、言語の意味については、対象が消失した後も表現が残っている限り意味は存在するため、対象を意味と考えることはおかしいし、認識や表現を意味の実体とするのもおかしいと考え、対象、認識、表現以外に求めた。そこで、表現する主体の活動そのもの、すなわち、対象を認識する仕方(意味作用)を意味とした。時枝は、このようにして、言語の本質を主体の概念作用にあるとし、言語の意味を主体の把握の仕方、すなわち、対象に対する意味作用そのものと考えた。従って、言語表現に伴う言語規範とそれによる媒介の過程が無視され、認識を対象のあり方の反映とみる立場が貫かれなくなってしまい、言語による情報の伝達について、ソシュールのラングのような個人的な能力に基礎づけるところまで後退してしまった。
これに対して、三浦は、言語の意味を対象/認識/表現の関係として捉えることなど、時枝の言語過程説にいくつかの修正を加え、独自の理論的展開を図った。三浦の言語観を要約すれば、以下の通りである。
対象のあり方がそのまま言語表現に直結されるわけではなくて、その間に話者の認識が介在しているのであるから、そこに認識独自の形成が伴うことになる。対象のあり方を概念として捉えるだけでなく、感情、要求、意志、判断とかいった存在がそれらに結び付いて形成され、これを含めた全体が一つのまとまった思想を作り上げているのであるから、これら独自に形成された部分についても概念と同じように一つの種類として捉え直し、言語規範に規定して表現しなければならない。
三浦は、言語はこのような過程を経て表出されたものである以上、言語における語の並べ方は対象世界の事物の色々な側面の結び付きが示されるだけでなく、さらにそれらの側面と独白に形成された認識との結び付きや、独自に形成された認識の相互の結び付きも示すものであるとしている。従って、これらの結び付きの性質や特徴を正しく理解し、区別してとり上げないと文法的な説明にならず、従来の文法の再構成が必要であるとしている。
三浦によれば、音声や文字の種類に結び付き固定された対象と認識の客観的な関係が言語の意味である。語は、使われて(表現となって)始めて意味(関係)を生じる。従って、表現が存在すれば意味は存在し、表現(音声・文字)が消滅すれれば言語規範によって固定されていた対象と認識の関操、すなわち意味も消滅する。対象や認識そのものは意味ではなく、意味を形成する実体である。対象や認識は消滅しても、表現がある限り意味は存在する。意味は、話者や聞き手の側にあるのではなく、言語表現そのものに客観的に存在すると考えるのである。三浦の言語過程説における言語モデルを図1に示す。
┌──┐
┌──┤意味├──┐
│関係└──┘関係│
┌──┐ ↓ ┌──┐ ↓ ┌──┐
│対象├───→│認識├───→│表現│
└──┘ ↑ └──┘ ↑ └──┘
┌───┐ ┌────┐
│反映論│ │言語規範│=慣習(自然発生)
└───┘ └────┘
図1.言語過程説(三浦)の言語モデル
(2)主体的表現と客体的表現
時枝の言語過程説によれば、言語表現は以下のように主体的表現(辞)と客体的表現(詞)に分けられ、文は、辞が詞を包み込むようにして構成された句を、別の句が重層的に包み込んだ入れ子型構造(図2参照)で表される。
・主体的表現:話者の主観的な感情、要求、意志、判断などを直接表現したものであり、日本語では、助詞、助動詞(陳述を表す零記号、すなわち図2に示すように肯定判断を表すが、表現としては省略された助動詞を含む)、感動詞、接続詞、陳述副詞で表される。
・客体的表現:話者が対象を概念化して捉えた表現で、日本語では、名詞、動詞、形容詞、副詞、連体詞、接辞で表される。主観的な感情や意志などであっても、それが話者の対象として捉えられたものであれば概念化し、客体的表現として表される。
┌────────────┐
│┌──────┐ │
││┌─┐ │ │
│││ ├─┐ ├─┐ ├─┐
│││梅│の│花│が│咲く│φ│
│││ ├─┘ ├─┘ ├─┘
││└─┘ │ │↑
│└──────┘ │ 零記号
└────────────┘
図2.時枝の入れ子型構造
このような区別は、日本では本居宣長の学派によって既に指摘されている。また、ヨーロッパでも17世紀において既にフランスのポール・ロワイヤル文法や英国の哲学者ロックの“人間悟性論”で指摘されているが、言語における認識の役割の理解が不十分であったため、その後の研究では忘れ去られてしまっている。特に、欧米の言語ではこの区別が見失われやすい事情がある。日本語は、膠着語であるから主体的表現の語と客体的表現の語がそれぞれ単語として独立しており、表現ではそれが結び付けられて用いられるから、分類するとき分けて扱い易いのに対して、欧米語は屈折語であるため、客体的表現の語に主体的表現の部分が語尾変化の形でくっついてしまうため、別の語として分離することが難しい傾向にあるからである。
三浦は絵画や映画の表現と言語表現の違いを考察し、絵画や映画においては、対象に対する作者の認識が感性的な方法で表現に結び付けられるのに対して、言語においては、自然発生的に生まれ、成長してきた社会的な約束である言語規範が存在し、これによって対象に対する話者の認識が表現に超感性(理性)的な方法で結び付けられることを明かにした。これは絵画や映画が感性的な面に従属しているのに対して、言語はこのような制約から解放されたものであることを示している。言語が感性的な面からの制約をのがれたと言うことは、逆にみれば、社会的な約束である言語規範を生み出し、表現としての主体的表現と客体的表現を生み出したと言うことができる。言語をこのように捉えると、対象のあり方がそのまま表現になるわけではなく、また認識がそのまま表現に変形されるのではないことが理解される。話者(書き手)の頭の中[超感性(理性)領域]に形成される認識が言語規範を媒介にして言語表現に結び付けられると考えるのである。ここで、言語表現は、他の人が物理信号の形で目や耳といった感覚器官を通じて、すなわち感性を通じて、表現を受信できるように、音声や文字の形で話者(書き手)によって発信される。これが、“話す”“書く”という言語活動である。
(3)主体の観念的自己分裂と視点の移動
時枝は「私が読んだ」などの文における代名詞「私」は、主体そのものでなく、主体が客体化されたものであるという“主体の客体化”の問題を提起した。これを対象の認識の立場から発展させ、主体の観念的自己分裂と視点の移動という観点から言語表現を捉えたのは三浦である。
三浦は、一人称の表現は見たところ、自分と話者が同一の人間であるが、これを対象として捉えていると言うことは、対象から独立して対象に立ち向かっている人間が存在していることであるとして、対象に立ち向かっている人間は別の人間であるとしている。すなわち、一人称の場合には現実には同一の人間であるように見えても、実は観念的な自己分裂によって観念的な話者が生まれ、この自己分裂した自分と対象になっている自分との関係が一人称として表現されると考えるのである。
話者と話者自身の関係は、上記ような認識の構造において成立するものであるが、同様の関係が過去や未来を表現する時制の表現、否定表現などでも見られる。話者自身が対象となっていない場合でも、自己分裂した話者は過去や未来の世界に入って行き、対象との関係を現在形で捉えた後、現在の世界に戻って来ると考えるのである。また、否定表現では否定する対象が必要であるが、否定するのであるから現実世界にはその対象がない。そこで、対象が否定されないような仮想世界に自己分裂した話者が入り込み、対象に対し肯定判断をした後、現実世界で否定判断を行うといったネストした世界構造で否定を捉えるのである。三浦は、このような観念的な話者による視点の移動を表すものとして、観念的世界が多重化した入れ子構造の世界の中を自己分裂によって生じた観念的話者が移動する入れ子構造モデル(図3参照)を提案している。現在の否定表現や過去の表現は、それぞれ(現在の仮想世界/現在の現実世界)、(過去の現実世界/現在の現実世界)の二重の入れ子構造となる。また、過去の否定表現は、(過去の仮想世界/過去の現実世界/現在の現実世界)の三重の入れ子構造となる。さらに、過去の否定推量表現は、(他の人の過去の仮想世界/他の人の過去の現実世界/他の人の現在の現実世界/話者の現在の現実世界)の四重の入れ子構造となる。
三浦の提唱する言語の過程的構造を図4に示す。

図3.三浦の入れ子構造モデル

図4.言語の過程的構造

2.2 言語理解の過程

言語理解の過程は、対象→認識→表現という言語表現の生成過程を逆に辿ることにより行われる。まず、聞き手(読者)は音声や文字のような物質的な形をとった言語表現を耳や目といった感覚器官の感性を通して知覚し、感性的な音声や文字に結び付けられた話者(書き手)の超感性的な認識の存在を知る。この過程では、言語規範を手がかりに言語表現と話者の認識が対応づけられる。この時、聞き手は話者に同化して、話者の認是を忠実になぞらえ、自己の頭の中に話者の認識を再構成するのである。すなわち、話者の認識をまず自分の認識とする追体験を行うのである。次に、この復元された話者の認識をもとに話者が取り上げた対象のあり方を推定するのである。このような言語理解の過程が“聞く”“読む”という言語活動である。
言語表現が理解できたということは、話者の見方・考え方にのっとって質問に対して正しい応答ができたり、異なる見方で表現し直したりできることと考えて良い。すなわち、話者になり代われることと言えよう。また、聞き手の立場に戻って、話者の言ってることに対する判断を下せるようになることでもある。
言語理解の過程において、聞き手が話者との精神的同一化を図り、追体験するのとは逆に、言語表現の生成過程において、話者は聞き手の立場を考慮して言語表現を行っている。たとえば、自分の幼い子供に父親自身が「お父さんは会社に行く」と言ったりするのも、幼い子供には大人の発想や用語は理解できないことを話者が知っていて、話者が子供のレベルに降りて行き、子供の立場に立って表現したもので、子供の追体験を手助けしたものである。また、大人同士でも相手の立場を考えた表現がとられる。話者(書き手)が聞き手(読者)の知らない言葉を避け、なるべく平易な言葉で分かり易く話したり、文章を書いたりするのも相手の立場に立った表現である。このように時間的、空間的、社会的な関係を聞き手の立場と同化させ、聞き手の側から話者の認識を表現することによって、聞き手の負担を軽減しようとすることも精神の交流としての言語によく見られる事象である。さらに、感情的な相手に話しかける時には、相手の感情に触れないような問題の取り上げ方をし、言葉を選ぶことなども聞き手の立場を考慮した言語表現を行っていると言えよう。上記のように、聞き手のあり方が話者の認識や表現のあり方を規定してくる面もあることを忘れてはならないのである。
以上、三浦文法を基に言語理解の過程について考えてみた。言語理解の過程をモデル化すると図5のようになる。言語の特質は、聞き手と話者の精神活動の交流という点をふまえて解明されるべきものであり、精神活動としての語法の役割が、言語理解においても重要であることが分かる。
①話者の認識を知ること ②対象の姿を知ること
↑ ↑
言語規範 │ │
┌───┐ ↓ ┌─┴─┐ ┌─┴─┐
│表 現├────→│認 識├────→│対 象│
└─┬─┘ └───┘ └───┘
│ ┌─────────┐ ↑
├→主体的表現──→話者の感情・意思│ │
│ │ ├─┘
└→客体的表現──→対象の姿 │
└─────────┘
図5.言語理解のモデル

2.3 人間の言語活動のモデル

人間言語活動全体をモデル化すると図6のようになる。感性領域と超感性領域とが表現と理解の所で互いに切り換り、超感性的な認識、すなわち精神上の産物が物質的な形、すなわち音声や文字と対応づけられて、相手の精神的な産物を生み出しているのである。
ここで思考過程とは、聞き手の頭の中に再構成された話者の認識と自己の知識を基に思考し、別の認識を生み出す過程である。聞き手が話者の言っていることに判断を下したり、聞き手が次にどのような応答や行動をすべきかなどを考える過程は、その典型的な例である。また、2.1で述べたような、話者が対象を認識する過程も思考過程に含まれる。従って、話者の頭の中に形成された認識を言語規範を媒介にして言語表現に結び付けて、音声や文字のような物質的な形をとった言語表現を生成する過程が表現過程である。
┌──────────────────┐
│■■■■■■┌────┐■■■■■■│
│■■■■■■│ 思考 │■■■■■■│
│■■■┌─→│ する ├──┐■■■│
│■■■│■■└────┘■■│■■■│
──────│─(超感性の領域)─│──────
│■■■│■■■■■■■■■■↓■■■│
理│■┌─┴─┐■■■■■■┌───┐■│
性│■│ 理解 │■■■■■■│ 表現 │■│
と│■│ する │■言語規範■│ する │■│
感│■└───┘■■■■■■└┬─┬┘■│
性│■■↑■↑■■■■■■■■│■│■■│
の├──│─│────────│─│──┤
境│ │ │ ↓ ↓ │
界│ 読む 聞く 話す 書く │
│ ↑ ↑ │ │ │
─────│─│─(感性領域)─│─│─────
│ │ │ ↓ ↓ │
│ 文字 音声 音声 文字 │
│ ↑ ↑ │ │ │
│ │ │ │ │ │
│ │ └────────┘ │ │
│ └────────────┘ │
└──────────────────┘
図6.人間の言語活動のモデル
音声や文字の形をとった言語表現を媒介とする、話者(書き手)と聞き手(読者)の精神活動の交流を通じてコミュニケーションを行うことが、人間の言語活動と言えよう。このような言語活動を円滑に行うには、両者が共通の言語規範を持っだけではなく、対象や対象世界についても一定限の知識を共有する必要がある。言語表現では、文脈、知識、発話の背景や状況から容易に分かることは、普通、表現しないからである。常識やある分野の専門知識などの言語外知識(世界知識)を前提にして言語表現が成立しているのである。

3. 人間の認識機構を取り入れた自然言語処理

通常、自然科学が人間の意識と独立した物理的存在として疑いのない自然を研究対象としているのに対して、自然言語処理は実在としては疑いがないが、人間の精神的産物である言語をその研究対象としている。そのため、言語の捉え方の違いによって様々なアプローチの違いが生じる。
近年、自然言語処理の研究が盛んに行われているが、その多くはチョムスキーの生成文法の流れをくむ立場をとっており、言語を対象-認識-表現の関係で捉えることをせず、単に形式(表現)と内容(意味)を対立的に平板に捉えるという形式と内容の二元論的立場をとっている。そこでは、内容は対象のあり方と独立して話者の精神内に存在するもの、または、対象のあり方そのものとして捉えられている。しかし前者の場合、話者の心理や精神が対象と無関係に存在するものではなく、話者の精神と対象の間に反映論が存在することが見逃されている。また後者の場合、話者の認識を通さずに対象を捉えることはできないにもかかわらず、対象のあり方から話者の認識を通さず直接表現が導かれることになってしまう。いずれの場合も対象を認識する話者の存在が無視されており、言語の形式は対象のあり方とそれに対する話者の認識のあり方が反映したものであるため、形式と内容は相互に支え合う構造を持っていることが見落されている。
2章で述べたように、言語表現には、対象のあり方が話者の認識を通して表されているから、対象のあり方がそのまま表現されているとは言えない。表現に表される内容は、対象のあり方と話者の考え方や見方の二つに大別できる。従来の自然言語処理ではこの両者を区別せず、いっしょに扱っていることが多い。言語表現に現れた対象のあり方は話者の目を通しているため、人によって千差万別のあり方に見える。しかし、対象は人によっても共通するものであるため、聞き手は話者の目を通して表現された対象のあり方を見て、自分にも共通する対象の像を想像し、理解する。
そこでここでは、話者の対象認識機構を取り入れ、対象→認識→表現という過程を辿って言語表現を生成したり、言語表現の生成過程を逆に辿り、対象のあり方と話者の認識を分けて、それぞれのあり方を調べることにより言語表現を解析することを目指し、自然言語処理の新しい方法論を構築することを提唱する。

3.1 話者の対象認識処理

一般に対象は複雑な構造と多様な属性や関係を持ち、その数は数え切れない。このような性質を持っ対象を有限の能力で認識するには、種々の捨象が行われる。すなわち、どのような対象でもそれを見る時は視点があり、その視点から対象の取り上げ方が判断される。ある側面が取り上げられる時は、対象の持つ他の側面は切り捨てられることになる。
対象に対する話者の認識の現れる部分として、話者の見方、捉え方の違いの生じるところを考える。表現には話者自身である主体と対象となる客体のあり方が図5に示すように結合されている。話者自身も客体化されて捉えられることがある。その場合の話者は客体に含めて考えると、話者自身のあり方は主体的表現に現れる。そこで、話者の捉え方の現れる部分は客体の捉え方と主体のあり方の二つに分けることができる。
(1)客体の認識のあり方とその扱い
すべての対象はそれ自身を他と区別する特徴を持つと同時に何らかの共通性を持つ。この個別性と普遍性は相対的なものであり、見る視点によって相互に入れ替わる。例えば、大きいりんごと小さいりんごの個別性は「大きい」「小さい」で表され、両者の普遍性は「りんご」で表される。しかし、「りんご」「バナナ」「梨」の間での「りんご」は個別性を言ったものであり、3者に共通する普遍性は「果物」として捉えられる。ここで、対象の個別的側面に着目すれば、対象は具体的に取り上げられ、逆に、普遍的側面に着目すれば対象の個別的側面は捨象されて、抽象化が行われることになる。また、話者が対象を取り上げる時には、他の人と共通する客観的な見方をすることもあれば、話者白身の個人的事情が強く反映した主観的な見方をすることもある。
対象を客体化して捉える時は、必ず対象は程度の差はあれ普遍的側面によって抽象化もしくは一般化される。対象のどの側面を取り上げ、どの程度の抽象化・一般化が行われるか、この差を何らかの手段で表現し、処理対象に持ち込むことが必要である。対象の具体性・個別性と一般性・普遍性の関係を表現する枠組みとしては、シソーラスがある。シソーラスは、同義、上位-下位などのような語や概念間の意味的関連を体系化したものであるが、これをさらに対象の捉え方の一般性と普遍性の視点から整理し、人による対象の取り上げ方の差の抽出に使えるようになることが望まれる。
次に、客体の見方の違いとして、話者の空間的視点と時間的視点をあげることができる。対象を見る際、空間的にどの位置から捉えたかによって、対象の見方は異なる。そこで、空間的な視点を表すパラメータとして、上/下/左/右/前/後/内/外などの物理的な位置表現パラメータのほか、話者の観念的立場を表す論理的で抽象化された位置パラメータを設定して、視点の変換と対応する表現の変換の仕組みを研究することが大切である。空間的視点は必ずしも固定的なものではない。英語に比べて日本語は視点の移動の多い表現が好まれる傾向にある。また、話者は必ずしも表現の持つ視点に物理的に存在するとは限らず、観念的に自己分裂した話者が移動して捉えている場合が多い。以上の点を考慮して、空間的視点の表現法を研究する必要がある。
空間的視点が対象と話者の空間的位置関係を意味するのに対して、時間的視点は対象と話者との時間的関係を意味する。現実の対象は時間的存在であるが、言語表現に表される対象は仮想のものもあり、必ずしも絶対的時間軸上にその位置を表せるとは言えない。しかし、話者との関係から見れば、相対的時間関係が存在する。そこで、時間的視点を扱うため、話者と対象との関係を表す相対的時間軸を設定し、その上で対象と話者との時間的関係を表現すれば、話者の時間的視点を処理に持ち込めるものと期待される。この軸を通して変換すれば、日本語と英語の間の時制の捉え方の違いも吸収され、適切な翻訳ができると同時に、異なる言語間に共通する対象のあり方を抽出して処理の対象とすることが可能となるであろう。
(2)主体の認識のあり方とその扱い
主体に関する認識は2通りに分けられる。その一つは主体を客体として見る認識であり、もう一つは客体の認識に付随する話者の心理的現象である。
話者自身である主体も他の人から見れば客体である。話者は、自分と他人を比べたり、他人の立場に立ってものを見たりする。この時、話者は観念的に自己分裂して自己の分身を生み、この分身を通して対象を見ることになる。観念的な自己の分身はさらに時と場所を越え、過去や未来や空想の世界に出かける。このような話者の精神的な自己分裂を通して捉えられた主体は客体的に表現されることになる。従って、言語表現の形態的な解析の段階では客体的表現とまったく同様の扱いが可能である。言語表現の意味を理解する過程で話者の意志や意図を抽出する時、話者のあり方として他の対象と分離して解析する必要がある。
次に、客体に付随する話者の認識について考える。話者が対象を取り上げる際、その対象に対して何らかの感情、意志、判断が伴うのが普通である。これらの感情・意志・判断は対象の取り上げ方の差として言語に表現される。このような表現が主体的表現であるが、主体的表現は客体的表現とは異なり話者による差が大きい。従って、言語解析においては客体のあり方とは分離し、話者の態度として別に解析するほうが適切であると考えられる。

3.2 言語表現の生成処理

(1)認識を立体的に捉える枠組み
言語表現の生まれる過程を考えると、話者は対象世界のあり方を話者の認識の中で概念化し、対象の概念化した世界を思い浮かべる。次に、これを言語規範に従って表現の一つ一つに対応させ、言語表現を形成する。この時、対象の捉え方を立体化して表現するための構造体、すなわち構文という枠組みを用いる。枠組みも大小様々である。最小の枠組みは単語であるが、文中の単語の一つ一つが単独で定まった意味を持つわけでなく、単語は文という枠組みの中で始めて自分の役割を持つことができる。対象のあり方と認識のしかたに応じてそれを表現する枠組みも種々存在する。句、節、文といった分類は枠組みの型を示すものと言える。今後、認識を立体的に捉える枠組みという視点から構文構造を検討する必要がある。
話者は語・句・節の約束などを用いて自己の認識を立体化して表現するが、この立体化は意味に支えられた構造化に関する文法規則に基づいて行われる。すなわち、対象のあり方が話者の認識に反映し、それが統語構造に反映する。これは統語構造が認識に結びついていること、すなわち、統語構造が意味の一部であることを意味する。構造と意味が表層構造と深層構造のように対置されるものではなく、意味は表現と認識、対象の結びつきであり、表層の構造は意味の一部となっているのである。
(2)主体的表現と客体的表現
話者の認識を大きく分けると客体に関するものと主体に関するものに分けられる。客体に関する認識は、話者が対象を自己から独立した対象として眺めようとする意識のもとに生まれる。このような認識を表現する手段が客体的表現である。これに対して、主体に関する認識は、客体に対する話者の立場に閲する認識であり、この認識を直接表現する手段として主体的表現が用いられる。主体に関する認識であっても、観念的に自己分裂した話者がこれを捉える時は、観念的な話者から見れば、主体は話者から独立した対象として捉えられることになり、客体的表現が用いられる。以下、日本語において、客体的表現と主体的表現は、話者のどのような認識を表わすものかについて述べる。
1)客体的表現
実体、属性、関係からなる対象のうち実体を概念化したものが名詞である。実体は物理的実体と観念的実体がある。また、実体は立体的な構造を持ち、種々の側面があるため、どの側面から取り上げるかによって、使用される名詞も異なってくる。また、実体の構造に対応して名詞間も構造的な関係を持つ。対象に立ち向かう話者も客体化して捉えた時は客体的表現が用いられる。普通の名詞が実体のあり方を捉えたものであるに対して、代名詞は実体と主体との特殊な関係が表現される。主体と対象の関係としては、①話者と話者の関係②話者と聞き手の関係③話題となる事物、場所、方角、人間などとの関係の3種の関係があるが、「私」は主体と対象化された主体、すなわち①の関係にある主体を客体化したものである。
属性は実体の属性と属性の属性に分けられ、実体の属性は動的属性と静的属性に分けられる。動的属性を表すものが動詞であり、静的属性を表すものが形容詞である。属性もこれを固定的に実体化してとらえた場合は「大きさ」や「動き」などのように名詞によって表現される。属性の属性は副詞によって表現される。また、連体詞は実体に属性を付加する役割を持つ。
実体と実体、属性と属性、実体と属性の間には種々の関係が存在する。関係自体は、感覚的存在でないので“関係”自体を概念的に対象化して名詞として用い、個々の関係は「上下(の)関係」や「親子のつながり」などのように表現することが多い。
2)主体的表現
話者の感情、意志、判断など対象に対する立場や対象から引き起こされる話者白身に関する認識を表す主体的表現としては、助詞、助動詞が用いられる。助詞は対象(実体)に立ち向かう話者の立場を直接表現する。「花咲く」と言えば「花」と「咲く」との間の客観的な関係を捉えたものと見ることができるが、この関係は変わらないものの、「花が咲く」「花は咲く」「花も咲く」と言えば、「花」に対する話者の立場が変化してくる。このように、助詞が実体に対する話者の捉え方、すなわち、対象(もの)と主体との関係に関する主体自身の認識を表すのに対して、助動詞は対象(こと)との関係において話者自身の立場を表現するものと見ることができる。人間の認識は現実の世界だけを相手にするのではなく、想像によって過去の世界や未来の世界、空想の世界などさまざまな世界に行き来する。このような話者の見る対象世界に対する話者の感情・意志・判断などを直接表現したものが助動詞である。
この他に、主体的表現としては、話者の感情や意志などを直接表現する感動詞、話者による事象間の関係認識を表現するする接続詞、および話者の主観を強調する陳述副詞がある。

3.3 言語表現の解析処理

(1)入れ子構造型の構文解析
意味は表現と認識、対象の結びつきであるという観点に立てば、構文は対象を捉える枠組みであると考えられる。枠組みは対象の捉え方を立体化して表現するための構造体である。単語、句、節、文など、対象のあり方と認識のしかたに応じてそれを表現する枠組みも種々存在する。
言語表現の解析では、与えられた表現がどのような枠組みで表現されたものか、またその枠組みはどのような認識構造を表す規則を手がかりに、実際はどんな意味で使われているかを明らかにする必要がある。いわゆる、構文解析は言語表現の統語構造を明らかにする過程であり、日本語で言えば表現の入れ子構造(図3参照)を捉え、それぞれの要素間の関係を明らかにすることである。今後、従来の句構造型や依存構造型の構文解析とは異なる、入れ子構造型の構文解析法について検討する必要がある。
(2)統語構造のもつ意味の扱い
統語構造と意味は一体化したものであり、これを独立に扱おうとすれば、構造の持つ意味が欠落する。すなわち、統語構造のもつ意味を考えないで、部分の意味から全体の意味を合成しようとする要素合成方式や表現を細分化して分析すれば全体が分かると考える原子論(顕微鏡学派)的方法では表現の意味の欠落を防げない。従って、構造のもつ意味を考える時、部分を全体の中に位置づけて解析を進めることが必要である。各部分はそれを含む上位の構造の中に位置づけられて始めて意味を持つ。そこで、処理を行う単位を上位の構造から抜き出す時は、意味を換えない表現の単位を注意して取り出すこと、取り出した表現の部分の意味を上位の構造の中に位置づけて解釈することが必要である。このような処理を行うことにより、要素合成方式で取り扱えない慣用表現の解析が可能となるだけでなく、多くの構造上の曖昧さや多義の発生を最小限に抑止することが期待できる。
例えば、図7のように、表現に用いられる語の語義についても種々の約束があり、話者がそのうちどの約束を用いたかを判定する必要がある。そこで、構造の持つ意味を考えるなら、語と語の結びつきの中に、それぞれの語がどの約束(語義)で使用されたかを知る情報が含まれている。句や節や文についても同様に、それらを含むもう一段上位の構造(節、文、文脈)の中に多義を絞り込む手がかりがある。このように、それを含む上位の構造の中で語や句や節や文の多義を絞り込んでいく処理が意味解析である。

図7.統語構造に支援された意味の解釈
(3)主体と客体の扱い
言語表現は主体的表現と客体的表現が混合された形態をとり、両者に話者の見方、捉え方が現れるが、なかでも主体的表現は話者自身の感情、意志、判断が正接現れる部分であり、話者の違いによる差が著しく現れる。日本語と英語においても、言語族による感性の違いが反映されているため、表現の対応関係をとるのが難しい。そこで、言語の違いによる話者の見方の違いを取り出し、対象の共通性と言語による見方の違いを分けて処理することが有効であり、通常対象のあり方を表す客体的表現である格情報と主体的表現となることが多い様相・時制・相などの法情報を分離して扱うことが多い。しかしこの場合、格助詞は単に格マーカとしてしか扱われないため、日本語の助詞の「は」と「が」の微妙な使い分けは無視されてしまうし、辞が連続して表現する微妙なニュアンスも無視されてしまう。従って、これらを考慮して解析を行うためには、辞の語順を保存し、格助詞も主体的表現として扱うことが必要である。しかし、主体的表現と客体的表現は言語表現上、結合されているため、主体的表現を完全に取り去った後の客体的表現のみでは言語表現は成り立たなくなってしまう。そこで、若干の主体的表現を含む表現形式を疑似的客体的表現の枠組みとして定め、主体的表現の情報を抽出した後の言語表現を疑似的客体的表現に縮退させる。抽出された主体的表現の情報は、客体的表現とは分けて処理されることになる。
話者自身を表す主体も、これが客体化されて捉えられると客体的表現として表現される。世界知識を用いた言語理解などの処理では、話者を除く対象世界のあり方を抽出し、それを世界モデルと比較し、対応関係を調べることが必要となる。このような場合、客体的表現を話者に関する部分とその他の話者と独立な部分に分け、両者の関係を解析することが必要となる。従来、様相表現と言われていろもののうち、客体的表現で表されるものの扱いがこの対象となる。様相文脈を生成する動詞(「信じる」「感じる」など)などで取り立てられる対象世界と話者の関係を表す仕組みの追求が必要である。
(4)意味理解
言語理解において、聞き手は与えられた言語表現に結びつけられた話者の認識を言語規範に照し合わせて追体験するが、このような追体験を円滑に行うには、話者が対象としている世界について、聞き手が一定限の知識を共有することが必要である。聞き手は自己の世界の中に話者と共通の部分を見つけ、表現の内容をそれと対応づけ、表現の構造に合わせて、自己の世界を組立ていく。話者の認識の中に構築された世界と聞き手が言語表現に基づいて構築した世界は必ずしもすべてが同じとは言えない。話者の頭の中の世界が表現に結び付けられる時は、言語規範が媒介となるため、適切に媒介されたものは、表現に固定化されるが、媒介されていないものは、表現には固定化されない。聞き手は表現に固定化された話者の認識を再び言語規範を手がかりに再現するため、話者の世界と聞き手の世界は相違を生じる。ここでは、話者の認識の中で言語表現に固定化された内容の聞き手の精神への再現をもって追体験と考える。
聞き手は言語表現が与えられると言語規範と自己の世界知識を用いて、表現の表す概念化された対象を一つ一つ思い浮かべ、表現の構造を手がかりにそれを立体化して、話者の認識の世界を自己の頭の中に再現する。この再現された概念的世界から話者の見た対象のあり方を推定するのである。
従って、言語理解とは、言語表現に媒介された話者の認識構造を聞き手が自己の頭の中に再構成することであると言える。このような再構成の過程では、対象に関する知識が必要であり、聞き手は自己の持つ世界の知識と対応づけることによって、話者の世界を作り上げる。コンピュータによりこれをシミュレートするには、コンピュータ側に話者と共通する世界の構造的知識を持たせ、言語表現と世界の部分との対応関係をとって、それをもとに言語表現の持つ世界を再構成することが必要である(図8参照)。

図8.世界知識に支援された意味理解
以上のことから、工学的には意味理解とは、コンピュータ内の世界モデルと言語表現との対応づけを行い、それに基づき、言語表現の持つ世界の構造を再構成することであると言うことができる。コンピュータの持つ世界モデルの部分に、表現がそっくり対応ずけられる時は、再構成は不要であり、世界モデルの対応する部分の抽出に置き換えられる。なお、言語表現に表される世界は、話者自身を含む世界であり、コンピュータ内に表現した世界モデルとの対応をとるためには、話者自身の感情・意志・判断の表された主体的表現と対象のあり方を表す客体的表現を分け、客体的表現とコンピュータの持つ世界モデルの間の照合をとることが必要である。なお、主体的表現と話者の意識との対応づけを行い、発話の状況や背景を把握し、話者の意図を抽出する必要もある。

4. おわりに

時枝の言語過程説を発展的に継承した三浦の考えを基に、言語表現の生成や理解の過程を明かにし、人間の言語活動における認識の重要性を示した。さらに、このような人間の認識機構を組み込んだ、より高度な自然言語処理を実現する上での課題を明らかにした。話者の対象認識処理、認識を立体的に捉える枠組み、主体と客体の扱い、統語構造と意味の統一的扱い、追体験に基づく意味理解など今後解決すべき課題は多い。
従来の自然言語処理では無視されていた人間の対象認識機構をモデル化し、これを自然言語処理の中に組み込むことにより、人間の感情や意志などの情緒的機能を持ったより人間に近い自然言語処理システムを実現することが期待できる。また、言語間の表現や発想の相違などを言語による対象認識構造の違いとして機械翻訳システムに組み込むことにより、質の良い機械翻訳を実現することも期待できる。以上により、より人間らしい応答をする対話システムや会話文や文学作品を対象とする機械翻訳システムも夢ではない。
本稿で示した考えの一部は、既に多段翻訳方式の日英機械翻訳システムALT-J/Eに部分的ではあるが取り入れられている。現在、本稿で示した考えに基づく、新しい日本語文法の構築と本格的な統語解析系の研究を進めている。

参考文献

1)
時技誠記: 国語学原論, 岩波書店 (1941).
2)
時技誠記: 日本文法口語篇, 岩波書店 (1950).
3)
三浦つとむ: 認識と言語の理論, 第一部~第三部. 勁草書房 (1967/1967/1972).
4)
三浦つとむ: 日本語の文法, 勁草書房 (1975).
5)
三浦つとむ: 日本語とはどういう言語か, 講談社学術文庫 (1978).
6)
池原, 宮崎, 白井, 林: 言語における話者の認識と多段翻訳方式, 情報処理学会論文誌, vol.28, no.12. pp.1289-1279 (1987).
7)
池原悟: 言語表現の意味, 人工知能学会誌, vol.6, no.2, pp.290-291 (1991).
8)
宮崎正弘: 言語を理解するコンピュータ・自然言語技術の展望, コンピュートロール, コロナ社, no.37, pp.75-81 (1992).
Footnote