ポルトガル語の「チャットボット」とは、ポルトガル語での会話を理解し分析できるプログラムです。現在、これらのチャットボットは人間とコンピューターの間で非常に自然な対話を実現しています。

自然言語処理(NLP、ここではPLNと表記)の最近の進歩により、ポルトガル語の特徴を考慮したチャットボットの開発が可能になりました。これらの進歩は、機械学習(ML)を活用して、言語の構造だけでなく、単語の意味や文脈も理解します。

AIを活用したポルトガル語チャットボットの作成

ポルトガル語は世界で6番目に多く話されている言語で、その半数はブラジルにいます。ラテン系言語と近いものの、2つの大きな特徴があります:

  • 多くの偽似同形語が存在し、見た目は似ていても意味が異なります。例えば、pt_PTでは「propina」は月謝ですが、pt_BRでは賄賂を意味します。同じブラジル国内でも意味が変わることがあり、北東部では「cabra」は男性を指しますが、他の地域では動物のみを指します。
  • 文脈の多用により、ポルトガル語チャットボットの解釈作業は非常に難しくなります。例えば「chega」は動詞(「彼女は明日到着する」)にも、中断の要求(「もうやめて」)にもなります。

さらに、国ごとに全く異なる慣用表現があり、時には文全体の理解を非常に困難にします。

これらの特徴は、ポルトガル語チャットボットの開発を難しくしているのでしょうか?驚くことではありませんが、答えは「はい」です。

ポルトガル語チャットボット:PLNの課題

上記の点は、ポルトガル語チャットボットにおける自然言語処理(PLN)に課題をもたらします。自然言語処理アルゴリズムの最初のステップは、言語を理解すること、つまり文を意味の小さな単位(トークン)に分解することです。この作業は「トークナイゼーション」と呼ばれます(ちなみに、ブラジルのポルトガル語では外来語を取り入れて「ブラジル化」する傾向があります)。したがって、言語が体系的で秩序立っているほど、トークナイゼーションは容易になります。

PLNの最新の進歩が何を意味するのか理解する前に、PLN理解モデルがどのように作られてきたかを知る必要があります。

過去

ポルトガル語(または他の言語)のチャットボットがどのように作られるかを理解するには、少し歴史を振り返る必要があります。

言語の予測不可能性に対処するための最初の研究は1940年代に遡り、マサチューセッツ工科大学の神経解剖学者・精神科医ウォーレン・マカロックとイリノイ大学の数学者ウォルター・ピッツの論文に見ることができます。彼らは、ジョン・フォン・ノイマンが1940年代後半に「The General and Logical Theory of Automata」を執筆するための理論的基盤を築きました。 コンピューターの処理能力が向上したことも、PLN研究を科学研究所から企業や政府機関の実用研究へと広げるもう一つの柱となりました。

PLNの歴史が本格的に始まったのは1950年代で、アラン・チューリングが「Computing Machinery and Intelligence」を発表し、現在「チューリングテスト」と呼ばれる知能の基準を提案しました。

1980年代後半以降、機械学習アルゴリズムの導入によりPLNは大きく進化しました。これは、計算能力の向上と、言語学の「チョムスキー理論」の影響が徐々に弱まったことが要因です。チョムスキー理論は、機械学習的な言語コーパスの利用を妨げていました。自動化は、文を小さなブロックに分割し、統計的なルールでそれらの関係を分類・特定することで実現されました。このプロセスが先述の「トークナイゼーション」です。

しかし、言語のトークナイゼーションにはPLN研究者による多くの手作業が必要でした。各言語ごとに独立して、ほぼ手作業でトークナイゼーションを行う必要がありました。

特に文脈依存性の高い言語を扱う場合、この作業は非常に困難でした。

言語のトークナイゼーションが完了すると、AIアルゴリズムを使って言語を理解し、単語同士の意味的な関係をマッピングできます。

この言語理解のステップは、トークナイゼーションが信頼できれば自動化できます。しかし、トークナイゼーション自体が複雑だったため、理解アルゴリズムもトークナイゼーションと同様に手動で設定する必要がありました。

その結果、ポルトガル語の理解度は英語と比べて中程度にとどまりました。英語の研究に比べてポルトガル語への注力が少なかったこともありますが、ポルトガル語の文脈処理の難しさが良い結果を得る妨げとなっていました。

AI研究者たちは、トークナイゼーション自体も機械学習で自動化できないかと考えました。これにより、トークナイゼーションと理解アルゴリズムが言語に依存しない(言語アグノスティック)ものとなり、AIのトレーニングがより迅速かつ高精度になると期待されました。

人工知能の最近の進歩

そして2018年末、このイノベーションが実現しました。AIは手作業なしでポルトガル語でトレーニングできるようになり、PLNの性能が大幅に向上しました。

ポルトガル語チャットボット向けAIプラットフォームは、瞬時に大きく進化し、ポルトガル語での理解度も他言語と同等レベルに達しました。

ただし、この進歩があったからといって、ポルトガル語チャットボット全体の品質がすぐに向上したわけではありません。顧客がその恩恵を受けるには、AIを活用するチャットボットプラットフォームが最新技術を取り入れる必要がありました。

従来技術への投資もあり、これを迅速に実施できたプラットフォームは多くありませんでした。

さらに、ポルトガル語チャットボットがユーザーに良い体験を提供するためには、いくつかの機能が必要です。例えば、同義語のグループ化や異なる文脈での使い分けなど、意味のマッピングを行い、チャットボットが文脈に合わない意味で単語を解釈しないようにすることが挙げられます。

多言語対応プラットフォーム

市場にある様々なプラットフォームで複数言語を扱うのは難しい場合があります。いくつかのプラットフォームでは、異なる言語のチャットボットを別々のボットとして作成する必要があり、これはスケーラビリティや保守の観点から非効率的です。

そのため、優れたプラットフォームは真の多言語対応であり、ユーザーインターフェース上で同じコンテンツの複数翻訳を許可する必要があります。

また、言語は会話の変数として設定できる必要があり、AIが会話から正確に言語を検出し、会話設計者がその言語に合わせてロジックを設計できるようにする必要があります。

言語固有の機能に加えて、どの言語でも優れたチャットボットを作るには、チャットボットプラットフォーム自体の全体的な機能性が重要です。重要な機能は2つのカテゴリに分けられます。

  • 1つ目は、自然言語理解技術(前述のPLNアルゴリズム)です。高性能なプラットフォームは言語に依存せず、最新技術を活用したPLNアルゴリズムを備え、全体的に優れた動作をします。PLNに関連する機能、例えば「スロット」への情報抽出や、会話の文脈に基づくインテントマッチングなどが備わっていることが重要です。
  • 2つ目は、プラットフォーム全体の機能性です。設計者が最終ユーザーにとって非常に満足度の高いチャットボット体験を簡単に作成できること、既存システムや外部サービスとの統合が容易であることが求められます。これらの機能がなかったり、使いにくい場合、ポルトガル語対応かどうかは重要ではありません。

最終的に、ユーザー向けに作成されたチャットボット体験の質は、使用するツールの性能、言語理解からグラフィカル/テキストインターフェースの設計アプローチまで、すべてに直結します。

ポルトガル語で最高のチャットボットを構築する

優れたプラットフォームがあっても、ポルトガル語チャットボットの作成には依然として課題があります。AI分野でのポルトガル語研究は限られており、プロジェクトに適した人材を見つけるのは容易ではありません。

PLNの基礎アルゴリズム自体はすぐに利用できますが、ポルトガル語チャットボットが対応すべき様々なグループ間の言語的違いを理解できる有能なデザイナーを見つけるのは難しい場合があります。特にポルトガル語は文脈に基づく慣用表現が多用されるため、この傾向が顕著です。

そのため、チャットボットプラットフォームは、非技術者でもコンテンツや翻訳を簡単に更新・管理できることが重要です。なぜなら、デザイナーや開発者がポルトガル語の多様な文化的側面をすべて把握しているとは限らないからです。

高品質なポルトガル語チャットボットの精度が向上していることは、この技術の普及が今後数年で加速することを意味します。普及が進めば人材不足の問題も解消され、導入を検討する企業も最適な実践方法を明確に把握できるようになるでしょう。

まとめ

PLN技術の革新は、ポルトガル語チャットボットだけでなく、他のAIアプリケーションにも応用されています。現在、ポルトガル語AIを活用した多様なシステムが登場しており、ニュースやコメントの感情分析、要約やテキスト生成など、従来は人間にしかできなかった作業も可能になっています。一般的に、ポルトガル語チャットボットは、さまざまなAI技術のユーザーインターフェースとしてだけでなく、ウェブサイトやアプリの利用支援、購買や意思決定のアドバイザーとしても活用されています。

もちろん、ポルトガル語PLNの性能は大きく向上しましたが、さらなる改善の余地は常にあります。研究は今も進んでおり、今後も新たな進歩が期待されます。PLNが人間レベルに到達するまで、改善の余地は残るでしょう。

今後のPLNエンジンの課題は、言語を問わず、複数ターンの対話(マルチターンダイアログ)でより良い成果を出すことです。つまり、ユーザーがボットと特定のトピック領域で複数ステップにわたる会話を行えるようにすることです。チャットボットプラットフォームにとっても、マルチターンダイアログの作成をより簡単にすることが次の課題です。

マルチターンダイアログは、AlexaやGoogle Homeのような音声インターフェースに特に重要です。

ここでは機械学習によるトークナイゼーションの進歩とポルトガル語PLNへの影響について述べましたが、関連する話題としてポルトガル語の音声認識(音声からテキストへの変換)があります。ポルトガル語の音声認識は他言語に比べてまだ発展途上ですが、その差は急速に縮まっています。ここで紹介したPLNの進歩が、今後さらにこのギャップを縮めることを期待しています。