BlindX技術研究における開発者インタビュー

AXテックケア株式会社 取締役 鈴置雅一

Masakazu Suzuoki, AXTech.Care Inc.

自分を振り返ってみると、文章を書くのが原稿用紙から PC に移って久しくなって、鉛筆の時代より文章が下手になったと感じています。
これは日本語変換が原因のひとつではないかと思っています。
もちろん、プロのライターの方は筆を選ばずですが、普通の人は、文を書く途中で、半角全角を気にしたり、変換候補から選んだり、思わず間違えて確定した挙句打ち直す羽目になったり・・・といった動作が割り込むたびに、本来の思考が中断されてしまい、結果流れが途切れた読みにくい文章になってしまいます。だいたい、脳から見れば、「書く」という純粋なアウトプット処理の途中に「変換候補を見て反応する」といった入力処理が、細かい頻度で割り込んでくることになります。これは脳には結構なストレスなはずです。その細かいストレスが積み重なってくるとちゃんと文を書くのが億劫になります。それに対する人々の回答が、SNS やテキストチャットへ移行する、という流れはあると思います。しかし、表面的な内容以上のものを伝えるには、やはり140字では余白が狭すぎます。
このように不完全な日本語入力はコミュニケーション性や生産性を落とすだけでなく、人々がより能動的にコンピュータと関わることから遠ざけさせる遠因になっているとすると、しかもこれが日本語圏だけのバリアになっているのだとすると、なんとかならないものかと思います。
そうしてこのプロジェクトが始まりました。

東京理科大学 松澤研究室 松澤智史 准教授

Tomofumi Matsuzawa, Matsuzawa Laboratory, Tokyo University of Science

従来のかな漢字変換は、ユーザの入力から変換結果出力まで特定の団体が開発するオールインワンのモデルでした。
BlindXは、AIによる精度の高いかな漢字変換として研究開発しておりますが、もう一つの注目点として、”日本語かな漢字変換モデルにおける機能の細分化”が挙げられます。BlindXでは、多様の入力モジュールを許容します。音声でもキーボードでもジェスチャ等でも良く、平仮名文さえ作成できれば入力の形態に制限はありません。
極端なケースですが、音声とキーボードを同時に使う入力でも問題ありません。
入力モジュールは入力形態によって独特の誤り方が存在するため、その次の第2モジュールでは、その入力の誤り訂正や補正をかけます。音声であればフィラーの削除、キーボードであればtypoのミスなどを修正します。これにより入力形態の違いを吸収しつつ、ある程度正しい平仮名文が生成されます。
次のモジュールでは、その平仮名文を入力し、一般的な漢字変換を行った文を生成します。このモジュールをCoreと呼びます。Coreのモジュールは得意なドメイン(例えば医学分野、口語表現、公的文書)ごとに複数の種類があり、必要に応じて切り替えることができます。ある程度の長さの文の方がCoreの変換精度が上がることも多いため、ここにCoreでの変換タイミングを管理するモジュールを置くこともできます。
従来のキーボード入力ではユーザに変換キー入力を求めており、同様の方法で変換タイミングを管理することも可能ですが、BlindXでは多様の入力形態を想定しているため、変換タイミングもシステム側で自動管理することを想定しています。
Coreモジュールによって漢字変換を行った文に対して、次のモジュールではユーザ個人用の修正・変換を行います。人名などの固有名詞やカタカナやアルファベットによる表現の違いなど、ユーザが望む変換結果に修正することができます。
また、このモジュールでは必要に応じて文書校正の機能を持たすことも可能です。このように入力から文章が生成されるまでの機能が細分化されているため、今後特定のモジュールで上位互換の手法が誕生しても他の機能に影響を与えずそのモジュールだけアップデートする、異なる用途に適用するために一部のモジュールを特化型に交換する、など最小限の取り換え(すべてを作り直すことなく)で変化・進化することが可能です。BlindXは、異なる個人や団体がそれぞれの強みを生かして共創する日本語かな漢字変換システムを目指しており、当研究室はその枠組みの設計や高精度なCoreモデルの開発に日々従事しています。

東京理科大学 松澤研究室 田中慎太郎

Shintaro Tanaka, Matsuzawa Laboratory, Tokyo University of Science

私は本プロジェクトのはじめから参加し、主に言語モデルの開発を担当しています。
参加当初、私はまだ自然言語処理を学び始めたばかりでした。言語モデル構築を経験しつつ、大規模なシステムづくりに携わりたいという思いで本プロジェクトに入り、それからCoreモデルの精度向上のために日々試行錯誤を重ねています。
近年、大規模言語モデル(LLM)の研究が進み、ChatGPTをはじめとして広く一般にも「入力の内容を理解し、自然な文章を生成する」AIが普及しています。こうした能力をかな漢字変換に活かし、文脈に即した自然な自動変換を実現しよう、というのが本プロジェクトの当初からの発想です。加えて、BlindXというシステムが特徴的なのは、かな漢字変換を担う「Coreモデル」を基軸にして、その前後に様々な機能拡張を付け加えることで、柔軟な構成が可能であるということです。入力ミスの修正、様々な入力方式への対応、変換の個人化などもこうした形で実装したうえで、ユーザが自由に構成を変更でき、個人に最適化した変換を提供するようなしくみを検討しています。
LLMは高精度なかな漢字変換を実現してくれますが、他方でLLMをシステムに組み込むことは簡単なことではなく、難しい課題にいくつも直面します。LLMは従来手法の「上位互換」ではありません。どれだけ精度を上げたとしても、ありとあらゆる入力に対応することは現実的に難しく、入力に対して忠実に変換される保証もありません。ユーザによる変換の修正や、再変換への対応など、日本語入力システムとして必要な機能をきちんと満たす必要がありますし、処理時間や計算リソース、プライバシーなど、システムの運用上の課題も多く存在します。
いかに「実用的なシステム」としてLLMを用いるのか。いかにして「利用される」システムにしていくか。これは単にUIや通信だけの問題ではありません。だからこそ、モデル開発の立場からもシステムの設計について検討し、各機能の実装方法を提案しています。
BlindXは、まだまだ開発途中の段階です。これからやるべきこと、解決しなければならない課題がたくさんあります。新しい技術を活かしながら、「便利で使いやすい」システムを目指して、これからも開発を続けてまいります。