SAI-SHIKIの独自技術について

弊社では自然言語処理を専門としたAI受託開発をご提供してございます。
本稿ではその中で各企業様からビジネスパートナーとして弊社が選ばれてきた理由を以下に記載いたします。


専門性の高い領域に強い

法律や医療などの専門性の高い領域に基盤モデルを応用する場合、未知語への対応が大きな課題になります。
できるだけ賢いAIを例えば1,000万円以下で構築するためには公開されている事前学習モデル(基盤モデル)を活用する必要が出てきますが、これらの基盤モデルを活用すると未知語への対応が弱くなってしまう問題が生じてございます。

未知語対応はなぜ必要?

まずどのような単語が未知語になる可能性が高いのか具体例を見てみましょう。

1つ目の例では”疼痛”という単語が、また2つ目の例では”謄本”という単語が未知語として処理されてしまいました。
応用先にもよりますが、疼痛という表現は医療の文脈では症状を表しているため適切に扱いたいですし、謄本についても法律や市町村のチャットボットなど文脈では適切に扱えることが求められます。
一方で、既存の日本語の基盤モデルではwikipediaを学習データとしていることが多いため、上記のような専門性の高い用語は網羅できておりません。

未知語対応にはどれだけのコストがかかる?

弊社の独自技術を活用しない場合、基盤モデル自体を作成する必要がございます。
(正確にはトークナイザの辞書にあらゆる単語(形態素)が保持されるようにする必要がありますが、その後にそのトークナイザを用いて基盤モデルの学習は行われます)

既存手法である基盤モデルの構築を行うとどれだけのコストがかかるのでしょうか?
例えばrinna株式会社がGPT2-mediumを作成した際には以下のような報告があります。

学習データとして、日本語CC-100(http://data.statmt.org/cc-100/)と日本語Wikipediaの計75ギガバイトのオープンソースデータを使用しています。 8つのNVIDIA Tesla V100 GPUを用いて、75ギガバイトの日本語テキストを、最大45日間かけ学習しました。

https://rinna.co.jp/news/2021/08/20210825.html

また、AWSでNVIDIA Tesla V100 GPUの料金を確認すると次の料金体系になっています。

モデル学習にはメモリ要件もあるためp3.8xlargeのオンデマンド価格から学習にかかるコストを計算すると以下のようになります。
12.24USD/時間 * 8(台) * 24(時間) * 45(日) * 130(ドル円為替) = 13747968 つまり約1,400万円となります。
また、上記コストに、学習させるためのデータ整備費や人件費などを考慮するとゆうに1,500万円は越してくる試算となります。

一方で、弊社の未知語対応の独自技術を活用すると、公開されている日本語の基盤モデルをベースにAIを構築するだけですので、初回PoCの150万円~の予算に収めることが可能となります。
上記の計算から、弊社技術を活用すると1/10以下のコストでPoCの段階から未知語対応を行えることがわかります。
これによってコストが安いだけではなく、PoCの段階で巨額な投資の意思決定が必要なくなるため、AI活用への事業化の道が断たれにくくなるメリットがございます。


効率的な教師データ作成

AI構築には教師データを作成する必要がありますが、現実的には人手作業によるミスが発生します。弊社では作成ミスの可能性を検知するシステムがあるため教師データの品質が高いだけでなく、人手による2重チェックの必要がないため省コストでプロジェクトを開始できます。

特に予測したい項目にクラス分類だけでなく水準がある場合、教師データ作成時に完全なコンセンサスが得られないことが多々あります(例:文章「38.6℃の発熱」について患者の緊急度1~5のどれか?等)。
弊社で取り組んでいる対策として、特に複数名で教師データの作成を行い、そのデータを作成ミスの自動検知システムに取り入れることでより妥当なコンセンサスの得られる水準を示します。
このような仕組みによって、教師データの作成ミスへの対応だけでなく水準の管理まで対応することができるようになっております。

またプロジェクト毎に専門のAIエンジニアが責任を持って教師データを観測するため、”クラウドソーシングサービスで安価に大量に発注したら品質の悪いデータばかり納品されてしまった”というような自体が生じないように体制化されています。

上記のようにSAI-SHIKIでは人だけでなくシステムも取り入れることで教師データの作成を高品質に行っており、それゆえ精度の高いAI開発が行えるようになっております。


日本語に特化したデータ拡張技術

開発するAIの精度をより向上させるための技術としてデータ拡張がございます。
弊社では日本語の形態に特化した独自のデータ拡張技術を準備してございますので、より高い精度を持つAI構築を実現いただけます。

データ拡張の技術は自然言語処理のみならず、画像認識や音声認識といったあらゆる領域で活用されております。
データ拡張を行うことで、構築するAIの過学習(丸暗記によるチーティング)を排除しやすくなることが期待されます。
例えば画像認識では画像のローテーションやノイズ付与などの操作がどのようなデータにも適応できますが、自然言語処理では言語による壁がございます。
それゆえ自然言語処理で整えられた技法は英語圏に限定したものも数多く、日本語のデータに適応するためには独自のアルゴリズムを準備する必要がございます。

SAI-SHIKIでは自然言語処理を専門としているため、上記のノウハウが既に数多くございます。


さいごに

本記事では自然言語処理を専門とするSAI-SHIKIが、どのように課題を解決したい皆様に貢献できるのか記載いたしました。
“サイシキのご紹介”資料ではより具体的な取り組みと実績についても記載がございます。
資料請求は以下のリンクから行っていただけますので、ご検討いただければ幸いです。

安心して課題解決を任せたいというご要望がございましたら是非弊社にお任せいただければ幸いです。