④UiPath Communications Mining ～タクソノミー編～｜技術ブログ

RPA
UiPath

2024.09.05

こんにちは、山崎です。

UiPathの製品「UiPath Communications Mining」の基本的な使い方をハンズオン方式でご紹介するシリーズ記事をお届けしています。

この記事はその第4回目です。第1回目では基本的な概念について、第2回目では必要な環境準備について説明しました。また、第3回目ではAIモデルのトレーニング前のデータ準備やCommunications Miningへのセットの仕方を説明しました。

この記事では、モデルトレーニングを開始する前にタクソノミーを構築する方法について、明らかにしていきます。

1. タクソノミーとは

さて、それではタクソノミーとは何でしょうか。

「タクソノミー（taxonomy）」とは、「分類」を意味する言葉です。元々は生物学で生物を分類するための用語ですが、IT業界では、情報やデータを階層的に整理することを指します。

UiPath Communications Miningにおいては、構造化データとして最終的に取得したいラベルやフィールドを決める事を「タクソノミーを設計する」と表現します。

ラベルは、それぞれのデータ内における意図または概念のことです。
フィールドは、データから抽出する情報を指します。

これだけだとわかりにくいので、下の図を用意しました。

内容差し込み用 - コピー.png

左図の1番上の「丸くて赤くて美味しい」というデータをみてください。

これに対して、

ラベルは、それぞれのデータ内における意図または概念のこと。
つまり、「丸くて赤くて美味しい」というデータには、「フルーツ＞りんご」というラベルがつけられると思います。

フィールドは、データから抽出する情報を指します。
「丸くて赤くて美味しい」というデータからは「赤」という情報を抽出したいです。
これは「色」を指すと思います。

このように、AIモデルを実際にトレーニングしていく前に、

どのようなラベルを各データに紐づけるのか
どのようなフィールドを抽出したいのか

これらを明確にする必要があります。

最終的に構造化データとして出力されるアウトプットがこの「ラベル」や「フィールド」になるため、分析したいコミュニケーションデータがどのようなものか、自分がCommunications Miningで自動化したい業務のためにどのようなアウトプットが必要か、どのような分析を行いたいかをよく考えながら、タクソノミーの設計を行うことが重要です。

2. 今回のケースにおけるタクソノミー定義

タクソノミーとは何なのかを説明した所で、今回のこのハンズオン記事シリーズにおいてはどういったタクソノミーを定義するのかを説明します。

前回１万行くらいのサンプルメールデータをアップロードしましたが、あのデータは、とある会社のUiPathお問い合わせ窓口に集まるメールデータといった内容を意識して作成したものです。

お問い合わせ窓口に日々寄せられる、顧客からのメールの内容を理解して、メールの意図によって種別分けしたり、メールの文面からフィールドを抽出したいです。そこで、定義したラベルとフィールドは下記のようになります。

ラベル（メールの意図）

見積依頼 > Document Understanding
見積依頼 > Communications Mining
見積依頼 > Test Suite
見積依頼 > その他
製品問い合わせ > Document Understanding
製品問い合わせ > Communications Mining
製品問い合わせ > Test Suite
製品問い合わせ > その他
資料請求 > Document Understanding
資料請求 > Communications Mining
資料請求 > Test Suite
資料請求 > 資格試験について
資料請求 > その他
緊急
クレーム