SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

SB C&S

④UiPath Communications Mining ~タクソノミー編~

AI
2024.09.05

 

こんにちは、山崎です。

UiPathの製品「UiPath Communications Mining」の基本的な使い方をハンズオン方式でご紹介するシリーズ記事をお届けしています。

この記事はその第4回目です。第1回目では基本的な概念について、第2回目では必要な環境準備について説明しました。また、第3回目ではAIモデルのトレーニング前のデータ準備やCommunications Miningへのセットの仕方を説明しました。

この記事では、モデル トレーニングを開始する前にタクソノミーを構築する方法について、明らかにしていきます。

 


目次

1. タクソノミーとは
2. 今回のケースにおけるタクソノミー定義
3. Communications Miningにタクソノミーをセット
 1-1. ラベルの設定
 1-2. エンティティの設定
  1-2-1. フィールドの種類
  1-2-2. 一般フィールド
4. 最後に


1. タクソノミーとは

さて、それではタクソノミーとは何でしょうか。

タクソノミー(taxonomy)」とは、「分類」を意味する言葉です。元々は生物学で生物を分類するための用語ですが、IT業界では、情報やデータを階層的に整理することを指します。

UiPath Communications Miningにおいては、構造化データとして最終的に取得したいラベルやエンティティを決める事を「タクソノミーを設計する」と表現します。

ラベルは、それぞれのデータ内における意図または概念のことです。
エンティティは、データから抽出する情報を指します。

 

これだけだとわかりにくいので、下の図を用意しました。

cm4_1.png

左図の1番上の「丸くて赤くて美味しい」というデータをみてください。

これに対して、

ラベルは、それぞれのデータ内における意図または概念のこと。
つまり、「丸くて赤くて美味しい」というデータには、「フルーツ>りんご」というラベルがつけられると思います。

エンティティは、データから抽出する情報を指します。
「丸くて赤くて美味しい」というデータからは「赤」という情報を抽出したいです。
これは「色」を指すと思います。

 

このように、AIモデルを実際にトレーニングしていく前に、

  • どのようなラベルを各データに紐づけるのか
  • どのようなエンティティを抽出したいのか

これらを明確にする必要があります。

最終的に構造化データとして出力されるアウトプットがこの「ラベル」や「エンティティ」になるため、分析したいコミュニケーションデータがどのようなものか、自分がCommunications Miningで自動化したい業務のためにどのようなアウトプットが必要か、どのような分析を行いたいかをよく考えながら、タクソノミーの設計を行うことが重要です。

 

2. 今回のケースにおけるタクソノミー定義

タクソノミーとは何なのかを説明した所で、今回のこのハンズオン記事シリーズにおいてはどういったタクソノミーを定義するのかを説明します。

前回1万行くらいのサンプルメールデータをアップロードしましたが、あのデータは、とある会社のUiPathお問い合わせ窓口に集まるメールデータといった内容を意識して作成したものです。

お問い合わせ窓口に日々寄せられる、顧客からのメールの内容を理解して、メールの意図によって種別分けしたり、メールの文面からエンティティを抽出したいです。そこで、定義したラベルとエンティティは下記のようになります。

ラベル(メールの意図)

見積依頼 > Document Understanding
見積依頼 > Communications Mining
見積依頼 > Test Suite
見積依頼 > その他
製品問い合わせ > Document Understanding
製品問い合わせ > Communications Mining
製品問い合わせ > Test Suite
製品問い合わせ > その他
資料請求 > Document Understanding
資料請求 > Communications Mining
資料請求 > Test Suite
資料請求 > 資格試験について
資料請求 > その他
緊急
クレーム

エンティティ(メールの文面から抜き出したい情報)

顧客名
製品名
顧客番号

 

3. Communications Miningにタクソノミーをセット

各データに対し、どのようなラベルやエンティティをCommunications Miningに認識してほしいのかが決まったので、実際に設定していきます。

 

1-1. ラベルの設定

スライド1.PNG

まず、Communications Miningのホームにいくと、3回目の記事で作成した上記のようなデータセットがあると思います。ここの「探索」ボタンをクリックします。

 

スライド2.PNG

次に「設定」タブをクリックします。

 

スライド3.PNG

「タクソノミー」タブをクリック

 

スライド4.PNG

「新しいラベル」ボタン横の▼をクリックすると出てくる、「スプレッドシートからインポート」をクリックします。

 

cm4_6.png

すると、上記のような画面が現れるので、「ここに値を貼り付けます」のフィールドに、2. 今回のケースにおけるタクソノミー定義で定義したラベルを全てコピーして貼り付けます。

 

cm4_7_1.png

すると、このようにラベルを一気に全て貼り付けることができました。1つ1つ入力する必要がないのは便利でいいですね。

 

スライド7.PNG

無事にラベルが入力されたら、「インポート」ボタンをクリックします。

 

cm4_8.png

これでラベルの設定が完了です!

 

1-2. エンティティの設定

 1-2-1. フィールドの種類

スライド10.PNG

次に「フィールドの種類」のタブを選択し、「新しいフィールドの種類」ボタンをクリックします。

 

cm4_20.png

すると、上図のような入力画面が現れます。

「名前」には、2. 今回のケースにおけるタクソノミー定義定義したエンティティを入力します。
※顧客名、製品名、顧客番号
「定義の対象」は、一般フィールドを選んでください。
「データ型」は文字列を選択してください。

最後に「保存」ボタンで完了です。

 

スライド1.PNG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

※先ほどのラベルみたいに一気に設定はできないので、「顧客名、製品名、顧客番号」を、1つ1つ設定していきます。

 

cm4_21.png

これで、フィールド種類の設定が全て完了しました。

 

 1-2-2. 一般フィールド

cm4_22.png

次に、①「一般フィールド」のタブを選択し、②「新しいフィールド」ボタンをクリックします。

 

cm4_23.png

すると、上図のような入力画面が現れます。

「名前」には、先ほど定義したエンティティを再度入力します。
※顧客名、製品名、顧客番号
「一般フィールドの種類」では、先ほど設定した「フィールド種類」を選択します。

最後に「保存」ボタンで完了です。

 

スライド2.PNG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

※これも、「顧客名、製品名、顧客番号」を、1つ1つ設定していきます。

 

cm4_24.png

これで、エンティティの設定も全て完了しました。

 

cm4_12.png

ラベルとエンティティの設定後、30分くらい放っておくと、「トレーニング」のページがこのようになりました。

 

cm3_19.png

上が、タクソノミーを定義する前の「トレーニング」ページの状態です。左上の半円の図に「該当なし」と出ていますね。評価が何もない状態でした。

現在のモデルへの評価は「35」「不良」となっています。

タクソノミーの設定をするだけで、ある程度内部で勝手にトレーニングが進んで、AIモデルがカスタムされ、そこへの評価行われたということになります。

次回から、トレーニングを進めていくと、ここの数値が更に改善されていくことが確認できると思います。

 

4. 最後に

以上が、UiPath Communications Miningのタクソノミー設定でした。

次回の記事では、いよいよAIモデルをトレーニングしていきますので、お楽しみに。

それでは、また、次回の記事でお会いしましょう。

著者紹介

SB C&S株式会社
ICT事業本部 クラウド・ソフトウェア推進本部
先端技術統括部
DXコンサルティング部
山崎 佐代子