SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

SB C&S

【第2回データ講義】表記ゆれはAIの大敵!文字列データの扱いと前処理について

    2025.10.30

    綺麗なテキストでAIは大喜び!汚いテキストデータをExcelでキレイにする方法!

    こんにちは!SBC&S株式会社 AI推進室の津川です。
    「AIを導入してみたものの、期待した結果が出ない...」
    AI活用を推進する中で、私たちは社内外でこうした声を非常に多く耳にします。

    高性能なAIを使っているはずなのに、なぜか回答の精度が低い。その根本的な原因を探ると、多くの場合「AIに与えるデータの品質」という課題に行き着きます。
    AIが期待通りの結果を出せない原因の8割は、「データの整備不足」にあると私は考えます。

    AIの回答精度は「元のデータ」で決まる

    特に、社内文書やマニュアルをAIに読み込ませて回答させる「RAG(Retrieval-Augmented Generation)」という技術を使用するケースでは、この傾向が顕著です。

    RAGは、提供された情報をもとにAIが「検索」を行い、関連性の高い情報をピックアップして、初めて「回答」を生成します。

    つまり、参照する元のデータ自体にノイズが混じっていたり、表記がバラバラだったりすると、AIはうまく情報を検索できません。
    どんなに高性能なAIでも、元となるデータが整理されていなければ、その能力を発揮できないのです。

    これは、まさにAIの文脈でよく言われる「ガベージイン・ガベージアウト(ゴミを入れるとゴミしか出てこない)」という原則そのものです。

    しかし「検索がうまくいかず、意図しない情報を拾ってしまう」 「回答の精度が低い」

    こうした課題は、AIにデータを与える前の「前処理」、つまり「データ整備」で解決できるかもしれません。

    使い慣れたExcelで始める「データ整備」4つのステップ

    データ整備と聞くと専門的なツールが必要に思えるかもしれませんが、実は多くの方が使い慣れている「Excel」が非常に役立ちます。
    Excelの強みは、データを視覚的に確認しながら、柔軟かつ強力な機能を使って、AIが理解しやすい「きれいなデータ」に変換できる点です。

    今回は、データの中でも特にテキストデータに焦点を当てて、汚いデータを綺麗なデータに手直しするテクニックをご紹介したいと思います。
    お客様からのお問い合わせデータを想定したダミーデータを例に、具体的な4つのテクニックを説明します。

    【CASE 1】見えないノイズを除去する:TRIM関数 & CLEAN関数

    一見きれいに見えるテキストデータでも、目に見えないノイズが隠れていることがあります。

    • 前後の不要なスペースを削除する「TRIM関数」 セルの先頭や末尾にある不要なスペースを削除し、単語間のスペースが2つ以上ある場合は1つにまとめます。

      • 使用方法: =TRIM(対象セル)

      • 効果: 例)「 製品Aの機能について 」 → 「製品Aの機能について」

    • 印刷できない文字を削除する「CLEAN関数」 システムから出力したデータに含まれがちな、改行コードやタブといった目に見えない「制御文字」を削除します。

      • 使用方法: =CLEAN(対象セル)

      • 効果: 文字化けや意図しない改行が除去され、AIが読みやすいテキストになります。
        例) 「製品Aの\n機能について」→ 「製品Aの機能について」

    このように、ルールベースで対応できるデータのクリーニングには、関数を使うと効率的です。

    【CASE 2】言葉のバラつきを統一する:「検索と置換」機能

    データの中には、「㈱」「(株)」「株式会社」のように、同じ意味でも表記が異なる「表記ゆれ」がよく発生します。

    これを放置すると、AIはこれらをすべて「別の言葉」として認識してしまい、検索や分析の精度が低下します。

    スクリーンショット 2025-10-29 161053.png

    • 「検索と置換」で表記ゆれを一括統一 Excelの「検索と置換」機能(ショートカット:Ctrl + H)を使えば、特定の文字列をまとめて正しい表記に統一できます。

      1. 検索する文字列:「(株)」

      2. 置換後の文字列:「株式会社」

      3. 「すべて置換」をクリック

      この手順を繰り返して「㈱」なども「株式会社」に統一することで、AIがデータを正しく認識できるようになります。

    【CASE 3】不要な記号や広告文言を削除する:ワイルドカードの活用

    実務データでは、例えば商品名データに「【新発売】商品A」や「《セール中》商品B」のように、AIにとってノイズとなる広告用の文言が含まれていることがよくあります。

    こういったものも出来る限り置換機能を使って綺麗にしましょう。上記のケースでは「【xxx】」という表記で全て書かれている場合、この記号を対象にしてワイルドカードで一括削除することができます。

    スクリーンショット 2025-10-29 161735.png

    • ワイルドカード「*」で不要な部分を一括削除 「検索と置換」機能では、「*(アスタリスク)」というワイルドカード(任意の文字列を意味する)が使えます。これを利用して、記号で囲まれた部分をまとめて削除できます。

      1. 検索する文字列:「【*】」

      2. 置換後の文字列:(何も入力しない)

      3. 「すべて置換」をクリック

      これで、「【新発売】」や「【限定品】」といった表記がまとめて削除され、純粋な商品名だけを残すことができます。

    【STEP 4】複雑な誤字はAIにお任せ:LLM(ChatGPT)の活用

    手作業やExcelの基本機能だけでは修正が難しい、複雑な誤字・脱字もあります。
    例えば、アンケートの自由記述にある「発送も早くて助かりまた。」のような入力ミスです。

    このようなケースでは、データ整備にAI(LLM)を活用するのが非常に効果的です。

    1. 修正したいコメントが入力された列をコピーします。

    2. ChatGPTなどのチャット欄にデータを貼り付けます。

    3. 末尾に「こちらのデータの記入ミスや不備を直してください」といった指示(プロンプト)を入力します。

    すると、LLMが文脈を理解し、「助かりますた」を「助かりました」に修正するなど、自然な文章に校正したデータを返してくれます。

    まとめ:AIの真価は「良質なデータ」から

    AIがその真価を発揮するためには、土台となる「良質なデータ」が不可欠です。

    1. スペースや特殊文字TRIM 関数や CLEAN 関数で除去する。

    2. **言葉のブレ(表記ゆれ)**は「置換」機能で統一する。

    3. 不要な文字列は「ワイルドカード」をうまく使って削除する。

    4. 複雑な修正はLLM(AI)も活用する。

    これらのExcelテクニックとAIを組み合わせることで、効率的かつ正確なデータクリーニングが実現できます。
    AIの精度に課題を感じている方は、ぜひ今日から実践してみてください。

    今回の動画で詳しく解説しておりますので、ぜひ動画の方もご視聴頂けますと幸いです!


    👉 あなたの現場のExcelはAIに優しいデータになっていますか?
    今後も「AIが喜ぶデータ活用術」を発信していきますので、ぜひチェックしてみてください。