SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

SB C&S

NVIDIA NeMo Evaluatorの紹介

AI
2025.11.06

こんにちは。SB C&S の村上です。

 この記事ではNVIDIA社が提供しているNeMo Evaluatorの紹介をします。

LLMの評価について

昨今、非常に多くのAIモデルが各社で開発・公開されており、モデルごとに「多言語に対応している」や「軽量だが高性能」などのおおよその特徴があります。
ただし、同じような特徴を持っているモデル同士や、自身が作成したモデルに対して、「他と比べて優れているのか」、「目標としている精度は出ているのか」、「1つ前のモデルより優秀なのか」などの判断を人力でするのは難しく、特にLLMの場合はその点がより顕著です。

例えば、一般的な「画像分類」や「文字起こし」といったタスクは、入力に対して正解が決まっていることがほとんどです。そのため、これらは入力データと正解データさえ用意してあげれば、機械的に精度の評価を行うことが容易です。

しかし、LLMに関しては汎用的な回答が行われる結果、正解が決まっていないことが多いです。
「こんにちは」という入力に対して、とあるLLMでは「こんにちは」とだけ返す一方、他のLLMでは「こんにちは!今日はどんなご用件でしょうか」と返ってくる場合があります。もちろん、どちらも間違いではありませんが、入力に対しての回答はそれぞれ異なります。

nemo_eval_overview_01.png

このように明確にどちらが正解・不正解というのが固定しづらいため、他のAIと同じような手法での評価がしづらくなっています。
もちろんプロンプトで回答を制御させることで、一部機械的な評価も行うことができますが、LLMにおいては対象とするタスクが非常に多く全部用意するのは中々現実的ではありません。例えば「一般的な知識」「数学問題」「言語能力」などがあげられます。

そこでLLMでは評価するためのベンチマークテストが数多く開発されており、それらを用いることで多種多様なLLMのタスクの評価を行うことができます。
以下にいくつか例を挙げます。これらは全て数多くの問題用プロンプトと正解で構成がされています。

  • MMLU (Measuring Massive Multitask Language Understanding)
    • 57種類のタスクにおける言語理解の評価
  • GSM8K
    • 小学校レベルの算数能力評価
  • HumanEval
    • コード生成能力の評価

また、他のLLMにLLMを評価させるLLM-as-a-Judgeという方法などもあります。

これらを使い分けることでLLMの精度を評価できるようになりますが、実施したいタスクなどに応じて使うものが変わり、どうしてもそれぞれで実行方法が異なってしまいます。

NeMo Evaluatorとは

NeMo Evaluatorは、NVIDIA社が提供するLLMなどの精度を評価するためのソフトウェアです。
このソフトウェアでは、前述したLLM用のベンチマークなどを、各モデルに対してNeMo Evaluatorの統一されたAPIを通じてまとめて実行することが可能です。
また、LLMだけでなく、RAGパイプラインやAIエージェントの評価にも対応している点も特徴です。 

nemo_eval_overview_02.png

NeMo Evaluatorに対しての指示は、直接APIに対してHTTPリクエストを送信するか、アプリケーション組み込み用のPython SDKを用いることで行えます。専用のGUIが元々用意されているわけではないため、よりユーザーフレンドリーにする場合にはアプリケーションの作成が必要です。
一方でAPIとして提供されている性質上、自動化ワークフローなどに取り込みやすく、学習で出来上がったモデルに、そのまま評価を実施するといったことも実現できます。

使い方の流れ

もう少しNeMo Evaluatorをイメージしてもらうため、使い方の流れを簡単に紹介します。

NeMo Evaluatorで評価を実行するためには、大きく3つの工程を行います。

①まず、NeMo Evaluatorに対して評価対象のモデルを登録します。
②そして実行させたいベンチマークの設定をNeMo Evaluatorに作成します。
③登録済みのモデルに対して、作成した設定のベンチマークを実行することで評価を得ることができます。

nemo_eval_overview_03.png

この3つの工程のみで、複数のモデル、複数のベンチマークをNeMo Evaluatorを通じて管理・実行できるようになります。

まとめ

本記事ではNeMo Evaluatorの紹介をしました。
LLMでの精度評価を行う上では、タスクに応じて様々なベンチマークを用いる必要があります。その中でNeMo Evaluatorを用いれば単一のソフトウェアから各ベンチマークを任意のモデルに対して実行できるようになります。

別の記事にてNeMo Evaluatorの展開方法の流れと、実際のベンチマーク実行の紹介も掲載しておりますので、合わせてお読みいただけたらと思います。

NVIDIA NeMo Evaluatorの展開の流れ
NVIDIA NeMo Evaluatorを用いたベンチマーク実行

他のおすすめ記事はこちら

著者紹介

SB C&S株式会社
ICT事業本部 技術本部 技術統括部
第2技術部 1課
村上 正弥 - Seiya.Murakami -

VMware vExpert