SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

データ活用を加速させる製品解説「Paxata」

データ活用
    2020.09.18

    はじめに

    みなさん、こんにちは。SB C&Sの加藤です。 私たちのチームでは、海外で新しく立ち上がったスタートアップ企業や国内にこれから入ってくる企業の国内展開の支援をミッションとして活動しています
    本記事ではデータ活用を加速させる製品をシリーズでお伝えしていこうといます。
    今回は「Paxata」をご紹介いたします。

    課題

    今回は、予測モデルそのものを作っていく製品ではなく、その前や後に行われるデータ準備 (Data Preparation)を効率化する点に注目していきます。
    予測モデルの中から最適なものを探していくのは、気の遠くなる作業ですが、ポイントを絞るためにあえてこれを料理を作る過程に例えてみました。

    Paxata1.png
    (図1.AI開発の流れ)
    データ(食材)を使い、美味しい料理を作って人を喜ばせることを目的とすると、AIと言われているのは、主にレシピを作っていくことです。より美味しい料理を作るために、レシピの中で使う食材の種類や大きさ、キッチンを利用した火の入れ方、切り方などのパラメータを継続的に調整していく作業が必要となります。

    こういった過程の中で課題の一つとなるのは、データ準備に多くの時間がかかるという点です。料理に例えると、準備した食材の皮を剥いたり、輪切りにしたり、塩もみをしたりといった本格的にキッチンを利用する前に行う下処理に時間がかかる事に相当します。
    今回ご紹介する「Paxata」はこのデータ準備(食材の下処理)を自動化し、他者へ共有するためのプラットフォームを提供しますので、今回はこのデータ準備にフォーカスしてお話しをしていきたいと思います。

    Paxata (パクサタ)

    Paxata社は、2012年にカリフォルニア州のレッドウッドシティで立ち上げられたデータ準備(Data Preparation)プラットフォームを提供する企業で、現在はDataRobot社傘下となっています。レッドウッドシティは、縦長のシリコンバレーの中腹に位置しており、SoftBankの北米拠点の一つもここにあります。
    Paxataの製品は、オンプレ/クラウドどちらでもデプロイ出来ます。また、利用イメージをざっくり説明すると、以下のようなUIとなっています。
    Paxata2.png
    (図2.PaxataのGUI)

    クライアントPC側でのデータ編集処理は、計算リソースが限られているのでそこまで多くの事が出来ませんが、Paxataは、サーバ側で動作しているHadoopのラッパーのような動きをしますので、数億レコードを超えるデータがあったとしても、非常に高速にデータの加工や表示ができます。

    次に、いくつかユースケースを挙げてみたいと思います。

    例えば、IoTセンサーから時系列の大量のデータが収集できているとしましょう。よくある事だと思いますが、現地でデータが取れてなかったりすると一部データの欠損が生まれます。数億レコードの中から、欠損して空白になったこの部分を埋めていく・削除していくには一般的にはプログラミングにより処理を自動化します。しかし、Paxataは、自動で削除したり、前後の値から線形補間(外部関数呼び出し)したり、プログラミングなしで直感的に操作して加工出来ます。また、その操作をワークフローとして記録する事で、他者へ共有可能になり、データ準備プロセスにかかる時間を大幅に削減します。

    使い方は、センサーに限ったものではなく、より汎用的な使い方も出来ます。
    流通・小売のデータを例に挙げると、以下のような流れも可能です。

    ・アンケートの集計 (自動的な名寄せ、大文字小文字変換)
    ・店舗売上パイプラインの集計 (複数データの結合)
    ・経理部門の入金チェック (複数のデータ照合、差分抽出)
    ・管理会計のPLの予算集計 (縦横変換、バージョン管理)

    Paxata3.png
    (図3.データ活用の流れ)

    導入効果

    見ていただいた通り、テキストであれば良いので、業界や仕事の内容を問わず、様々なシーンで利用ができる製品であることがわかります。
    実際には多くの業務効率化に貢献していますが、一部の公開されているユーザ事例から、Paxataを導入することによって得られる効果をご紹介します

    ・POSの集計が7倍早くなり、より迅速な経営判断に活用
    ・臨床試験データを8倍早く準備してがん研究に活用
    ・保険の過払検出のためのデータ準備が3倍早くなり、プロファイリングの時間効率が上がる
    ・顧客の監査と調整にかかる業務負荷を30%削減
    ECサイトに掲載されている商品のSKUの更新作業が24倍早くなる

    おわりに

    いかがでしたでしょうか?AIは華々しいイメージがありますが、実際にはこういった地味なデータ準備に非常に多くの時間を費やしています。

    また、データ管理という観点では、データをどう迅速な経営判断に活かしていくかが企業活動の中では最重要課題ですので、全部とは言いませんが、できる部分はPaxataのような自動化プラットフォームに任せてみてはいかがでしょうか。

    皆様の業務に活用できそうな部分は少しでもあれば幸いです。ご興味がある方はお問い合わせ下さい!

    他のおすすめの記事はこちら

    著者紹介

    SB C&S株式会社
    テクニカルマーケティングセンター

    加藤 学

    エンタープライズ領域での開発から運用監視までの幅広い業務経験を活かし、事業開発やマーケティングチームと一緒になってビジネスの立ち上げを行っている。日本とアメリカ、特にシリコンバレーへ滞在し、新規プロダクトの発掘調査や国内外の新規パートナーリクルーティング、技術戦略、ポートフォリオの策定など、技術をバックグラウンドにしたさまざまな活動を行っている。最近では、DevOpsを始めとした開発者向けビジネスの立ち上げを行い、プロジェクトの責任者として慌ただしい日々を送っている。