2024年11月11日14:10
東芝データは、このほど、東芝の研究開発センターと共同で、レシートに印字された商品名に基づき、総菜や生鮮食品などJAN(Japanese Article Number)コードが設定されていない商品をAIで自動分類する技術を開発した。同技術により、レシートデータに基づいた商品の分類作業を省人化することで、商品開発やマーケティング活動の活性化につなげる。
近年、さまざまなデータの利活用が進む中、スーパーマーケットやドラックストア、コンビニなどのレシートデータを基に購買動向を分析し、商品の開発やマーケティング活動に生かしたいというニーズが増えているそうだ。
総菜や生鮮食品などのように、各店舗内で加工や包装が行われる商品は、その店舗でのみ有効な独自の商品バーコード「インストアコード」が設定されており、国内共通の商品バーコード「JANコード」は設定されていない。JANコードが設定されている商品の場合、特定の分類体系に基づいてJANコードと分類名を紐づけた商品情報を入手すれば、レシート印字名を基にその商品を種類別に分類することが容易だという。しかし、インストアコードに紐づいた商品情報は各店舗で管理されているため入手することが難しく、レシート印字名を基にインストア商品を分類する場合、レシート印字名を一つ一つ目視で確認しながら手作業で分類していく必要があり、分類作業に時間と労力を要する。そのため、インストア商品はレシートデータの利活用を妨げる要因となっている。
東芝データでは、実際の購買ビッグデータに基づく価値ある市場分析を提供するために、クラスタリングや自然言語処理など最新のAI技術を活用する「レシート・インフォマティクス技術」の研究開発を推進している。
東芝データと東芝研究開発センターは、レシート印字名に基づきインストア商品を自動で分類するために、2種類のAI「LightGMAIC(Light Graph-based Multi-Angled Item Categorization)グラフニューラルネットワークモデル」と「レシート分類学習済み大規模言語モデル」を組み合わせた自動分類技術を開発した。
LightGMAICグラフニューラルネットワークモデルは、レシート印字名分析向けに新たに開発したAIだ。レシート印字名とその部分文字列との対応関係と、レシート印字名と分類名の紐づけを表現したグラフ構造を作成し、そのグラフ構造を訓練データとしてグラフニューラルネットワークに学習させる。新規のレシート印字名を入力すると、それに含まれる部分文字列との関係性から適切な分類名を判定する。部分文字列は、東芝データが保有する過去の分類データから、分類名の判定に対する貢献度が高いものを抽出し、レシート印字名と部分文字列の対応には優先度情報を持たせる。
レシート分類学習済み大規模言語モデルは、レシート印字名分類向けに大規模言語モデルを学習させた独自のAIだ。レシート印字名に対して正しい分類名と間違いやすい分類名の組を作成し、その組を訓練データとして大規模言語モデルに学習させる。新規のレシート印字名を入力すると、そのレシート印字名に対し正しい分類を照らし合わせて適切な分類名を判定する。訓練データは、東芝データが保有する過去の分類データを解析し抽出することで、分類名の判定精度を高めた。
東芝グループの電子レシートサービス「スマートレシート」から得られるレシートデータを用いて、同技術の分類精度を検証したところ、インストア商品に手作業で分類名を付与した場合と比較し、同技術を用いる場合は87%以上の正解率で分類することができたという。