Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを用いた その場での要約に基づく レビュー探索インタフェース

大規模言語モデルを用いた その場での要約に基づく レビュー探索インタフェース

More Decks by 兵庫県立大学 山本研究室

Other Decks in Research

Transcript

  1. 背景と問題点 6 最初から見直す • 知りたいことが書かれた レビューを探すには分量多 レビューの選択と 要約が必要 キーワード 検索を行う

    • 類義語を用いたレビューの 表示無 • キーワードとして適切な 単語がない場合有 類義語や類似文の検索 機能が必要
  2. 研究の目的 7 最初から見直す • 知りたいことが書かれた レビューを探すには分量が 多い レビューの選択と 要約が必要 キーワード

    検索を行う • 類義語を用いたレビューが 表示されない • キーワードとして適切な 単語がない場合有 類義語や類似文の検索 機能が必要 ユーザが気になる観点の他のレビュー文を 要約して取得するシステム
  3. システムの概要(内部処理) #説明文 以下で入力された文章を、出力形式に従って 10 文字程度で要約してください。 #入力 風量はいいけどcoolの風量もうちょいほしい かな。 #入力例 ただ冷風が弱いのが少し残念。

    #出力例 冷風が弱い #出力形式 10 文字程度の要約結果 21 ただ冷風が弱いのが 少し残念。 冷 風 が 弱 い クエリの元となった レビュー文 プロンプト 出力 風量はいいけどcoolの 風量もうちょいほしい かな。 要約対象のレビュー文 クエリ
  4. ユーザ実験 23 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性

    4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 目的:比較手法と比べて、7つの評価項目において差が 生じるのかを把握する
  5. ユーザ実験 実験参加者 • 兵庫県立大学社会情報科学部、兵庫県立大学大学院情報 科学研究科の学生8名(男性4名、女性4名) • 期間:2024年1月9日~2024年2月15日 24 比較手法(キーワード検索) クエリと完全に一致する

    レビューを表示 レビューを要約せずに表示 提案手法 クエリと類似するレビューを 表示 レビューを要約して表示 目的:比較手法と比べて、7つの評価項目において差が 生じるのかを把握する
  6. ユーザ実験 実験手順 26 検索タスク2 検索タスク1 被験者 提案手法/商品2 比較手法/商品1 1, 5

    提案手法/商品1 比較手法/商品2 2, 6 比較手法/商品2 提案手法/商品1 3, 7 比較手法/商品1 提案手法/商品2 4, 8 訓練タスク 検索タスク1 アンケート 検索タスク2 アンケート インタビュー • 訓練タスク:トースターのレビューを 検索するタスク • 検索タスク:ドライヤーのレビューを 検索するタスク • 制限時間は各10分 あなたは母親に誕生日プ レゼントとしてドライ ヤーをプレゼントするこ とにしました。値段など を考慮して、2つの商品 に絞りました。それぞれ の商品についてレビュー を読み、どのような観点 でどのような評価がされ ているのか調べて下さい。 シナリオ
  7. アンケート 27 質問(5段階評価) 評価項目 レビューに含まれる意見を簡単に確認できたと 思う。 要約の見やすさ 1 自分の調べたいことを調べることができたと 思う。

    ユーザの興味に対する網羅性 2 様々な観点で調べることができたと思う。 観点の網羅性 3 同じ観点の中で漏れなく意見を調べることが できたと思う。 意見の網羅性 4 結果の表示方法が分かりやすかったと思う。 結果の見やすさ 5 システムの使用は簡単だったと思う。 システムの使用難易度 6 システムの機能に満足している。 全体的な満足度 7
  8. 6以外の項目において提案手法が比較手法を上回っている 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4

    結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 29 比較手法 提案手法 平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40
  9. ウェルチのt検定を行い、結果の見やすさについては 5%水準で有意差が認められた 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性

    4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 30 比較手法 提案手法 平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40
  10. 結果 クエリ発行数(回) クエリセッション(秒) 40 8 7 6 5 4 3

    2 1 参加者 54.38 33.08 63.38 48.25 43.54 21.2 33.29 56.62 比較手法 72.71 76.12 47.45 44.78 105.8 43.42 29.35 79.86 提案手法 8 7 6 5 4 3 2 1 参加者 9 13 9 13 14 26 18 9 比較手法 8 9 12 10 6 13 21 8 提案手法
  11. 検索精度の評価 目的:提案手法において、人手でふさわしいとされるレビューが どの程度検索結果に表示されるのかを調べる 43 使用するクエリ • 予備実験と本実験で 商品1のレビューを 検索するときに用い られたクエリ10件

    フレーズ(それ以外) 単語(名詞1つ) 使いやすかった 風量 音があまり気にならない カラー こげたような匂い プレゼント 軽くていい 故障 冷風にすると風量が弱くなってしまう 温度
  12. 検索精度の評価 44 • 商品1のレビュー200件を用いて、10個のクエリとの適合 性判定を人手(筆者1人)で行い、比較手法および提案手法 の結果と比較 • 「使いやすかった」の場合 提案手法 比較手法

    人手 レビュー 〇 〇 〇 肌ざわりが良くて(シリコンぽい)使いや すかったです。 軽くていいけど、風量はそんなにです。 熱いので、風邪で乾かすより熱で乾かす 感じです。 〇 〇 軽くて使いやすい。最大にしても音が あまり気にならないので良いです。
  13. 結果 • 単語だと比較手法の 値が高く、フレーズだと提案手法の 値が高い 45 値 再現率 適合率 単語(名詞1つ)

    0.56 0.42 0.94 比較手法 0.27 0.20 0.60 提案手法 値 再現率 適合率 フレーズ(それ以外) 0.11 0.06 1.00 比較手法 0.61 0.60 0.72 提案手法
  14. まとめ • 工夫点:ChatGPTを用いて要約→データ少で要約可能 • ユーザ実験の結果、結果の見やすさという評価項目で提案 手法の方が優位 • クエリの発行数、クエリセッションは実行時間や検索結果の 件数が影響 •

    検索精度は、提案手法だと単語の場合に低くなる • ベクトル化を行う手法やプロンプトの調整などが必要 50 ユーザが気になる観点の他のレビュー文を 要約して取得するシステム