AIツールは査読コメントへの回答をどう評価するのか:事例研究

この記事では、査読者のコメントに対する著者の回答が、指摘された懸念事項に適切に対処しているかどうかを評価する上で、4つのAIツール(Perplexity、GPT、Claude、Gemini)を用いた評価結果を紹介します。この評価に使用された基礎資料(抄録、架空の査読者コメント、筆頭著者の回答、およびそれらの回答における問題点に関する専門家による評価を含む)は、こちらの表からご覧いただけます(記事の末尾からもダウンロード可能です)。以下で説明する事例番号は、この表にまとめられたデータに基づいているため、読者の皆様には先にこの表をご確認いただくことをお勧めします。

実験の詳細

各査読者コメントについて、少なくとも3つの問題点を設定し、5つの事例全体で合計15項目を評価対象としました。これらを4つのAIツールで検証したため、合計60件の結果を確認しています。なお、一貫性や回答のばらつきを確認するために実施した繰り返しプロンプトの結果は、この数には含めていません。これらを含めると、確認対象はさらに多くなります。

この実験の主な目的は、回答書の相互チェックにおいて、特に著者の回答における不備、誤解、または不十分な説明を特定する上で、人間の介入が依然として重要であることを実証することです。

エディテージのプレミアム英文校正サービスのオプションである「査読コメント対策&再フォーマット調整」は、著者が提出する改訂稿の最適化を目的としており、著者の回答が査読者のコメントに適切に対応しているか、またそれに対応する変更が論文に適切に反映されているかを体系的に確認します。

この評価では、各AIツールに対し、要約、査読者のコメント、および著者の回答を入力し、著者の回答の適切性を評価するよう指示しました。 

注:各ツールに対し、回答自体を生成するよう依頼したわけではありません。これは、著者自身が回答を作成し、それを確認するエディテージの査読コメント対策サービスの考え方に沿ったものです。改訂には著者の直接的な関与が必要な側面がいくつかあり、査読者の懸念がどのように対処されたかを、人間もAIも推測すべきではありません。例えば、査読者が方法論の選択に疑問を呈した場合、著者は方法論そのものを改訂するか、あるいはその限界を認めることで対応することができます。これらは異なるアプローチであり、明確な情報がないまま一方を推測することは適切ではありません。

AIがうまくできたこと

  • いくつかの事例において、表面的なギャップを正確に特定しました(例:環境上の制約が考慮されていない点を指摘しました)。
  • 著者の回答を明確に要約・言い換える能力を示し、場合によっては読みやすさを向上させました。 
  • 構造化されたフィードバック形式(箇条書き、分類された提案)を提供しました。これは著者が回答を修正する際に役立つ可能性があります。 
  • 批判の深さは限定的であったものの、時折、欠落している要素や不完全な回答を指摘しました。

AIがうまくできなかったこと

AIツール全般で見られた問題は分類し、以下に示しています。各事例には、観察結果の性質を具体的に示すためのスクリーンショットを添付しています。これらの事例は代表的なものであり、すべてを網羅しているわけではありません

1. AIは入力内容に同意する傾向がある

事例1: 

人間の専門家が指摘した問題点にもかかわらず、AIは著者に、無関係な「これはケーススタディではない」という注釈を残すよう勧めました(図1)。また、AIは銀行が知識集約型である理由の説明(これは査読者の懸念事項ではなかった)を支持し、比率の変化を「実質的な変化」と表現した(分母の問題には触れていなかったにもかかわらず)。さらに、この文脈では付加価値をもたらさないにもかかわらず、査読者が引用文献の追加を歓迎するだろうと示唆した。

図1

事例2:

AIは、「自己申告式アンケート」に関する説明について、人間の専門家が、その説明にやや見下したようなトーンがあると指摘したにもかかわらず、明確かつ適切であると評価しました(図2および図3)。また、AIは5つの要素の削除についても支持しましたが、より適切な対応としては、それらを完全に削除するのではなく、背景情報として残しておくべきだったと思われます。

図2
図3

事例3:

AIは、環境上の制約が考慮されていない点を正しく指摘した一方で、財務に関する議論が、提案された手法に特化したものではなく一般論にとどまっているにもかかわらず、「説得力がある」と評価しました(図4)。

図4

事例4:

AIは定義の追加を「実質的な説明」として扱った(図5)が、これでは査読者が指摘した「羅列的な構成」に関する懸念が解消されないことを認識できていませんでした。また、文献の追加を「意義のあるステップ」と表現しましたが、ギャップや先行研究が本研究にどのように役立つかについての考察が全く欠けていました。

図5

ある事例では、AIはさらに踏み込み、実際にはそのような議論(例えば、米中関係の動向や対衛星兵器に関する言及など)が一切行われていないにもかかわらず、地政学的緊張が解決されたと誤って述べました(図6)。

図6

事例5:

AIは、査読者が指摘していたのは選手間のばらつきに関する懸念であったにもかかわらず、選手交代に関する説明を「優れている」と評価しました(図7)。また、AIはウイングフォワードの統計的詳細が追加されていることを認めましたが、結論が依然としてこの結果を反映していないことには言及しませんでした。 

図7

修正後の回答における問題点の残存:

AIは、自身のフィードバックに基づいて回答を書き直すよう求められた場合でも、当初の問題点をそのまま残していました。

  • 事例2:自己申告式アンケートに対する見下したような定義の継続(図8)
  • 事例4:定義を箇条書き形式にすることで、「羅列問題」をさらに悪化させました(図9)
  • 事例4:文献と研究のギャップや貢献を関連付けることが依然として不十分(図10)
  • 事例5:結論から「ウイングフォワード」に関する記述が依然として省略されています(図11)
図8
図9
図10
図11

2. AIは虚偽の情報を生成しがちである

事例1:

AIは根拠なく、行番号(「18行目~23行目」、図12)などの捏造された詳細情報を挿入しました。

図12

また、不正確な制度的・地政学的主張も生み出しました(例えば、ESAとEUの機構を混同したり、地理的な緊張関係を誤って表現したり、各国と黒海を不適切に結びつけたりしています。図13)。こうした追加内容は、単に誤っているだけでなく、内容に一貫性がなく、研究テーマとの関連性も希薄であり、論拠の逸脱を示唆しています。

図13

また、AIは分母の問題に対処する議論が追加されたと主張しましたが(図14)、実際にはそのような実質的な修正は行われていませんでした。その代わりに、運転資本回転率は分母のインフレの影響を受けにくいという根拠のない主張が盛り込まれていました。

図14

事例5:

AIは、提供されていない統計値(d値やF値など。図15)やGPSの仕様(図16)を捏造しました。

図15
図16

3. AIは自己矛盾を起こしやすい

事例1:

AIは矛盾する解釈を示しました。最初は銀行を他の知識集約型企業とは異なる存在として位置づけました(図17)が、その後では単なる代表例として描写しました(図18)。これらの見解は概念的に整合していません。

図17
図18

事例5:

AIがGPS機器の使用に関して一貫性のないガイダンスを生成しました。

  • 2つの事例において、同じデバイスが使用されたと誤って記載していました(図19および20)
  • 別の事例では、この問題を完全に無視するよう提案していました(図21)
  • さらに別の事例では、異なるデバイスの使用を方法論上の強みとして位置づけていました(図22)

これらの矛盾は特に問題があります。なぜなら、AIが生成した提案を検証せずに採用した場合、著者が回答書に不正確な主張を盛り込んでしまう可能性があるからです。

図19
図20
図21
図22

結論

全体として、これらの傾向は、AIツールが構成や表面的な評価を支援することはできるものの、厳格な回答書の評価に必要な深み、文脈判断、一貫性を欠くことが多いため、専門家による人的なレビューが必要であることを浮き彫りにしています。


この記事はエディテージ・インサイト英語版に掲載されていた記事の翻訳です。エディテージ・インサイト ではこの他にも学術研究と学術出版に関する膨大な無料リソースを提供していますのでこちらもぜひご覧ください。

よかったらシェアしてね!

この記事を書いた人

2002年に設立された、カクタス・コミュニケーションズの主力ブランドであるエディテージの目指すところは、世界中の研究者が言語的・地理的な障壁を乗り越え、国際的な学術雑誌から研究成果を発信し、研究者としての目標を達成するための支援です。20年以上にわたり、190か国以上の国から寄せられる研究者の変わり続けるニーズに対応し、研究成果を最大限広く伝えられるよう、あらゆるサポートを提供してきました。
今日、エディテージは専門家によるサービスとAIツールの両方を用いて、研究のあらゆる段階で便利に、安心して使っていただける包括的なソリューションを提供しています。