AIは査読コメントへの回答作成にどこまで使えるのか?

Can AI Handle Peer Review Responses

AIツールは便利な近道に見えるが…

査読者からのコメントには分かりやすいものもあれば、そうでないものもあります。回答文(レスポンスレター)のドラフトを作成しても、すべての点について明確に対応できているか、トーンは適切か、何か見落としていることはないかなど、不安が残ります。

この段階で、査読者のコメントと自分の回答を貼り付けて、AI生成ツールに推敲や検証を依頼することがますます一般的になっています。出力される文章は多くの場合、洗練され、構成も整っており、安心感を与えてくれます。しかし、その安心感はどれほど信頼できるものでしょうか? これを検証するため、私たちは構造化テストを実施し、AIツールが査読コメントへの回答の適切さをどの程度正確に評価できるかを検証しました。

検証内容

広く利用されている4つのAIツール(Perplexity、GPT、Claude、Gemini)を対象に、著者の回答が査読者コメントに適切に対応できているかを評価する能力を検証しました。

私たちは、要約、査読者のコメント、著者の回答からなる代表的な5つのケースを作成しました。各ケースには、査読者が指摘した少なくとも3つの異なる問題が含まれており、データセット全体で15の評価ポイントが得られました。4つのツール全体で、これは60件の観察データに相当します(一貫性と変化を評価するために使用された重複するプロンプトは除く)。

要約と査読者のコメントに基づいて、著者の回答が適切かどうかを評価するよう各AIツールに指示しました。AIの出力結果のスクリーンショット、およびテスト対象となった要約、査読者のコメント、回答を含む完全なレポートはこちらです。

AIが得意とする領域

AIツールの限界を検討する前に、AIツールが比較的良好なパフォーマンスを発揮した領域について触れておきます。どの事例においても、AIツールは回答の明瞭さと読みやすさを向上させ、著者の主張を体系的に要約・再構成し、表面的なギャップ(例えば、査読者の指摘に全く言及されていない場合など)を特定し、著者が回答をより効率的に修正するのに役立つ整理されたフィードバック形式を提供することができました。

こうした強みにより、AIは、特に回答のドラフト作成や推敲の初期段階において、言語表現や構成の補助ツールとして役立ちます。しかし、以下の分析が示すように、査読への回答が適切であるためには、明瞭さや構成だけでは不十分です。

AIが苦手な領域

1. 査読者の意図を誤解する

AIによる著者回答の評価において繰り返し見られた問題は、査読者の意図とAIによる回答の妥当性判断との間にズレが生じたことでした。例えば、ある査読者が、「銀行は(多くの先行研究によって)すでに知識集約型機関として確立されているにもかかわらず、知識経済の研究において銀行に焦点を当てることでどのような新たな貢献がもたらされるのか」と疑問を呈したのに対して、著者は、なぜ銀行が知識集約型であるのかを説明し、銀行業界におけるデジタルトランスフォーメーションの具体例を提示しました。しかし、査読者の懸念は、銀行が知識経済に属するか否か(これについては既に同意していました)ではなく、研究の漸進的な貢献と位置づけに関するものでした。それにもかかわらず、AIツールはこの回答を適切であると評価しました。

同様に、査読者が分母の影響により資産回転率が過大評価されている可能性について方法論的な懸念を提起した際、AIは著者が代替指標(運転資本回転率)に切り替えたことを「有意義」あるいは「実質的」な改善と評価しました。しかし、査読者が分母(除数)についてコメントしていたのに対し、著者の変更理由の説明は分子に焦点を当てており、査読者の懸念には応えていませんでした。

2. 著者の説明がどの程度明確かを正しく見極められない

別のパターンとして、査読者が「自己申告調査」の使用に疑問を呈したコメントに対し、著者がその用語の定義が必要だと解釈し、自己申告とは何かについて説明的な解説を行った事例があります。しかし、査読者の指摘は、その用語の意味ではなく、なぜ主観的な自己申告がその概念に適しているのかという点を問う、方法論上のものでした。それにもかかわらず、AIツールはこの説明を十分かつ適切であると判断しました。 

別の事例では、文脈変数の含め方に対する査読者の懸念に応えてそれらを削除したところ、AIはこれを満足のいく解決策として承認しましたが、一方で、それらを完全に削除するのではなく、背景情報として位置づけるという、より適切と思われる代替案については検討しませんでした。

3. 推論の矛盾

3つ目の問題は、関連する出力全体におけるAIの推論の内部的な矛盾が見られたことです。あるケースでは、AIは銀行を知識集約型企業の明確なカテゴリーとして扱いましたが、別のケースでは、著者がなぜ銀行を取り上げたのかという査読者の懸念に対し、銀行をより広範な知識経済における標準的な代表例として位置づけました。また、GPS による位置追跡に関する別のケースでは、AI の回答に著しいばらつきが見られました。AI は、研究者のデバイス使用に一貫性があると仮定したり、出力からこの情報を除外することでデバイスのバリエーションの関連性を完全に無視したり、あるいは別のケースでは複数のデバイスの使用を方法論上の強みとして位置づけたりしていました(他のいくつかのケースではこれを弱点として指摘していたにもかかわらず)。

4. AIによるハルシネーション(幻覚)

最後に、AIが根拠のない制度的または地政学的な枠組みを持ち込むというハルシネーションがいくつかのケースで観察されました。例えば、宇宙と国家安全保障に関する研究を対象としたある回答評価において、AIは著者が言及した欧州諸国(スペイン、フランス、イタリア、ドイツ、ギリシャ)について、より広範な地政学的物語へと展開しました。ESAは非EU加盟国を含む政府間組織であり、EUの統治構造とは独立して運営されているにもかかわらず、AIは欧州宇宙機関(ESA)とガリレオなどのEU宇宙計画を単一の「EUブロック政策枠組み」に誤って分類しました。さらに、リストされた国々のうちいくつか(例えばスペインやドイツ)は黒海地域と直接的な地理的・戦略的つながりを持たないにもかかわらず、AIはこれらの国々を「黒海地域の緊張」やより広範なNATOとロシアの力学に関連付けることで、国の選定を正当化しました。これらの追加内容は元の入力には含まれておらず、査読者から求められたものでもなければ、著者の回答の一部でもありませんでした。

人間による回答書の相互チェックが重要な理由 

回答と論文の整合性

査読者のコメントへの回答は、修正プロセスの一部に過ぎません。論文自体が、主張された変更を反映していることを確認することも、同様に重要です。

  • AIツールは回答の文章を評価しますが、提案された修正が実際に反映されているか、その変更が科学的に妥当か、あるいは引用されたページ番号や行番号が実際の修正箇所と一致しているかについては検証しません。
  • 今回の検証では、著者の回答にそのような変更が示されていないにもかかわらず、AIツールが修正が行われたと推測または断定したケースが複数確認されました。例えばあるケースでは、著者がそのような修正について一切記述していなかったにもかかわらず、AIツールは比率の算出に関する懸念に対処する議論が論文に追加されたと主張しました。また別のケースでは、回答にそれらの行番号への言及が一切ないにもかかわらず、AIが具体的な行番号を提示して変更が反映されたと示唆しました。
  • 一部の出力には、効果量の統計値(d値など)、F統計量、GPS機器の仕様など、著者が報告したことのない技術的な詳細を完全に捏造したものが含まれていたケースもありました。また、回答が単なる説明的な正当化にとどまり、研究デザイン、分析、報告内容に実際の変更が一切加えられていないにもかかわらず、AIが方法論上の懸念は「論文内で対処済み」と判断したケースもありました。

これにより、回答が徹底的で十分な根拠に基づいているように見えても、論文自体は変更されていないか、あるいは一貫性のない修正しか施されていないというリスクが生じます。それに対し、専門家による査読では、回答と論文を照合し、主張されている修正が実際に行われており、かつ適切であることを確認します。

データセキュリティに関する懸念 

生成AIツールを使用する際には、未発表の論文の一部、査読者のコメント、あるいはデータをアップロードすることがよくあります。これにより、未発表の研究の機密性、知的財産の保護、およびジャーナルや所属機関のポリシーへの準拠に関して、重要な考慮事項が生じます。ProtectoによるAI関連のデータ侵害に関する分析[1]や、Wiredによるプロンプトベースのデータ流出に関する報道[2]などの報告は、AIツールとのやり取りによって、意図せず機密情報が漏洩する可能性があることを浮き彫りにしています。

査読者のコメントに対するより深い解釈

最後に、多くの査読者のコメントは、単なる説明以上のものを必要とします。著者の回答を評価するだけでなく、査読者自身がデータセットに対して適切な手法を提案しているかどうか、指摘された懸念事項に対して修正が必要か、あるいは論理的な反論が必要か、また、限界が十分に認識されているか、あるいはより詳細な分析が必要かを確認することが重要です。こうした判断は、専門分野の知識、方法論への理解、そして学術的な慣習に関する経験に依存します。これまで見てきたように、AIツールは査読者の意図そのものを誤って解釈する可能性があります。特にフィードバックを単純化したり再構成したりする際にその傾向が強く、不適切な回答となるリスクをさらに高めてしまいます。

結論

AIの出力に見られる限界は、論文の修正プロセスにおける専門家による評価の重要性を浮き彫りにしています。

回答書を確認する人間の専門家は、 

  • ニュアンス、トーン、暗黙の了解を含め、査読者の意図を解釈します 
  • 回答がコメントに直接的かつ適切に対処しているかを評価します 
  • 提案された変更が方法論的に妥当であるかを評価します 
  • 回答書と修正した論文の一貫性を確保します 
  • どのような場合に、著者の主張を擁護すべきか、それとも譲歩すべきかを判断します 

AIツールは論文の修正プロセスにおいて有用ですが、明確な限界があります。言語やトーンの改善、回答の整理、明らかな抜け落ちの指摘には役に立ちますが、査読者の意図の解釈、方法論の妥当性の評価、事実や技術的な正確性の確保、あるいは回答が真に適切であるかどうかの検証においては、信頼性が低くなります。査読のような重要な局面では、こうした違いが重要となります。

エディテージの「査読コメント対策&再フォーマット調整」サービスは、「プレミアム英文校正サービス」のオプションとして提供されており、こうした原則に基づいて設計されています。このサービスでは、著者の回答文に対して体系的なレビューを行い、明瞭さだけでなく、内容の適切さ、正確さ、そして査読者の期待に沿っているかどうかにも重点を置いています。

皆様のご経験もお聞かせいただければ幸いです。査読への回答作成にAIを活用する際、同様の問題に気づいたことはありますか? AIを補助ツールとして活用する範囲と、専門家の判断に頼るべき範囲の境界線を、どのように引いていますか? 皆様からのご意見をお待ちしております!

参考文献

1. AI Data Privacy Breaches: Major Incidents & Analysis https://www.protecto.ai/blog/ai-data-privacy-breaches-incidents-analysis 

2. A Single Poisoned Document Could Leak ‘Secret’ Data Via ChatGPT https://www.wired.com/story/poisoned-document-could-leak-secret-data-chatgpt/ 


この記事はエディテージ・インサイト英語版に掲載されていた記事の翻訳です。エディテージ・インサイト ではこの他にも学術研究と学術出版に関する膨大な無料リソースを提供していますのでこちらもぜひご覧ください。

よかったらシェアしてね!

この記事を書いた人

2002年に設立された、カクタス・コミュニケーションズの主力ブランドであるエディテージの目指すところは、世界中の研究者が言語的・地理的な障壁を乗り越え、国際的な学術雑誌から研究成果を発信し、研究者としての目標を達成するための支援です。20年以上にわたり、190か国以上の国から寄せられる研究者の変わり続けるニーズに対応し、研究成果を最大限広く伝えられるよう、あらゆるサポートを提供してきました。
今日、エディテージは専門家によるサービスとAIツールの両方を用いて、研究のあらゆる段階で便利に、安心して使っていただける包括的なソリューションを提供しています。