学术搜索引擎推出ChatGPT式AI工具|机器人|数据库|爱思

Scopus、Dimensions和Web of Science纷纷推出对话式AI搜索引擎。

　　改变在线搜索模式的AI对话机器人，像是谷歌的Bard和微软的Bing，很快将赋能文献检索引擎。8月1日，荷兰出版巨头爱思唯尔（Elsevier）向其Scopus数据库的部分用户推出了一款ChatGPT驱动的AI接口，而英国的Digital Science公司旗下的Dimensions数据库也结束了一款大型语言模型（LLM）AI助手的测试。与此同时，美国科睿唯安（Clarivate）表示正在将LLM接入其Web of Science数据库。

文献数据库正在接入类似ChatGPT的AI对话机器人，给用户带来对话式搜索体验。来源：Gabby Jones/Bloomberg via Getty

　　LLM用于文献搜索并不新鲜：Elicit、Scite和Consensus这些初创公司都在用这类AI系统概括某领域的研究进展，或是检索最顶尖的研究，其使用的资源为免费的科学数据库或是（以Scite为例）通过与出版机构合作获取付费的研究论文。而现在，拥有大型论文摘要和参考文献专有数据库的公司也加入了这场AI热潮。

　　爱思唯尔的对话机器人名为Scopus AI，目前推出的是试用版，能帮助科研人员快速概括他们不熟悉领域的研究进展，爱思唯尔负责该工具开发的主管Maxim Khan说。在收到一个自然语言问题后，该机器人借助GPT-3.5版本的LLM对某个研究主题进行流畅的概括，同时附上参考文献和有待进一步探索的问题。

收到一个基于文字的问题后，Scopus AI会对某个学术主题进行流畅的概括，同时附上相关参考文献。来源：Scopus AI

　　LLM在搜索方面的一个问题——尤其是文献搜索——是它们的可信度不高。LLM并不理解它们生成的文字，它们只是吐出文体上合理的句子。它们输出的内容可能存在事实错误和偏见，而且学术人员很快就发现，它们会编造并不存在的参考文献。

　　所以Scopus AI也受到限制：它被要求在5到10篇学术摘要的基础上做出回答。Khan解释道，这个AI不会自己去找这些摘要，而是在用户输入问题后，用传统的搜索引擎返回与问题相关的内容。

捏造事实

　　关注AI搜索工具的新加坡管理大学的图书馆员Aaron Tay说，许多其他AI搜索引擎系统也采取类似策略。这有时候被称为“检索增强生成”（retrieval-augmented generation），因为LLM只会概括由另一个搜索引擎检索出的相关信息。Tay在谈及使用类似技术的在线搜索AI对话机器人（如Bing和Perplexity）时说道，“这个LLM仍然会偶尔出现幻觉或胡编乱造。”

　　爱思唯尔推出的这个AI工具仅限于搜索2018年之后发表的论文，这样就能检索到最新论文；爱思唯尔还让该机器人对回答中的摘要进行恰当引用，以避免出现不安全或恶意的提问，并说明它收到的摘要中是否没有相关信息。这么做并非不会出错，但能把错误降至最少。为了降低其AI工具的不可预测性，爱思唯尔还将该机器人的“温度”（temperature）设置得很低，这个值表示机器人在回复中选择偏离最可信文字的概率。

　　那么，使用者会把这个机器人的回答复制粘贴到自己的论文中，在实际上构成对该工具的剽窃吗？Khan认为有这个可能。他说，爱思唯尔目前的解决办法是在指南中要求研究人员负责任地使用这些文献总结，并要求在使用LLM撰写论文或进行同行评审时进行透明度披露，或是在某些情况下直接反对LLM的使用。

　　目前为止，该工具只向约1.5万名用户开放，他们都是Scopus的订阅用户，其他愿意尝试的研究人员也可以向爱思唯尔申请。爱思唯尔表示该工具将在2024年初正式上线。

全文分析

　　同样在8月1日，Digital Science宣布旗下大型科学数据库Dimensions正推出一款AI助手，但目前只向特定beta测试人员开放。和Scopus AI一样，在用户输入问题后，一个搜索引擎会先检索相关论文，然后一个Open AI的GPT模型会根据检索到的排名最靠前的摘要进行总结。

　　Digital Science的首席产品官Christian Herzog说：“它们很像，挺有意思的。”（Digital Science属于霍尔茨布林克出版集团，该集团也是《自然》出版机构施普林格·自然的大股东。）

　　Dimensions还用LLM提供关于相关论文的更多细节内容，包括对他们研究结果进行简短的重新概括。

　　Herzog表示，公司希望到年底能向更多人推出这个工具，但现在正在与科研人员、资助者和其他Dimensions用户测试LLM的可能用途——很多用途仍有待探索。他说：“这是逐渐适应一项新技术并建立信任的过程。”

　　Tay表示，发表他很期待看到能在整篇论文、而不仅是在摘要上使用LLM的工具。他说，Elicit这类网站已经让用户能用LLM回答关于论文全文的细节性问题——前提是机器人能读取整篇论文，比如一些开放获取论文。

　　与此同时，科睿唯安“学术与政府部门”主席Bar Veinstein表示，该公司“正在尝试在Web of Science 中接入LLM驱动的搜索引擎”，他这里指的是今年6月宣布的和以色列AI21实验室签署的战略合作。不过，Veinstein并未透露Web of Science将何时推出基于LLM的工具。

　　原文以ChatGPT-like AIs are coming to major science search engines标题在2023年8月2日《自然》的新闻版块上

　　原文作者：Richard Van Noorden

　　© nature

　　doi: 10.1038/d41586-023-02470-3

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。