人大交叉评论
大模型赋能科学研究的机遇与治理挑战
发布日期: 2025-11-27

步一,系北京大学信息管理系助理教授、博士生导师

一、大模型科研格局的演变

2022年底以来,大语言模型的迅速演进正深刻重塑科学研究的范式。为了系统性地厘清这一新兴技术在中国科研体系中的应用现状与发展脉络,我们团队开展了一项初步研究,以期描绘中国大陆地区大模型科研的宏观格局。我们构建了一个涵盖科研贡献度、学术影响力、科研队伍参与度与协同度等维度的评价指标体系,用以考察不同城市、机构类型及学科在大模型研究浪潮中的态势。此项工作是一次探索性分析,旨在为后续的深度研究奠定认知基准。

在数据处理层面,一个首要的方法论挑战在于“大模型相关研究”的识别与界定。鉴于该领域技术迭代迅速,大量前沿成果优先通过预印本平台(如arXiv)发布,而非经由传统期刊。因此,我们的分析以2023年1月至2024年8月间arXiv数据库的论文为主要数据源。通过系统梳理领域内的关键综述文献,我们构建了一个包含逾百个关键词与特定模型名称的检索词表,用以进行初步筛选。随后,我们运用大语言模型并结合ROR等机构数据库,实现了作者单位、地理位置等元数据的自动化提取与标准化处理。经过基于特定指令的多轮筛选,最终形成了一个包含近8000篇与中国大陆科研机构相关的论文数据集。数据分析显示,自2023年始,相关论文数量呈现指数级增长,其增速在2024年上半年已显著超越线性趋势,表明大模型已成为驱动科研创新的核心力量之一。

对科研格局的剖析揭示出显著的地域与机构集聚效应。北京与上海凭借其雄厚的高等教育与科研资源,在各项评价指标中均处于领先地位。清华大学、北京大学、复旦大学与上海交通大学等顶尖高校构成了学术产出的第一梯队,凸显了学术机构在技术探索与应用中的核心作用。相较之下,尽管企业在模型算法与算力方面做出了重大贡献,其科研成果以学术论文形式发表的比例却相对偏低。这表明,未来亟需构建更为高效的产学研协同机制,以促进技术研发向学术成果的高效转化。从学科分布来看,大模型的渗透呈现显著的异质性,目前高度集中于人工智能、计算语言学、机器学习等计算机科学的细分领域,其与人文社会科学等其他学科的深度融合仍存在广阔的探索空间。这一宏观格局不仅揭示了机遇,也对科研资源配置、跨学科合作激励及成果评价机制提出了新的治理课题。

二、大模型赋能科研的多维探索

在宏观格局分析的基础上,我们的关注点进一步延伸至大模型在具体科研环节中的应用机制。下文将通过我们团队及同行的七项实证研究,阐释大模型赋能科研的多维路径,并揭示其中伴生的潜在风险与治理挑战。

(一)科技文献推荐中的效率与偏见

在科技文献推荐方面,我们设计了实验框架以系统性评估大模型是否存在固有偏见。研究初期聚焦于机器学习、自然语言处理等特定领域,并选取了GPT-4等四种主流模型进行测试。为确保方法论的严谨性,我们对实验变量进行了控制,例如,初步测试发现,不同时间点(如北京时间上午与深夜)的查询结果,其差异性甚至大于同一时间点的重复查询。因此,所有实验均在固定的时间窗口内执行。研究发现,大模型能显著提升文献发现效率,但其推荐逻辑中潜藏着复杂的偏见。模型表现出对近期发表、由大规模团队完成的论文的强烈偏好,而其推荐论文的创新突破性则显著低于人类专家的选择。在学者特征方面,一个值得注意的现象是,尽管模型推荐的学者性别分布与领域内的实际比例无显著差异,但在种族维度上,非白人学者呈现出被过度推荐的趋势,这可能反映了模型在训练数据中习得了某种规范性倾向。这些发现警示我们,在利用大模型提升科研效率的同时,必须对推荐结果的公平性与多样性保持高度警惕。

(二)科研贡献的自动化抽取

在现代科学合作中,对每位作者的具体贡献进行清晰界定,对于建立公正的科研信用评价体系至关重要。然而,绝大多数已发表论文缺乏结构化的作者贡献声明。为此,我们借鉴了一项发表于PNAS的研究框架,该研究将作者贡献相关的动词划分为“领导(leadership)”、“直接支持(direct support)”与“间接支持(indirect support)”三类。我们的目标是开发一种算法,为海量无此类声明的论文自动推断并补充该信息。我们不仅利用大模型的文本理解能力,还整合了作者职业年龄、历史发表角色、论文机构多样性等十余项文献计量学特征。实验结果显示,GPT-4在此分类任务上表现出卓越的性能,其Macro F1值达到0.963,显著优于传统的机器学习方法。此项工作的长远目标是发布一个大规模、带有作者贡献标注的新数据集,为科学社会学与科研政策研究提供更细粒度的数据支撑。

(三)科学写作中的AI内容计量

随着AI写作辅助工具的普及,我们对已发表科学文献中AI生成内容的占比进行了计量分析。通过一种基于文本困惑度(Perplexity)的计算方法,我们对arXiv及PubMed Central数据库中的论文进行了逐句评估,以估算其源于AI生成的概率。结果验证了我们的假设:自2022年底ChatGPT发布后的数月内,论文摘要中AI内容的比例出现急剧增长。这一趋势在非英语母语国家的学者中尤为突出,其AI采纳率的增长曲线更为陡峭。更有趣的发现是,期刊是否制定AI使用政策,与作者的实际使用行为之间并无显著相关性。在那些明文要求披露甚至限制AI使用的期刊上,AI内容的比例同样呈上升趋势,甚至略高于无相关政策的期刊。这表明,大模型辅助写作已成为一种难以逆转的学术实践,单纯的政策规制效果有限,学界亟需探索更为深刻的学术伦理规范与教育引导策略。

(四)自动化数据科学的框架构建

为探索将传统的数据科学研究流程自动化,我们正构建一个多智能体(Multi-Agent)协同框架。传统的数据科学流程,从数据预处理、特征工程到模型选择与超参数调优,是高度依赖研究者经验的劳动密集型过程。我们的设想是通过智能体协同实现流程自动化,例如,由一个智能体负责数据理解与描述生成,另一个智能体专司代码生成与执行,另有规划智能体进行任务分解与调度。尽管该框架尚处雏形阶段,智能体间的协作仍以串行流程为主,反馈机制较为初级,但它展示了一条将大模型从分析工具提升为自动化科研工作流中枢的潜力路径。我们还在其上层集成了一个提示词自动优化框架,使系统能够自我迭代以寻求最优指令,从而提升整体流程的效率与产出质量。

(五)科研评价环节的初步探索

大模型在科研评价环节的应用亦初见端倪。同行评议作为科研质量保障的核心机制,其主观性与时间成本一直备受关注。我们与同行合作,开展了利用大模型评估论文学术跨学科程度的初步探索。在实验中,模型被要求完成两项任务:识别论文所融合的核心学科领域,并对其跨学科水平进行量化评分。结果显示,模型在识别主要的、差异显著的学科交叉方向上表现尚可,但在区分相近子学科时则效能下降,其量化评分结果与人类专家的判断亦存在较大偏差。这说明,尽管大模型为实现智能化、高效客观的科研评价开辟了新的可能性,但其深度理解与精准判断能力,尤其是在处理需要高度专业知识与微妙判断力的评价任务时,仍有待提升。

(六)基于检索增强的文化偏见缓解

大模型训练语料的“西方中心主义”使其在处理涉及文化价值观与社会规范的问题时,常表现出显著偏见。为缓解此问题,我们提出了名为“Values-RAG”的检索增强生成框架。其核心机制是,在模型生成回答前,先从世界价值观调查(World Values Survey, WVS)这一大规模跨文化数据库中,检索与提问者人口学特征相匹配群体的价值观数据,并将这些数据作为上下文信息注入提示词,以引导模型生成更贴近特定文化语境的回答。实验表明,该方法虽在一定程度上优于单纯的角色扮演提示,但整体性能提升有限,准确率仍有较大提升空间。此项探索虽具挑战,但对促进跨文化理解与提升模型的全球适应性具有重要意义。

(七)大模型赋能下的高效数据标注

大模型已成为数据标注任务的高效辅助工具。在诸多研究项目中,大规模数据标注是一项基础性的劳动密集型工作。我们团队已在多个项目中将大模型用作高效的“数据标注员”。例如,在一个研究中,我们仅提供科学家姓名与所属机构信息,模型即可推断其性别与种族,与小规模人工核查样本比对,准确率可达80%左右。在另一个项目中,我们利用大模型为科学知识图谱中的聚类簇自动生成语义标签,替代了传统的人工解读工作。实践证明,通过设计良好的多层次智能体标注体系,覆盖任务规划、数据分层到质量控制的全流程,大模型能以较低成本、较高效率完成特定科研场景的标注任务,其结果与人类专家判断具有较高的一致性,从而将研究者从重复性劳动中解放出来。

三、结论

综上所述,大模型正以前所未有的广度与深度渗透至科学研究的各个环节。它既是放大科研生产力、加速知识发现的强大引擎,也可能成为固化偏见、传播不确定性的媒介。如何有效驾驭这一强大的技术力量,并构建与之相适应的治理体系与学术规范,是我们这一代研究者所面临的共同挑战与历史机遇。

大模型赋能科学研究的机遇与治理挑战.pdf