当今时代,生成式人工智能(Generative Artificial Intelligence)快速发展,它基于深度学习技术,在大规模多模态数据集的基础上,根据给定的提示或条件,生成全新的文本、程序代码、图像、视频和声音等数据,展现出强大的内容生成能力,为哲学社会科学研究带来了深远影响。作为探索人类社会发展规律、研究人类思想文化精神的重要学科体系,哲学社会科学在信息时代的数据浪潮中面临着数据处理解析手段落后与传统理论框架解释力不足等困境。自2020年OpenAI发布的GPT-3模型以来,人们陆续研发出了Gemini、DeepSeek等大模型产品,其以强大的数据处理、高效的多模态融合式内容生成、出色的全域检索等能力突破人类思维和认知的局限,帮助哲学社会科学走出数智环境中的认知困境,实现更大的学科跨越式发展。从技术底层把握生成式人工智能的智能原理和在哲学社会科学学术研究中的最佳场景与应用局限,针对生成式人工智能的认知边界与社会事实的“可计算性”边界等问题,展开对未来人机协同的技术追问和反思,对于重塑哲学社会科学的研究范式,推动人类对社会和自身的认知不断深化等,都具有重要的理论与现实意义。
一、数智环境下哲学社会科学的认知困境与生成式人工智能的助力
哲学社会科学的研究虽然有流派和阶段等各方面的差异,但研究的前提还是从问题开始,旨在提供有用的解决方案以指导当前实践。在复杂而系统的研究过程中,研究者通常使用文献综述、研究设计、资料数据收集、数据分析与逻辑推演等方法,以达到发现问题、分析问题以及解决问题的目的。然而,在当前数据与知识爆炸的时代,传统的哲学社会科学研究出现了认知困境,需要新的工具与方法来革新自己的工作方式,最终实现研究范式的创新。
(一)信息时代传统哲学社会科学研究出现认知困境
在信息量呈爆炸式增长的当今时代,因为“信息过载”,传统哲学社会科学研究在文献综述方面遭遇效能瓶颈,同时面临数据处理量过大和传统理论框架解释力不足等问题。
1. 传统研究方法在人工文献综述方面遭遇效能瓶颈
通常的系统性文献综述,需要研究者阅读尽可能多的文献方能覆盖前沿进展。随着计算社会学等交叉学科的发展,在文献综述方面大量引入数据分析的方法。传统的文献综述方法在此方面遭遇了效能瓶颈。而且,不同研究者的主观认知偏差明显,同一主题的文献综述,不同研究者提取的关键理论框架重合度不高,结论的相似度也不够。特别是在此过程中,跨学科的跟踪更容易出现信息筛选困难,研究者普遍存在文献焦虑的现象。
2. 传统研究模式遇到数据处理总体数量过大等问题
随着数字化进程,人们在创造和创作的同时产生大量数据。据统计,全球数据圈将从2018年的33ZB增加至2025年的175ZB,其中约80%为非结构化的文本、图像或视频。而传统人工处理大数据的方式耗时巨大,且质性分析方法效率低下。如:社交媒体情感分析需要同时处理语义、语境、文化隐喻等多个维度的信息,研究者要能够在细粒度语义层次上实现关联发现,而这对既有的研究范式是个不可逾越的挑战。因为,人类研究者难以实现毫秒级的实时解析,在传统的研究范式下数据信息量与数据细粒度要求之间存在矛盾,研究人员的认知能力在此方面遭遇了“天花板效应”。
3. 传统理论框架正面临解释力不足的挑战
在当前大变革、大发展时代,社会现象呈现跨越时空和层级的复杂联系,哲学社会科学研究往往需要多学科同时参与来完成。例如:气候变化引发的移民潮研究,涉及环境科学、经济学、政治学等多个学科的交叉领域;又如:社交媒体上的集体行为呈现非线性的动态关系,仅通过个体行为的简单累加无法得出正确结论,需要通过新兴交叉学科诸如量子社会科学、计算传播学等对群体的数据展开动态分析。跨学科融合发展成为哲学社会科学发展的必然趋势。跨学科与新兴交叉学科需要新的复杂性理论研究工具,帮助哲学社会科学突破传统研究范式,弥补和解决现有研究中的短板和矛盾问题。
(二)生成式人工智能助力哲学社会科学走出认知困境
生成式人工智能因为在数据处理和全域连接的开放搜索与知识拓展等方面的突出能力,使之可以作为人类的“外脑”,承担内容生产与知识存储等“知识外包”性质的工作。其对哲学社会科学研究的支持体现在文献整理环节、数据处理环节、数据分析挖掘和报告撰写等各个环节,帮助传统哲学社会科学走出认知困境。
1. 文献整理环节
在对已有文献资料、调查档案和历史记录等信息与数据进行大量收集和整理方面,传统的人工处理方法耗时耗力,而且还存在信息不全、认知偏差等问题。生成式人工智能支持的新型系统性文献综述法,应知识爆炸的背景而生,它集成学术数据库、搜索引擎等工具,在对海量学术资源开展自动化分析和归纳的基础上,可以快速准确地检索到与研究主题相关的文献资料,并进行基础性的筛选、分类和整理,帮助研究者总结经验、发现问题,加强研究主题的选题准确性和深度,并节省信息收集整理的时间成本和精力成本。在技术层面,它建基于知识创新的机制,通过对文献的解读来建立知识之间的联系,从而通达知识的本真。在结果层面,它在有效地规避大海捞针的危险的同时,保证在一定的标准上一个也不少。
2. 理论梳理环节
挖掘理论空白点并提出创新性的理论论辩,是哲学社会科学研究实现理论突破和发展的关键步骤,这是生成式人工智能的优势。以DeepSeek为代表的混合专家型(Mixture of Experts,MoE)生成式人工智能与专业理论的深度融合条件更为充分,可为经济和社会发展预测、政策评估等方面提供更精准的模型和方法,帮助研究人员对大量文献展开实时高效的分析,为理论论辩提供实证支持。所以,生成式人工智能为研究者打开研究视域,深入研究问题的本质,提出创新性的理论研究主题等提供有力支持,推动哲学社会科学研究在数智化时代的理论创新。
3. 信息分析与挖掘环节
研究目标确定后,信息分析与挖掘工作对研究结果的呈现至关重要。生成式人工智能技术为此环节带来了新的突破。其大型语言模型能与外部信息源、工具、感官数据、图像、物理对象等进行交互,使其具有强大的多模态数据分析能力。目前,大型语言模型已被应用于分析社交媒体发帖、调查数据和新闻文章上,促进了哲学社会等科学相关领域的数据驱动研究。以舆情分析为例,社交媒体平台上每天都会产生海量的用户数据,这些数据蕴含着公众对于各种社会事件、政策、热点话题的看法、态度和情绪。利用自然语言处理技术,生成式人工智能够轻松地对社交媒体上的大规模文本数据进行实时监测和分析。在某一社会热点事件发生后,研究人员借助生成式人工智能软件可以迅速抓取相关的微博、微信、论坛帖子等文本信息,进行分词、词性标注、句法分析等预处理操作,然后提取出其中的关键词、关键短语和句子加以分析,挖掘其中的规律和趋势,等等。
4. 报告撰写环节
目前,已有不少生成式人工智能软件可以充当报告撰写的智能助手,辅助研究者完成报告的起草和细化工作,大大提高了“中级专业写作任务的生产力”。在研究者的整体报告框架下,生成式人工智能软件能够根据研究者提供的研究思路、大纲和相关资料在专业的模型系统或者是加上了自身特殊知识内容的系统中进行内容生成。研究者只需对初稿中的内容进行核对、补充和优化,就能够快速完成报告的框架性草稿撰写,并有效维护参考文献与引用关联信息,节省了研究者大量的精力,为人类创造了更多的机会和时间去探索新的领域和解决更具挑战性的问题。
展望未来,以DeepSeek为代表的新一代人工智能产品的开源创新模式,一方面促进产品自身的不断迭代升级;另一方面持续降低应用门槛,在哲学社会科学研究领域展现出更为广阔的发展前景。
二、生成式人工智能的智能原理
生成式人工智能为哲学社会科学研究提供了强有力的支持。深入分析其智能原理,有助于我们了解其内在的优势与不足,从而更准确地运用其推动哲学社会科学发展。
(一)生成式人工智能的智能形成过程
生成式人工智能即大语言模型的智能生成基于两大阶段,即无监督的预训练与有监督的微调(精调)。其核心是通过Transformer架构的自注意力机制,从海量文本中学习语言模式。在预训练阶段,模型利用数千亿甚至数万亿词汇(词元)的语料,在基础词元的基础上,通过掩码预测或自回归生成任务,构建词与上下文的高维向量表征,捕捉语法、语义及浅层逻辑关联。在这个过程中,生成式人工智能系统首先对输入文本进行分词处理,将文本转化为一个个离散的词元(Token)。这些词元作为模型的输入,被嵌入到一个向量空间中,每个词元都对应一个向量表示(如:著名的“Word2vector”方法),包含了该词元的语义信息。
然后,模型通过多层Transformer编码器对这些向量进行编码,不断提取和融合语义特征,构建出对输入文本的深层次理解。在这个过程中,模型会根据输入文本(即所谓的“训练语料”)的语义和上下文信息,自动调整注意力权重(即所谓的“学习训练”),关注与当前推理任务相关的信息词元。譬如:当输入一个关于科学研究的问题时,模型会在编码过程中,重点关注与科学术语、研究方法、实验结果等相关的词元向量,忽略其他无关信息。这个过程最终会形成一个每个词元与其他向量空间的所有词元之间的注意力大小的数据矩阵(可以看作是每两个词元之间在这个向量空间中“共现”的可能性概率)。
在使用过程中,生成式人工智能利用Transformer解码器进行推理和生成。解码器根据编码器输出的语义表示,结合目标语言的语法和语义规则,通过自回归的方式逐步生成输出文本。在每一步生成中,模型会根据已生成的前文内容,预测下一个最可能出现的词元,从而使模型能够生成出内容逻辑连贯、语义通顺的句子和段落。当然,这种推理和生成过程并非简单的模式匹配,而是基于对大量文本数据的学习和理解,通过向量计算,捕捉到语言中的各种语义和逻辑关系,从而在生成时形成高质量的通顺连贯文本。而且,这种文本生成,还可以在推理链的控制下,实现长文本(有可能是上万字的论文)的输出。
而所谓的微调,就是在已经使用大量训练语料预训练形成的模型系统基础上,利用准备好的特定数据集和微调策略,对模型进行进一步训练。在训练过程中,依据设定的超参数和优化算法,参考已知的最佳结果,不断调整模型参数,以最小化损失函数的值,从而提升模型在特定任务上的性能。
上述智能形成过程,既是生成式人工智能以技术逻辑的方式展开成为一种人工智能的过程,也是深度学习构建智能生成与发展过程,它“既是技术逻辑的重要发展,更是技术追求智能本质的重要进展”。
(二)生成式人工智能的智能机制
总的来看,生成式人工智能的智能机制主要在于三部分:一是运用千亿级参数构成的向量空间,形成复杂模式记忆的载体;二是通过动态权重分配聚焦关键信息,实现多种注意力机制;三是通过推理链和数据多样性,实现跨领域文本提升泛化能力。
1. 向量空间设置——数智智能和意识形态限制的基础
向量空间设置是生成式人工智能理解和处理信息的基石,而基础词汇表的选择更是基础中的基础。如:DeepSeek的基础词汇表有12万多词元,一个词元在生成式人工智能领域即是一个向量,这就为生成式人工智能提供了一种统一的数据表示方式。这些词元向量不仅仅是简单的文字组合,它们蕴含着丰富的语义信息。生成式人工智能工具通过分析向量之间的关系和距离,可以推断出词语之间的语义关联、概念层次结构等知识和逻辑,从而实现对输入信息的理解,并生成更准确、合理的预测内容进行输出。在生成式人工智能中,无论是文本、图像还是音频,都可以转化为向量形式,这样不同类型的数据就可以在同一框架下进行处理和分析,以及进行后续的计算和模型训练。由于这个特殊的向量空间是通过人为定义或通过语料计算出来的,因此,这些符号化记忆在某种程度上是一种用于生成内容的技术或算法的先验性知识,也可以被看作是一种机器智能的认识基础,是人类文明通过技术系统为“意义世界”树立的先验规则体系,其本质上还是沉淀了人类文明的符号化记忆载体。
2. 注意力机制——将一切的逻辑与推理都转化为关系计算
现有生成式人工智能产品大多是基于Transformer架构,其中,注意力机制是Transformer架构生成式人工智能理解和处理信息的核心机制。注意力机制核心目标是通过动态建模输入序列中词元(token)之间的关联关系,捕捉长距离依赖和语义的上下文信息,并通过动态权重建模全局依赖。本质上就是将词元之间的所有可能的关联都转化为关系计算。注意力机制被认为是生成式人工智能的一大核心进步,也是其智能的核心。但是也有研究者在实践中发现其不足,即由于这种机制不是基于对问题本质的理解来进行推理,而是过度依赖于特定的token与训练数据的匹配,因而,当尝试增加问题的难度时,所有模型的性能都持续下降,且方差变高。当遇到完全超出其训练数据范围的全新问题或情境时,模型往往无法进行有效地推理和处理。所以,我们要正确看待大语言模型。如果我们将创造性视为“对可能性空间的探索”,则这样的生成式人工智能仍应被视为人类认知的工业化延伸工具,本质是将人类领域知识编码为可计算范式。
3. 推理的实现机制——本质仍然是更复杂的模式匹配
推理机制即所谓的“推理链”是生成式人工智能的一个关键智能表现。推理的基础实现是在Transformer架构中利用自注意力(Self-Attention)机制,由模型计算每个词与上下文中其他词的相关性权重,构建语义关联网络。在处理长文本时,主要采用了多头注意力机制(Multi-Head Attention),让模型同时关注输入文本的不同部分,捕捉文本中词汇之间的长距离依赖关系和语义关联,从而准确把握文章的主旨和逻辑。以DeepSeek为代表的混合专家模型(MoE)在推理技术方面取得重大突破。它主要是在模型架构上,将传统MoE架构细分为共享专家和路由专家,使用时动态激活不同专家处理输入数据,显著提升模型容量和任务适应性。而在应对处理一些特殊的情况或问题时,模型还具备多步推理的能力。这种能力被称为思维链。其实质是将需要进行多步推理的问题,自动分解为一系列的步骤,进行逐步解决并求得答案。也就是说,推理是存在的,但是受前置——“数智”“先验知识”——训练权重库与语料库的控制的。生成式人工智能的推理链机制,从技术上讲仍然是复杂的匹配,本质上仍然是工具的升级。推理的价值在于它是对“可能性世界”的算法彰显,也就是一种可能性的价值。它不具有逻辑推理的认证传递功能,我们不能因为这种“推理”在形式上可以就认证其结果的正确性。
以上,无论是对句子内部推理生成下一个词元,还是长文本的输出,还是思维链的多步推理,生成式人工智能通过算法架构将人类认知的历时性积淀转化为共时性运算,它不仅再造了认知的工业化生产线,更在现象学意义上重构了意义生成的拓扑空间,引发知识生产模式的根本性转变。
(三)生成式人工智能的智能本质
生成式人工智能本质上是高效的概率拟合工具,是可能性世界的“算法显影”。其中,语言与世界的联系是其智能的基础;语料库沉淀了人类文明的符号化集体记忆,是其“智能”的直接来源;推理机制仍然是机械递归的封闭系统;而创造性则是其“可计算性”的边界。
语言与世界的联系是生成式人工智能的基础。维特根斯坦(Wittgenstein)在《逻辑哲学论》中提出语言与世界之间存在着逻辑同构性,他认为,“命题是对事态的描述”,即世界结构中的“世界(事实)—复合事实—原子事实—对象”与语言结构中的“语言(命题)—复合命题—原子命题—名称”在逻辑上是一一对应的。因此,正确地使用语言就能正确地描述世界,是基于大语言模型的生成式人工智能的核心理念。生成式人工智能就是正确描述世界的语言工具,其中Transformer的预训练权重库和语料库是沉淀了人类文明的符号化集体记忆,形成康德“先验范畴”(生成式人工智能系统所拥有的)的数字化技术等价物。这种“先验性”在某种程度上是构筑“数智”认识论基础:不是为自然“立法”,制定知识规则,而是通过数字化技术系统的“数智(向量)空间”为意义世界“立法”,建立“映射”。
生成式人工智能的智能源自经过语料库训练而成的神经网络,这种智能是参数、词元(Token)、数据与算力协同作用的结果,而非单纯大数据处理能力或程序。这种智能已经表现出与以往人工智能截然不同的自主交互能力,有人据此认为“人工智能奇点”出现,由此人工智能呈现出一定的主体性特征。OpenAI和Google等机构也曾提出“涌现”概念,认为当大模型系统的参数量达到一定程度,如:超过千亿参数时,模型可能会突然展现出一些复杂逻辑推理、创造性生成等超出预期的新能力。直白地说,就是生成式人工智能有可能突变产出生物智能的特征。然而,相关研究指出,OpenAI和Google等机构提出的“涌现”现象可能并非源于模型能力的质变,而是由于评测指标的非连续性设计。具体来说,一些研究者认为,所谓的“涌现”能力可能是因为研究者选择的非线性或不连续指标而产生的。例如:斯坦福大学的研究人员提出,大模型的“涌现”能力与任务的评价指标强相关,更换一些连续、平滑的指标后,涌现现象就不那么明显,更接近于线性。这表明,所谓的“涌现”可能更多是评测方法和指标设定的缺陷,而非模型本身具有某种突变或质变的能力。也就是说,生成式人工智能的“智能”虽然源自参数词元(Token)、数据与算力的协同,但其本质上仍是高效的概率拟合工具的集合。大模型的运行机制始终受限于符号操作的还原论范式:输入文本被分解为离散标记,通过矩阵运算重构概率分布。这种“碎片化—重组”过程与生物智能的涌现存在本质差异。其输出仅是预设算法对训练数据分布的拟合,缺乏真正的意向性。尽管大模型还可以通过微调更新权重,但其架构本身是静态的(如:Transformer块的固定堆叠)。因此,所谓“涌现”更接近技术神话而非科学事实。真正的“涌现”需要系统具备自我指涉与动态重构能力,现阶段这种基于还原论意义上的经语料训练而产生“智能”的生成式人工智能,实际并不具备这个条件。
生成式人工智能的“推理链”,本质上仍然是可能性世界的“算法显影”。海德格尔曾批判技术将存在简化为“持存物”,而Transformer模型正是将语义压缩为向量空间的数学对象。大模型通过自注意力机制建立的关联网络,看似实现了海德格尔式的“诠释学循环”,实则陷入机械递归的封闭系统。例如:多头注意力并行计算的上下文关联,仅是统计学意义的共现强化,无法突破训练数据的历史边界(如:无法理解未见于语料的物理定律)。这种封闭性使得模型无法真正突破既有的知识框架,正如哥德尔不完全性定理所揭示的“自我超越”的困境。
所以说,当前大模型架构受限于还原论范式、技术先验性压制与机械诠释学闭环,无法实现真正意义上的创造性涌现,创造性是其“可计算性”的边界。然而,这种局限恰恰让我们看到智力劳动中“提问”与“回答”环节的分工。其中,人是创造性存在,机器则是生成性存在。但是,我们并不能因此而否定作为一种“智能”形式的机器处理存在的协同创作的价值。我们应该基于将这样一种机器的或者是文本知识本身的智能形式纳为人类所用的共识,搁置“机器自主创造”的执念,开启人机协同的认知增强模式。但在此之前,我们需要了解人工智能给哲学社会科学研究所带来的挑战,这样,才能更好地发挥其在协同创作中的价值和作用。
三、哲学社会科学研究应用生成式人工智能所面临的新挑战
生成式人工智能应用于哲学社会科学研究,在数据处理、理论梳理等环节具有独特的优势,但同时也存在一定的局限性。
(一)智能幻觉是带有根源性的关键问题
生成式人工智能的“智能幻觉”(AI Hallucination),是其应用于哲学社会科学研究时最主要的缺陷。智能幻觉是指模型生成看似合理但实际不准确、虚假或脱离现实的内容。也即是说,模型在缺乏真实理解的情况下,通过统计模式生成形式逻辑自洽但不符合事实的文本、图像等信息。产生这种现象的原因有三:其一,因为生成式人工智能是根据概率随机生成内容,这就导致可能会生成一些不符合实际或与预期不符的内容。其二,大模型在根据用户的提示生成新的内容时,可能存在的上下文关注不足,过度关注相邻文本而忽视原有的上下文意义所致。其三,到目前为止,生成式人工智能的推理类似于一种“黑盒”方式,模型的微调都是根据输入和输出的人工对比来进行参数的调整,以至于在研究高精度且强创新性的场景中,其工具价值受到很大限制。
(二)应用场景局限于总结而非推演
生成式人工智能大模型的强大数据处理能力,是对跨学科数据处理与分析能力的根本性解锁,让哲学社会科学研究范式正在经历一场深刻的变革。但是,正如前文所述,生成式人工智能的推理链本质上是一种更复杂的模式匹配,或者说是有概率的再现,而不是逻辑充分的推演,如:无法分析不同观点之间的内在联系和逻辑关系,等等。这就使得生成式人工智能在面对复杂的理论问题时,无法像人类研究者一样进行深入的分析和探讨,其生成的内容往往缺乏深度和洞察力。也即是说,哲学社会科学应用生成式人工智能,其功能其实仅局限于“总结”而非“论辩”或“推演”。
(三)数据隐私、知识产权与数据安全问题
当前,生成式人工智能的本质仍然是“数据智能”,其智能的关键在于训练数据的质量和数量。但在实践中,在训练数据集的过程中关于数据隐私、知识产权与数据安全的问题日益凸显,成为制约其应用于哲学社会科学的一大阻碍。生成式人工智能的训练数据量极大,涵盖的范围极广,数据形式包含文本、图像、音频等多种形式,使用过程中不能完全“脱敏”个人隐私信息。在医疗领域,训练数据可能包含有一些不知情的患者的病历、诊断结果甚至是基因数据等;在金融领域,数据可能涉及用户的账户信息、交易记录、信用数据等。倘若数据的不当使用(主要是指数据未经授权使用,或者是超范围使用等情况),将有可能直接造成哲学社会科学研究的信任危机。
(四)算法偏见与意识形态影响
训练数据往往来自现实世界,而现实世界中本身存在着各种偏见和不平等现象。算法偏见是生成式人工智能应用中的隐匿性问题,但它为各种意识形态的提取和传播带来便利,所带来的影响却可能是全方位、多层次的,不容忽视。算法偏见产生于多方面,训练数据的偏差是其重要根源之一。如:前述分析,基础向量词汇词元的设计、训练数据的筛选,以及微调中的人工调试等,许多都是人为预设的。在数据收集过程中,如果样本选择不具有代表性,或者对某些群体的数据收集不足,就会导致训练数据存在偏差。如:在训练一个用于图像识别的生成式人工智能模型时,如果训练数据中大部分图像来自某一特定种族或性别的人群,那么模型在识别其他种族或性别人群的图像时,可能会出现偏差,导致识别准确率降低。另外,其他细节分析算法设计本身也可能引入偏见,“造成信息失真、隐私泄露、有毒有害意识形态传播等风险”。
(五)可靠性与可解释性的不足
生成式人工智能虽然能够生成看似合理的文本、图像等内容,但这些内容并不总是准确无误。在深度学习模型中,大量的参数和复杂的运算使得模型的决策过程变得非常复杂,研究者很难了解模型是如何根据输入数据生成输出结果的。其内部的决策过程和推理机制往往被视为“黑箱”,难以被人类理解和解释。这使得研究者在使用生成式人工智能时,无法判断其生成内容的合理性和可靠性,增加了研究的风险。生成式人工智能的不可解释性,使得研究者难以对其生成内容的可用程度进行有效的评估和验证,从而降低了研究者对其的信任度与使用意愿。况且,哲学社会科学研究往往涉及复杂的社会现象、人类行为和价值判断,这些问题具有高度的不确定性和多样性。生成式人工智能在面对这些复杂问题时,可能无法进行真正有效的推理,生成不准确或不完整的内容。
四、人机协同构造新引擎提升哲学社会科学研究效率
生成式人工智能促使智力劳动中的“提问”与“回答”环节相分离,让哲学社会科学研究从人类中心主义的思辨传统转向人机共生或协同思考。未来生成式人工智能的突破或许不在于追求参数规模的无限扩张,而在于构建容纳不确定性、具身性与自指性的新型认知架构,重塑哲学社会科学的研究范式,实现人机协同新机制。
(一)扬长避短实现人机协同新机制
如前文所述,生成式人工智能虽然能够对文本进行语法和语义分析,注意力权重分布虽然揭示出完全异质于生物神经活动的关联模式,但它还不具备“自我”和“自我意识”,难以准确把握理论背后的深层次含义和价值取向。也就是说,它对于理论概念及其内在逻辑尚不能做到有意义的理解和勾连,无法达到人类对理论进行分析验证和体系化梳理的创新能力。
具体而言,生成式人工智能因为以下几方面的原因使其不能达到人类的理解能力与价值创造。其一,社会现象的本质是人与非人行动者(如:技术、制度)的动态网络互动,生成式人工智能将一切简化为可量化的关联,必然导致关系性本体的消解,使得概念本身缺乏其情境所依赖的实践意义;其二,计算过程代替逻辑推演,导致过程性维度的缺失,社会事实的持续建构过程被压缩为静态数据快照;其三,是价值负载概念的不可计算性。由上,我们很难用拉图尔的行动者网络理论来定义生成式人工智能作为行动者的“理性”,承认这种技术实在的认知主体性。“使用和发展生成式人工智能时,我们需要明确其定位——它应当是人类智慧的补充和延伸,而非替代。”因此,“GAI(生成式人工智能)参与的学术论文,其作者还属于人类”。未来,仍然是以人为主体的人机协同或者说是人机协同计算而形成的智能辅助的关系。
所以,可以在认识论层面研究人机协同机制,即“溯因—演绎—归纳的循环增强”机制。如果这一机制中出现由“人工智能生成假设”、由“人类溯因筛选”并结合进行“演绎推导可检验命题”再由人工智能来进行归纳验证,并最终由人来进行决策与价值判定,将有可能构建“人—人工智能—世界”的新型关系。其中,人工智能作为社会事实解释的“合作诠释者”,而人则是“权威判定者”,在二者之间形成以人为主体的人机协同的关系,将在工具价值与人文价值统一的基础之上实现数据驱动与理论驱动的辩证统一,解释性研究与批判性研究的协同创新,以及进行学科本体论重构的可能性探索。
(二)改进基础技术并优化架构与算法
技术改进是提升生成式人工智能性能和可靠性的关键路径。我们可以通过不断优化架构与算法,开发可视化工具等,辅助哲学社会科学研究在理论创新的同时实现严谨的分析验证,确保其在逻辑上的严密性、在实践中的可行性以及在理论体系中的连贯性。
在算法改进方面,应致力于提高信息空间的规范性与算法的准确性和稳定性。针对基于强化学习的生成式人工智能在处理复杂数据和任务时容易出现偏差和错误的情况,研发人员可以通过改进高维信息空间的规范与规定法则和算法的设计和实现方式,增强算法对数据特征的提取和分析能力。在自然语言处理中,我们可以通过改进Transformer架构的算法,更好地捕捉文本中的语义和逻辑关系,尽可能减少生成文本中的语法错误和语义模糊问题;可以通过引入注意力机制的变体,如:位置敏感注意力机制,让算法更加关注文本中不同位置的词汇信息,提高对长文本的处理能力,从而生成更准确、更连贯的文本内容;还可以通过开发解释性算法,对模型的输出结果进行解释和说明。如:基于规则的解释算法,能够将模型的决策过程转化为人类更容易理解的规则,提高模型的可解释性和可信度。
在系统架构方面,需要降低系统的复杂度并增强系统的稳定性和可靠性。如:采用基于混合专家模型(MoE)的系统进行深化,使大模型系统能够更好地应对各种复杂的内容输入;探索开发哲学社会科学研究专用的预训练模型(如:SocBERT),等等。当然,模型训练的微调和优化也是提升生成式人工智能性能的重要环节。优化模型的结构和参数设置也至关重要,通过对模型内部机制的改进,使得决策过程清晰可辨。而最具有创新价值的,当然就是构建可解释性的新型模型架构,使模型的决策过程更加透明,智能机制更加可控。
最后,在工具和规则方面,可以通过开发各种类型的工具和引入规则来辅助解释和决策。如:开发类型丰富的可视化工具,将模型的内部决策过程和推理机制以更直观的方式呈现出来;通过引入领域知识和规则,对模型的生成结果进行约束和解释,来提高模型的可解释性。
(三)修订与完善学术伦理与管理规范
生成式人工智能应用于哲学社会科学研究,本质上是通过算法架构将人类认知的历时性积淀转化为共时性运算,它不过是康德(Immanuel Kant)的“为自然立法”走向“通过技术为意义立法”的范式迁移。在此迁移的过程中,为确保其在哲学社会科学研究中应用与发展符合人类的价值观和道德标准,保证人的主体性地位,需要制定新的伦理准则规范,包括数据使用伦理规范、算法伦理规范、生成内容伦理规范等。
在数据使用伦理规范方面,大模型训练数据使用包括收集、存储、使用和共享不同阶段。“为了规约数据技术的发展和应用,必须在使用中保持人的主体性地位,必须遵从人类的伦理规范,才能更好地发挥数据技术的作用,避免人的主体性地位的丧失。”为此,需采用安全可靠的存储技术、加密技术等,保障数据主体的知情权和隐私权,提升大模型数据社会信用的整体价值与意义。
在算法伦理规范方面,人工智能模型的设计阶段,应加强相关规则设计时的审查,避免引入偏见和歧视。通过多样化的数据训练和公平性的专业评估,以确保算法在处理不同群体的数据时,不会产生不公平的结果。
在生成内容伦理规范方面,为了防止生成式人工智能生成虚假信息、有害内容和侵犯知识产权的内容,还需要建立有效的生成内容监督和评估机制。基于自主的哲学社会科学知识体系建立专业的标准语料训练数据库,对不同的生成式人工智能产品的伦理表现进行量化评估。通过定期评估,及时发现和纠正存在的伦理问题,推动生成式人工智能的健康发展。
(作者简介:任丽梅,中国社会科学院马克思主义研究院副研究员,硕士生导师,哲学博士)
网络编辑:同心
来源:《观察与思考》2025年第5期