摘要
随着大语言模型(Large Language Model, LLM)在生成任务领域取得突破性进展,人工智能生成文本(Artificial Intelligence Generated Text ,AIGT)呈现出指数级增长。尽管 LLM 的卓越性能吸引了学术界广泛关注,但其潜在的滥用风险也引发了社会各界的深切忧虑。特别是,LLM 已被不当利用于生成虚假新闻、伪造学术论文和虚假专利申请文件等违规行为。因此,识别和检测人工智能生成的内容已成为当前亟待解决的关键科学问题。然而,现有的 AI 文本检测研究的重点主要集中在一般文本或者特定文本,专门针对 AI 生成专利文本的检测仍有待完善。目前,不仅专门用于专利文本生成检测的标准化数据集缺乏,而且面向专利文本的 AI 生成检测方法。这一研究现状严重制约了相关领域的深入发展。本文的主要贡献点包括以下三个方面:(1) 数据集构建:考虑目前的研究没有针对专利文本这一类型的文本,本文提出了一种利用大模型自动生成专利摘要的数据集构建方法。具体而言,本文先 是 通 过 爬 虫 获 取 已 授 权 的 专 利 摘 要 以 及 其 对 应 的 权 利 要 求 书 , 并 利 用ChatGPT 3.5 Turbo 模型,将权利要求书生成一组中文和英文的专利摘要文本。由此构建了一个可用于专利文本生成检测的公开可用的数据集 PAD。所构建的数据集涉及四个领域的专利:人工智能、生物医药、电气工程、机械制造,并且本文通过 ROUGE、BERTScore、MoverScore 来评估数据集 PAD 的质量。(2) 文本特性探索分析:本文在构建的 PAD 数据集上进行了词汇特征分析、词性特征分析、依存关系分析、情感极性分析、语言困惑度分析等探索性的实验,以此来探索 AI 生成的专利文本与人类编写的专利文本之间的差异。(3) 检测方法设计:基于上述探索分析结果,本文结合宽度学习系统,引入残差注意力机制和专利文本自适应权重,设计了一种面向专利领域的 AI 生成文本检测方法 PAA-BLS。在 PAD 数据集上,本文将 PAA-BLS 与现有的检测方法进行了实验对比,实验结果表明,本文提出的方法可以有效平衡模型复杂度和检测性能。综上所述,本文提出了一种构建 AI 生成专利文本检测数据集的方法,并构建了一个名为 PAD 的用于 AI 生成专利文本检测的数据集,结合探索分析结果构建了一种面向专利文本的检测方法。本文的研究为人工智能生成专利文本的检测提供了创新性方法和数据支持,增强了知识产权保护的技术手段,对提升专利审查的准确性和效率具有重要的应用意义。
AbstractAs
large language models (LLMs) achieve breakthrough progress in generativetasks, Artificial Intelligence Generated Text (AIGT) has experienced exponentialgrowth. Although the exceptional performance of LLMs has garnered widespreadacademic attention, their potential misuse has also raised deep concerns across varioussectors. Specifically, LLMs have been improperly used to generate fake news,counterfeit academic papers, and false patent application documents, among otherviolations. Consequently, identifying and detecting AI-generated content has become acritical scientific issue that urgently needs addressing. However, existing AI textdetection research mainly focuses on general or specific texts, and the detection of AI-generated patent texts remains underdeveloped. Currently, there is a lack ofstandardized datasets specifically for patent texts generation detection, as well as AIgeneration detection methods tailored for patent texts. This research status severelyrestricts the in-depth development of related fields.The main contributions of this paper include the following three aspects:(1) Dataset Construction: Considering that current research does not target patenttexts, this paper proposes a method for constructing datasets that automatically generatepatent abstracts using large models. Specifically, the paper first employs web crawlersto obtain granted patent abstracts and their corresponding claims, and then uses theChatGPT 3.5 Turbo model to generate a set of Chinese and English patent abstract textsfrom the claims. Thus, an openly available dataset, PAD, is constructed for patent textsgeneration detection. The constructed dataset covers patents in four fields: artificialintelligence, biomedicine, electrical engineering, and mechanical manufacturing, andthe paper evaluates the quality of the PAD dataset using ROUGE, BERTScore, andMoverScore.
目录
摘要
Abstract
1 绪论
2 相关技术及理论
3 专利文本AI生成检测数据集的构建
4 AI生成与人类撰写专利文本差异性探索
5 面向专利领域的机器生成文本检测方法的研究
6 总结与展望
参考文献
1 绪论
1.1 研究背景与意义自然语言生成(Natural Language Generation, NLG)是指通过非语言输入自动生成自然语言文本的过程,该任务自出现以来一直是人工智能领域长期研究的课题之一,与自然语言理解等技术高度相关[1]。文本自动生成的实现标志着人工智能逐渐走向成熟。文本生成模型(Text generation model, TGM)生成的语意连贯且语法正确的文本,对于机器翻译、文本摘要、对话系统和图像描述等应用场景起着至关重要的作用[2–4]。随 着 人 工 智 能 技 术 的 迅 猛 发 展 , 深 度 学 习 在 自 然 语 言 处 理 (NaturalLanguage Processing, NLP)领域取得了显著的成果。特别是在文本生成任务中,基于深度学习的生成模型(如 GPT 系列、BERT、T5 等)展现出了强大的语言理解与生成能力。而随着大语言模型(Large Languag Model,LLM)的爆火,人工智能生成文本(Artificial Intelligence-Generated Text ,AIGT)技术不仅广泛应用于机器翻译、自动摘要、文本分类等传统任务,还在专利文本生成、法律文书撰写等高专业化领域中展现出重要价值。然而,LLM 强大的生成能力也带来了新的挑战,使得区分其生成的文本与人类撰写的文本变得愈发困难。事物的发展向来具有双重性,大模型技术的崛起无疑为智能化发展注入了强大动力,推动技术迈向新的高度。然而,其滥用所引发的一系列问题也不容小觑,这些问题集中体现在以下两个维度:一方面,LLM 本身存在一些固有缺陷,例如大模型的幻觉问题、容易包含过时信息,并对输入提示表现出高度敏感性。这些问题可能导致错误信息的传播、削弱技术专业性,甚至助长抄袭等不良行为。另一方面,LLM 的强大功能也可能被滥用于不良目的,例如传播虚假信息、实施网络欺诈、生成社交媒体垃圾内容。在学术领域,LLM 的滥用容易引发不诚信行为,例如被学生利用来杜撰学术论文等。而专利文本作为知识产权保护的重要载体,具有高度的专业性、技术性和法律性。近年来,AI 生成技术在专利撰写中应用越来越广泛,它虽然能够被用于辅助用户撰写专利申请文件,提高专利撰写效率,但是也会带来不少影响[5],

AA-BLS 整体框架图
具体如下:(1). 专利信息披露问题的加剧:AI 撰写的专利可能会导致准确性和实用性下降,尤其是对技术信息的披露质量产生负面影响。AI 工具虽然能够生成符合法律要求的专利文本,但可能包含不正确或误导性的信息。(2). “预言性”专利的风险:从专利申请的角度来看,AI 生成的内容有可能让专利申请所基于的是那些并未真正付诸实践的“预言性”披露内容,这样的专利虽然在法律上被认为是具有可操作性的,但对于后续真实的发明者将构成障碍,影响他们的专利申请。(3). 审查和标准提升的必要性:现有的审查机制和专利披露标准可能需要调整,以适应创新生态系统的变化。具体建议包括要求发明者至少实施部分发明,强化披露的审查力度,提升专利审查员的培训,以及引入更多科学专业人士参与审查过程。(4). 政策需再评估:对现有的法律标准需要进行再评估,来提高专利申请的透明度,并考虑利用 AI 工具来识别和提高信息披露质量。除此之外,生成技术的滥用可能导致伪造专利文本、侵权行为或低质量文本的大量出现,进而对专利审查流程和知识产权保护体系造成潜在威胁。因此,如何准确检测由深度学习模型生成的专利文本,成为了一个亟待解决的重要问题。针对 AI 生成文本检测的研究主要集中在通用领域或者例如学术论文等的特定类型文本,然而专利本具有独特的语言风格、专业术语体系以及规范化的结构特征,这使得现有的通用检测方法在专利文本领域中可能面临适用性局限。因此,面向专利文本的生成检测方法研究,需要结合专利文本特性来构建针对性的检测方法,以提升检测的准确性和鲁棒性。本研究聚焦于人工智能生成文本(AIGT)的检测方法,特别针对专利文本这一特定应用场景开展研究。鉴于 AI 生成的专利文本通常呈现出复杂的多句式结构,其检测的核心任务在于准确判定文本的来源属性——即区分其是源自人类创作或机器生成。从方法论角度而言,该任务可以被形式化为文本分类问题,通过系统提取和分析专利文本的特征表征,实现对文本来源的精确分类。AI 生成文本检测技术的研究,不仅可以减少专利信息披露问题,还可以提升专利审查员的审查效率,降低“预言性”专利出现的风险。此外,该领域的研究也为 NLP 和 AIGT 技术的发展注入了新的动力,推动 AIGT 检测技术的规范化应用与持续创新。

PAA-BLS 在 PAD 数据集上与其他方法对比的指标结果
1.2 国内外研究现状及面临的挑战
随着人工智能生成内容(Artificial Intelligence-Generated Content , AIGC)技术的迅猛发展,尤其是自然语言生成技术在各领域的广泛应用,我们正面临网络信息爆炸和文本形态多样化的双重挑战。在此背景下,网络空间中内容的真实性愈发难以甄别,使得 AI 生成文本的有效检测成为一项迫切需求。针对 AI 生成内容的独特特征和多样化的生成方法,学术界已开展了系统性研究,主要形成了两大技术路线:传统机器学习方法和深度学习模型。这些研究为解决文本真伪识别问题提供了重要的理论和实践基础。
1.2.1 基于传统机器学习的检测技术通过结合人类的视觉解读能力、常识知识以及计算机的高速统计运算,可以构建一个用于识别机器生成文本的系统。2017 年,Tien 等人尝试通过计算文本距离进行文本分类,以区分真实文本与机器生成文本[7]。然而,该方法在实际应用中面临显著限制,特别是在识别大规模真实文档中散布的 AI 生成片段时表现欠佳。为应对这一挑战,研究团队开发了基于语法结构相似性(GrammaticalStructure Similarity, GSS)的检测框架,该框架通过解析树技术分析句法特征,摒弃了对具体词汇的依赖,实现了句间结构相似度的量化评估。尽管 GSS 方法在句子层面的检测任务中展现出独特优势,但在面对新型生成技术(如基于马尔可夫链或 RNN 的模型)以及样本稀缺等场景时,其实用性仍显不足。2019 年,Ippolito 等人研究了人类和自动检测器在识别 AI 生成文本方面的能力差异[8]。实验结果表明,尽管文本长度的增加能提升人类专家和自动检测系统的识别准确率,但在多句段落的情况下,AI 生成内容仍有超过 30%的概率能够规避资深评估人员的判断。这一发现凸显了将人类认知经验与 AI 检测系统相结合的必要性,以评估生成系统输出的自然度。不少研究团队通过对文本特征的可视化分析(如语境不协调性和词汇使用异常等),致力于开发辅助工具,增强人类对 AI 生成内容的识别能力。例如,在 2020 年,Gehrmann 等人开发了一种名为 GLTR(Giant Language Model Test Room)的工具,该工具通过计算文本序列的概率直方图,使机器生成文本的特征更易被检测[9]。研究表明,借助GLTR,未经专业训练的人类能够显著提高对生成文本的检测准确率,从原本的54%提升至 72%[9]。然而,研究发现,尽管初步识别和标记机器生成内容相对容易实现,但要准确判定文本的真实来源和生成属性仍面临重大挑战。这一现象不仅突显了检测技术的局限性,也凸显了在打击虚假信息传播过程中,人类专家判断与自动化系统协同配合的关键作用。2020 年,另一种名为 RoFT 的工具被提出用于评估人类对 AI 生成文本的检测能力,其方法是要求人类在阅读文本时标记从真实文本到生成文本的句子边界[10]。研究发现,无论检测器模型的复杂程度如何,该工具在使用较大 GPT-2模型生成的示例进行训练时表现良好,并且能够很好地适应较小 GPT-2 模型生成的文本[11]。然而,当训练数据来自较小 GPT-2 模型时,其对较大 GPT-2 模型生成内容的分类性能会显著下降。这表明训练数据的规模和模型容量对检测性能有重要影响。尽管如此,RoFT 工具也存在局限性。由于展示给人类的文本可能包含大量人类生成的句子,其结果未必能真实反映 TGM 模型自然生成文本的特性。这一问题表明,在利用人类标注生成文本时,需更加谨慎地设计实验以确保结果的科学性和可靠性。2019 年,Irene 等人提出了一种简单的对比模型,该模型基于逻辑回归算法,将文档表示为 TF-IDF 向量,用于区分网页文章和生成文本[12]。2020 年,Tay 等人则研究了不同的建模选择(如解码方法、TGM 模型大小、提示长度等)对生成文本中可检测特征的影响程度[13]。此外,Allen 等人通过量化学术文章中的关键词提出了一种检测生成文本的方法[14]。Arase 和 Zhou 使用 N-gram 特征量化连续词与非连续词的流畅性,进一步评估生成文本的特性[15]。Renata 等人从写作风格的角度出发,采用动态差异性的方法来衡量论文写作风格之间的距离,以此发现生成文本[16]。Nguyen-Son 等人则提出了一种基于 Zipfian 分布的统计分析方法来检测生成文本。他们指出,人类书写文本中的词频分布通常符合 Zipf 定律,即最常用单词的频率约为第二常用单词的两倍,几乎是第三常用单词的三倍,依此类推。然而,研究发现,计算机生成的文本往往不符合这一分布规律[17]。尽管上述方法在检测生成文本方面取得了一定成效,但它们大多基于统计分析技术,存在以下显著局限性:(1). 对单词顺序不敏感,忽略文本语义结构:这些方法主要关注词汇或词频特征,而不处理文本的深层含义,导致对语义信息的捕捉能力不足。(2). 数据集规模限制:有限的训练样本难以支持系统准确识别来自大规模语料库的低频文档,特别是在获取真实文本数据集面临挑战的情况下,检测效果更显不足。随着生成文本与人类创作在语言特征上的差异逐渐缩小,传统机器学习方法在深层语义特征提取方面表现出明显局限性,难以适应日益复杂的检测需求。这一现状凸显了未来研究方向:需要构建融合语义分析与深度学习技术的混合架构,以增强系统对 AI 生成文本的识别能力。1.2.2 基于深度学习的检测技术深度学习技术的蓬勃发展推动了文本检测领域的重大突破。传统检测范式由于局限于单一特征维度,在识别不同来源文本的微观差异时存在明显瓶颈。针对这一技术难点,研究者创新性地引入了基于 Complex Network (CN)的检测框架。该方法通过构建单词邻接模型来提取网络拓扑特征,为精确刻画文本的独特语言模式提供了新的分析维度,显著提升了检测的精确度和鲁棒性。有趣的是,不同语言的特殊特性也可以通过复杂网络的拓扑结构进行分类[18]。在 2015 年,Diego 提出了一种创新的复杂网络检测方法。该方法不关注文本的语义相似性,而是重点分析文本的结构和组织模式,尤其是其连接方式。通过结合单词邻接模型提取的网络特征与机器学习技术,有效识别出自动生成的论文。这也从侧面验证了机器生成文本在组织结构上存在一些隐藏模式,这些模式与真实文本的结构模式存在显著差异[19]。该方法的检测准确性仍逊于传统基于文本内容的技术。在未来,优化分类器参数或将复杂网络方法与统计分析更紧密结合,可能进一步增强自动生成文本的检测能力。此外,需要注意的是,目前的检测方法仍无法完全保证检测结果的准确性,这表明在生成文本检测领域仍有较大的改进空间。为了提升检测精度,研究人员提出了一些针对特定文本生成技术的检测方法,例如循环神经网络(Recurrent Neural Network, RNN)、马尔科夫模型以及概率上下文无关文法(Probability Context-free Grammar, PCFG)[7,20,21]。研究发现,自动生成的文本往往形成紧密的分组,与真实文本在分布上存在明显的差异理序列数据方面的优势,提出了一种专门针对 RNN 生成文本的检测模型[22]。尽管这些自动检测模型在性能上显著优于人工评分,但它们在应对其他生成技术生成的文本时,泛化能力仍显不足。这表明,进一步提升检测模型的通用性和适应性仍是未来研究的重要方向。通过对预训练语言模型进行微调,可以有效检测由自身或类似模型生成的文本。预训练语言模型在促进文本自动生成和检测技术发展方面发挥了重要作用。研究表明,语言模型的预训练在改进许多自然语言处理任务上具有显著效果[23]。在 2019年5月,华盛顿大学和艾伦人工智能研究所的研究人员提出了一种名为Grover的可控文本生成模型[24]。Grover能够根据文章标题高效生成完整的新闻报道,包括正文、标题、新闻源、发布日期和作者名单,其生成内容的可信度甚至超过人类撰写的新闻。在此之前,OpenAI推出的GPT-1和GPT-2模型,以及Google的BERT模型,都展现了强大的文本生成能力[10,23,24]。在 2019年, Zellers等人基于Grover模型设计了一种基于线性分类器的检测器[24]。在虚假新闻检测任务中,使用Grover模型的准确率高达92%,显著优于此前最高73%的检测准确率[10,23,24]。此外,在 2019 年,Irene 等人对 RoBERTa 语言模型(包含 3.56 亿个参数)进行了微调,成功构建出能够识别由 GPT-2 最大模型(15 亿个参数)生成网页的检测器,其准确率达到了 95%[12]。他们还提出了一种基于 TGM 计算总 log 概率的方法,并通过设定概率阈值来进行预测[12]。Liu, Xiaoming 等人在 2022 年提出 了 一种基 于 连贯性 的 对比学 习 模型(CoCo),用于检测 AI 生成的文本[25]。该模型通过实体一致性和句子间交互来建模文本的连贯性。在准确率和 F1 得分方面,CoCo 模型的表现不仅优于 GPT-2、RoBERTa 和 XLNet 等类似模型,还超越了 GROVER 和 FAST 模型。Eric Mitchell 等人在 2023 年提出了一种名为 DetectGPT 的工具,用于检测由 LLM 生成的文本[26]。与现有的零样本方法相比,DetectGPT 在检测机器生成文本方面更为有效。研究表明,DetectGPT 在检测由拥有 200 亿参数的 GPT-NeoX 生成的虚假新闻文章时表现显著提升,其 AUROC 达到 0.95,而最强零样本基线的 AUROC 仅为 0.81。此外,作者还发现,DetectGPT 无需训练单独的分类器或收集真实语料库与生成语料库的数据集,这使其成为一种更高效且实用。
1.2.3 专利文本 AI 生成检测面临的挑战当前,尽管 AI 生成文本检测技术取得了突破性进展,但仍然面临诸多挑战:(1) 当前的研究主要聚焦于通用文本,而专利文本这一垂直领域尚属空白,数据集的缺失值得深入探索。从传统意义上看,专利文本与通用文本在格式和内容上具有显著差异。专利文本通常具有严格的结构化要求,包括技术背景、发明内容、实施方式等部分,其语言风格更趋向于严谨、专业和规范化,与通用文本的表达方式存在明显的语言差异。此外,专利文本的语言特点还体现在其高度技术性和法律性上,这使得生成文本的检测任务更加复杂。一方面,专利文本需要精准描述技术细节,生成的文本必须具备高度的逻辑性和一致性;另一方面,专利文本中常包含大量特定领域的术语和句法结构,这与通用文本的语义和语法特征大相径庭。因此,如何针对专利文本的特性构建专属数据集,并在此基础上开发适配的生成与检测方法,是一个值得深入研究的课题。除此之外,现有针对通用文本的检测方法可能难以直接应用于专利文本领域,亟需开发能够捕捉专利文本特有特征的检测模型。(2) 如何构建针对 AI 生成专利文本检测的方法是一个亟需解决的问题。当前的检测方法多依赖于特定生成技术,仅能识别由特定技术生成的文本,导致检测准确性无法得到保障。尽管通过微调预训练的语言模型方法可以显著提升检测精度,但其泛化能力有限,仅对自身或类似模型生成的文本有效。如何进一步提升检测模型的泛化能力,使其能够应对多样化的生成文本,是当前研究的关键难点之一。
(3) 在专利审查的过程中,往往需要对海量的专利文本进行 AI 生成检测,因此如何实现资源少、检测耗时短的检测方法,具有重要的应用意义。目前,现有方法大部分是基于深度学习的检测方法,但是这类方法通常伴随着高昂的计算成本和资源需求。这些方法往往使用拥有庞大的参数量的模型,对硬件配置要求较高,同时在推理阶段耗时较长,难以满足实际应用中对高效性和低资源占用的需求。当它面临海量的专利文本时,一种快速的、轻量化的检测器显得尤为重要。综上所述,现有的研究只涉及到通用文本或其他特定类型文本,并没有针对专利文本领域进行相关研究。其次,现有的生成检测方法,只能发现文本的高频出现的重要特征。随着生成文本质量不断提高,这些特征无法区分生成文本与真实文本之间的细微差别,影响了检测模型的准确性,生成文本的更具有代表性的相关性特征变得特别重要。除此之外,基于深度学习的检测方法虽然达到了较高的准确度,但所需资源、计算推理成本高,并且只能检测从自身或类似模型生成的文本。因此,为了弥补这一研究领域的空白,构建一个能够针对专利文本领域挖掘生成文本相关性特征,同时具备资源消耗低和检测效率高等特点的 AI 生成文本检测方法,已成为当前亟需解决的任务。1.3 研究内容本文通过对相关工作的研究与分析,发现现有生成文本检测方法研究主要集中在通用文本领域,并没有涉及到专利文本这一垂直领域,并且主流的方法是基于深度学习的方法所需要的硬件资源较高。针对上述问题,本文的目标是利用所需资源低的宽度学习方法,引入改进的宽度学习系统方法来提高模型检测性能。通过梳理和分析生成文本检测技术的研究现状,针对当前生成文本检测工作中存在的问题,本文的贡献点包括以下三个方面:(1) 针对专利文本生成检测研究领域,提出了一个面向专利的 AI 生成文本检测数据集自动构建方法,并构建了一个用于专利文本生成检测的数据集—PAD,包含四个领域:人工智能、生物医药、电气工程、机械制造。本文在ROUGE、BERTScore、MoverScore、Perplexity 指 标 上 与 M4、MGTBench、CHEAT 等公开数据集进行对比,以评估本文数据集的构建质量。(2) 对 AI 生成的专利文本进行探索性实验,从文本自身特性探究人类撰写的专利文本和 AI 生成的专利文本之间的差异性。包括 AI 生成的专利文本与人类撰写的专利文本之间的词汇差异、词性差异、依存关系差异、情感极性分布差异、语言模型困惑度差异。(3) 基于上述探索分析结果,结合宽度学习系统,引入残差注意力机制和专利文本自适应权重,本文构建了一种面向专利领域的 AI 生成文本检测方法。在本文构建的 PAD 数据集上,与现有其他方法进行实验对比,结果表明,该方法可以有效平衡模型复杂度和检测性能。本文针对专利文本 AI 生成检测任务的解决方案的整体流程如图 1-1 所示:首先构建面向专利文本 AI 生成检测的数据集,并且对构建的数据集进行质量评估,这一部分对应论文的第三章内容;接着探究 AI 生成的专利文本和人类撰写的专利之间的差异性,包括词汇特征分析、词性特征分析、依存关系分析、情感极性分析、语言困惑度分析等实验分析,本部分对应论文的第四章内容;最后,本文结合第四章的差异性探索结果,基于宽度学习系统,提出了一种面向专利领域的 AI 生成专利文本检测的方法,本部分对应论文的第五章内容。
总结与展望近年来,随着生成式技术的不断突破,LLM 迅速发展,并以其强大的性能逐步渗透到日常生活的各个方面,在许多专业工作流程中发挥了重要作用。例如,这些模型在广告标语生成、新闻撰写、故事创作和代码生成等任务中表现出色,显著推动了相关领域的进步。同时,其影响力已扩展至教育、法律、生物学和医学等多个行业和学科,对这些领域的发展产生了深刻的推动作用。因此,如何实现对 AI 生成文本的自动化、精准检测,不仅具有重要的研究价值,也已成为自然语言处理领域的研究热点之一。本文通过对 AI 生成文本检测问题的相关研究进行梳理与复现,对现有的检测方法进行了系统分析,发现已有的工作在针对专利文本生成检测领域空缺,更没有研究工作针对专利文本生成检测构建相应的检测器。另外,如何提高生成文本检测模型的泛化能力,针对专利文本特点构建检测器也是研究过程中所面临的重要问题之一。针对上述问题,本文构建了一种基于宽度学习的 AI 生成文本检测方法,所做的主要研究工作如下:(1). 通过对研究背景和国内外研究现状的全面分析,明确了专利文本生成检测研究的必要性和紧迫性。相关文献综述表明,虽然通用领域的文本生成检测已有一定研究基础,但专利文本这一特殊领域的检测研究仍存在明显不足。(2). 针对专利文本生成检测研究领域,构建了一个用于专利文本生成检测的数据集,包含四个不同的技术领域:人工智能、生物医药、电气工程、机械制造,并通过严格的质量评估确保了数据集的可靠性和代表性,为后续研究提供了坚实的数据基础。(3). 针对构建的数据集,通过一系列实验探索了 AI 生成专利文本与人类撰写专利文本之间的差异特征。研究从词性分布、情感极性表达以及句法依存关系等多个维度进行了深入分析,发现了两类文本在语言结构和表达模式上的显著差异,为检测方法的设计提供了理论依据。(4). 基于宽度学习的方法,引入特征残差注意力机制,提出了一种轻量化的专利文本生成检测方法。该方法具有参数量少、训练速度快、资源需求低等优势,同时保持了较高的检测准确率。实验结果表明,与传统深度学习方法相比,本文提出的方法在保持检测性能的同时,显著降低了计算复杂度和资源消耗,更适合实际应用场景。尽管本研究在专利文本生成检测方面取得了一定成果,但仍存在一些局限性,未来研究可从以下几个方向继续深入:(1) 数据集扩展与多样化:进一步扩大数据集规模,增加不同语言、不同技术领域、不同生成模型来生成专利文本样本,提高数据集的多样性和代表性。同时,针对不同生成模型的输出特征,构建更加细粒度的数据集,以提升检测模型的泛化能力[52,53]。(2) 特征工程优化:在现有文本特征分析的基础上,探索更多专利文本特有的语言学特征和结构特征,如专利权利要求的格式特征、技术术语使用模式等,以进一步提高检测的精确度[54]。(3) 模型轻量化与效率提升:继续优化基于宽度学习的检测模型,探索更高效的特征提取和表示方法,进一步降低模型复杂度,提高检测效率,使其能够更好地适应大规模专利文本检测的实际需求[29]。(4) 可解释性研究:加强检测模型的可解释性研究,使模型能够明确指出哪些文本特征导致了检测结果,提高检测结果的可信度和可理解性,为专利审查人员提供更有价值的参考信息[55]。(5) 对抗性研究:研究针对检测模型的对抗性攻击方法,提高检测模型的鲁棒性,应对不断演进的 AI 生成技术带来的挑战。(6) 多模态检测:将检测范围从纯文本扩展到包含图表、公式等多模态内容的专利文档,构建更加全面的专利生成内容检测体系。本研究为专利文本生成检测领域提供了新的方法和思路,未来研究将继续深化和拓展相关工作,以应对 AI 技术发展带来的新挑战,保障知识产权体系的健康发展。
参考文献[1] Otter D W, Medina J R, Kalita J K. A survey of the usages of deep learning fornatural language processing[J]. IEEE transactions on neural networks and learningsystems, 2020, 32(2): 604-624.[2] Grechishnikova D. Transformer neural network for protein-specific de novo druggeneration as a machine translation problem[J]. Scientific reports, 2021, 11(1): 321.[3] Abualigah L, Bashabsheh M Q, Alabool H, et al. Text summarization: a briefreview[J]. Recent Advances in NLP: the case of Arabic language, 2020: 1-15.[4] Ham D, Lee J G, Jang Y, et al. End-to-end neural pipeline for goal-oriented dialoguesystems using GPT-2[C]//Proceedings of the 58th annual meeting of the association forcomputational linguistics. 2020: 583-592.[5] Ouellette L L, Fang V, Ouellette N T. How will AI affect patent disclosures?[J].nature biotechnology, 2025, 43(1): 26-28.[6] Fagni T, Falchi F, Gambini M, et al. TweepFake: About detecting deepfaketweets[J]. PLOS ONE, 2021, 16(5): 1-16.[7] Tien N M, Labbé C. Curious cases of automatically generated text and detectingprobabilistic context free grammar sentences with grammatical structuresimilarity[C]//Proceedings of the Fifth Workshop on Bibliometric-enhancedInformation Retrieval (BIR) co-located with the 39th European Conference onInformation Retrieval (ECIR 2017). 2017.[8] Ippolito D, Duckworth D, Callison-Burch C, et al. Automatic Detection ofGenerated Text is Easiest when Humans are Fooled[C]//JURAFSKY D, CHAI J,SCHLUTER N, et al. Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. Online: Association for Computational Linguistics, 2020:1808-1822.[9] Gehrmann S, Strobelt H, Rush A M. GLTR: Statistical Detection and Visualizationof Generated Text[C]//Proceedings of the 57th Annual Meeting of the Association forComputational Linguistics: System Demonstrations. 2019: 111-116.[10] Dugan L, Ippolito D, Kirubarajan A, et al. RoFT: A Tool for Evaluating HumanDetection of Machine-Generated Text[J]. EMNLP 2020, 2020: 189.[11] Radford A, Narasimhan K, Salimans T, et al. Improving language understandingby generative pre-training[EB/OL]. OpenAI blog, 2018.[12] Solaiman I, Brundage M, Clark J, et al. Release strategies and the social impactsof language models[EB/OL]. arXiv preprint arXiv:1908.09203, 2019.[13] Tay Y, Bahri D, Zheng C, et al. Reverse Engineering Configurations of Neural TextGeneration Models[C]//Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. 2020: 275-279.[14] Lavoie A, Krishnamoorthy M. Algorithmic detection of computer generatedtext[EB/OL]. arXiv preprint arXiv:1008.0706, 2010.[15] Arase Y, Zhou M. Machine translation detection from monolingual web-text[C]//Proceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). 2013: 1597-1607.[16] Avros R, Volkovich Z. Detection of computer-generated papers using one-classSVM and cluster approaches[C]//Machine Learning and Data Mining in PatternRecognition: 14th International Conference, MLDM 2018, New York, NY, USA, July15-19, 2018, Proceedings, Part II 14. Springer, 2018: 42-55.[17] Nguyen-Son H Q, Echizen I. Detecting computer-generated text using fluency andnoise features[C]//International Conference of the Pacific Association forComputational Linguistics. Springer, 2017: 288-300.[18] Amancio D R, Nunes M G, Oliveira Jr O N, et al. Extractive summarization usingcomplex networks and syntactic dependency[J]. Physica A: Statistical Mechanics andits Applications, 2012, 391(4): 1855-1864.[19] Amancio D R. Comparing the topological properties of real and artificiallygenerated scientific manuscripts[J]. Scientometrics, 2015, 105: 1763-1779.[20] Klahold A, Fathi M, Klahold A, et al. Automatic text generation[J]. Computer aidedwriting, 2020: 131-154.[21] Soremekun E, Pavese E, Havrikov N, et al. Probabilistic grammar-based testgeneration[C]//Software Engineering 2021. 2021: 97-98.
相关文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.