Skip to content Skip to footer

到底什么样的内容,才能被 AI 大模型“选中”?—深度解析普林斯顿大学 GEO 论文

我们不需要再去猜测 AI 的底层逻辑,普林斯顿的这篇论文(GEO:Generative Engine Optimization)直接在大模型实验室里,对成千上万个网页进行了“压力测试”。

实验的核心逻辑非常简单粗暴:改变网页内容的一小部分,观察 AI 引用该网页的概率是否会提升。

通过对这些数据的深度拆解,我发现想要被 AI “翻牌子”,内容创作者必须从根本上放弃传统的 SEO 思维。大模型并不是在寻找“最匹配的网页”,它在寻找的是最能增强它回答“说服力”的素材。

先说结论:谁能被 AI 引用,不是看关键词多不多,而是看你内容写得像不像“能直接放进答案里”。

一、 核心逻辑:数学模型—AI 怎么判定一个网站“重要”?

普林斯顿研究团队指出,在大模型时代,核心指标已经从 CTR(点击率) 转向了 Visibility(可见度)。为了量化这一概念,论文定义了一个关键公式,用于衡量网页内容在 AI 回答中的贡献度:

  • V(d) :域名总可见度。
  • PositionScore :取决于该网页被 AI 引用时的位置(越靠前得分越高)。
  • Relevance :查询请求的权重。

大白话翻译: 你的网站在 AI 写的回复里,被引用的位置越靠前、频率越高,且对应的搜索问题越火,你的分值就越高。

这意味着:如果你的内容没有出现在 AI 生成答案的引用列表(Citations)中,你的可见度就是 0。 AI 并不是在“阅读”你的内容,而是在进行博弈,寻找那些能显著降低其生成成本并提高回答可信度的片段。

二、GEO试验场—为了找出“什么样的内容最受 AI 喜欢”,研究人员是怎么在实验室里做“对照实验”的?

在传统网站优化中,我们叫它 SEO(搜索引擎优化);而在这篇论文里,因为针对的是 AI 大模型,所以叫 GEO(生成式引擎优化)

为了让你看懂这个“实验场”到底是怎么运作的,我们可以把它拆解成三个通俗的步骤:

1. 寻找“原始素材” (Original Content)

研究人员首先从 Google 等搜索引擎上,针对 10,000 多个真实的问题(比如“如何修理漏水的出水嘴”或“量子计算的原理”),抓取了搜索结果排名靠前的网页内容。 这些网页就是实验的基准(Base Case)

2. 制造“SEO 变体” (Creating Variants)

这就是你问的那个词。“变体”意味着:把同一篇文章,改写成不同的版本。 研究人员想知道:如果我微调文章的写法,AI 会不会更喜欢我?于是他们用 AI 工具把原始文章改写成了 9 种“变体”:

第一组:标准 SEO 变体(试图套用传统 SEO 逻辑)

这组策略是想看看,以前对谷歌有效的招数,对 AI 大模型还有没有效。

  1. 关键词堆砌 (Keyword Stuffing): 在文中不断重复用户搜索的那个词。
  2. 理解度优化 (Easy-to-Understand): 把复杂的长难句改写成小学生都能看懂的简单短句。
  3. 流畅度优化 (Fluency): 主要是润色文章,让文本读起来更自然、不生硬。

第二组:内容深度变体(针对大模型的语义特征)

这组策略利用了大模型对“独特性”的偏好。

4. 独特词汇 (Unique Words): 故意在文中加入一些该领域专业但稍微冷门一点的词汇(提升信息熵)

5. 专业术语 (Technical Terms): 大量使用行业内的术语和黑话。

第三组:高性能 GEO 变体(论文最推崇的“大杀器”)

这组策略在实验中表现最好,能显著提升 AI 的“好感度”。

6. 引用来源 (Cite Sources): 在关键观点后标注来自哪份报告或哪个权威机构(如“据麦肯锡报告…”)。

7. 权威性语气 (Authoritative): 用极度自信、确定的语气改写文章(AI 喜欢肯定的结论)。

8. 统计数据化 (Statistics): 也就是我之前说的,把“很多、非常、大幅”这种模糊词,换成“87%、1.2 亿美元、3 倍增长”。

9. 引用语优化 (Quotation): 在文章里插入真实的或模拟的“专家原话”。

三、让 AI 当“评委”进行测试

简单来说,论文的实验逻辑是:在所有外部条件(如链接、域名)都相同的情况下,只通过改变“内容的表达方式(9种变体)”,观察 AI 在总结答案时会优先选择哪种写法。

1. 实验对象:GEO-Bench 测试集

研究团队构建了一个包含 10,000+ 查询的基准测试集。这些查询涵盖了多个垂直领域(如健康、理财、科技、法律等),确保了实验结果具有统计学意义。

2. 实验核心:受控改写 (Controlled Rewriting)

为了剔除“网站权重”、“域名历史”等外部干扰因素,只研究“内容本身”的影响,研究者采取了以下步骤:

  • 提取基准: 获取针对某个查询在搜索引擎中排名靠前的原始网页内容(称为 Source Documents)。
  • 单一变量: 利用大模型(LLM)作为改写工具,保持原意不变,仅针对原文应用 9 种特定策略中的一种进行改写。
  • 生成变体: 这样针对同一个查询,就产生了 1 份原始内容和 9 份分别经过不同 GEO 优化的“内容变体”。

3. 评测机制:生成式引擎模拟

研究者将这些变体输入到不同的生成式引擎(GE)中。这些引擎模拟了真实 AI 搜索的工作流:

  1. 检索(Retrieval): 模拟从索引中提取相关片段。
  2. 重排与生成(Rerank & Generation): 引擎需要决定在最终生成的总结(Response)中,引用哪一个内容片段。

4. 量化指标:可见度评价

最后,研究者通过三个核心指标来判定哪种变体更受 AI 青睐:

  • 相对引用得分(Relative Citation Score): 衡量 AI 生成的回答中,来源于该变体的文本占比。
  • 引用排名(Citation Order): 该变体在参考资料列表中的物理位置(第1位 vs 第10位)。
  • 文本相似度(Semantic Similarity): 衡量 AI 生成的回答在语义上与该变体的贴合程度。

实验结果证明,AI 的筛选逻辑与传统搜索引擎完全不同,它在生成过程中表现出了对特定内容特征(如数据、引用、术语)的强偏好。

四、行业差异——为什么不能一套策略打天下?

这是论文最精彩的发现。它揭示了不同领域下,AI 引擎的“重排序(Reranking)”逻辑是完全不同的:

1. 严肃话题(法律、医疗、政府):看重“出身”

  • AI 的心态: “这事关人命/法律,我绝对不能胡说八道。”
  • 考核标准: 引用来源(Cite Sources)
  • 结果: 在这类话题下,如果你只是自己说得对,AI 不敢用你。你必须挂上“根据世界卫生组织”或“据某法律条文”。论文数据显示,只要有权威引用,哪怕你的原始排名很靠后,被 AI 选中的概率也会暴增。

2. 软性话题(时尚、娱乐、生活、辩论):看重“气场”

  • AI 的心态: “这类话题没有标准答案,我需要给用户一个听起来很笃定的建议。”
  • 考核标准: 权威语气(Authoritative)说服力语言(Persuasive Language)
  • 结果: 此时,冷冰冰的数据反而不如“坚定的结论”讨喜。AI 更倾向于抓取那些语气自信、能够直接给出“买它”或“这就是最好”结论的内容。

3. 知识话题(历史、科技、事实):看重“零件”

  • AI 的心态: “我需要具体的零件(数据和术语)来组装我的回答。”
  • 考核标准: 统计数据(Statistics)专业术语(Quotation/Technical Terms)
  • 结果: 这类话题 AI 喜欢做“拼图”。如果你提供了精准的年份、百分比或专业定义,AI 会觉得你的内容是最高质量的“原材料”,从而优先提取。

五、底层逻辑总结——AI 到底在找什么?

一句话总结:AI 引擎不再看谁的“名气”大(域名权重),而是在重排阶段看谁的内容更“硬”(证据支持)。GEO 就是通过优化内容的“可信度特征”,在 AI 内部的重排评分中拿高分,从而实现排名的逆袭。

要理解这个,你得先看懂 AI 搜索(比如 Perplexity 或 Google AI Overviews)是怎么干活的。它不像传统搜索那样只分发链接,它更像是一个“信息的加工厂”。

我们可以把这个过程拆解成三步,看看 GEO 到底在哪里起了作用:

1. 检索 (Retrieval):传统 SEO 的战场

  • 动作: 当你搜一个问题时,AI 先去互联网上抓取 10-20 个相关的网页。
  • 逻辑: 这一步和传统 SEO 一样。如果你关键词埋得好、外链多,你的网页就会被抓进这 10-20 个名单里。
  • 现状: 挤进这个名单已经不值钱了,因为 AI 不会把这 20 个链接都推给用户。

2. 压缩/重排 (Rerank/Compress):GEO 的核心战场(最关键!)

这是论文发现的最隐秘的一步。AI 拿到这 20 个网页后,不会直接复读,而是要在后台进行一次“内部海选”。

  • 动作: AI 会给这 20 个片段打分(语义评分)。
  • 评分标准: 谁更有说服力?谁有真实数据?谁看起来更像专家?
  • GEO 的逆袭: 论文发现,哪怕你的网页在第一步排名第 10,但如果你用了“高性能 GEO 策略”(有数据、有引用),AI 会在重排时把你提拔到第一名,作为它写答案的首选素材

3. 生成 (Generation):最终的流量分配

  • 动作: AI 根据“海选”胜出的内容,写成一段话给用户看。
  • 结果: 只有在第二步获胜的内容,才会被 AI 写进段落里,并打上 [1] 这种引用标签

结语:从“取悦爬虫”到“降伏模型”

普林斯顿的这篇论文实际上宣告了一个旧时代的终结:那个靠堆砌关键词、玩弄搜索算法就能坐拥流量的“黑盒时代”已经过去。在大模型构建的新秩序里,AI 不再是简单的引流器,而是信息的终极审裁官。

它不看你的网站权重,它只看你的内容是否具备支撑它得出结论的“确定性”。如果你无法通过优化内容在V(d)(可见度指标) 的量化过程中证明自己的价值,即便你的网页排在搜索结果的第一位,也终将沦为 AI 总结报告下的背景噪音。在 GEO 的世界里,只有足够硬核的数据和无可置疑的专业性,才是内容创作者最后的护城河。

参考文献:《GEO: Generative Engine Optimization》[1] Pranjal Aggarwal, Vishvak Murahari, et al. GEO: Generative Engine Optimization. Princeton University, 2023. arXiv preprint arXiv:2311.09731.

Go to Top

Our site uses cookies. Learn more about our use of cookies: cookie policy
Our site uses cookies. Learn more about our use of cookies: cookie policy