GPT4限制被破解！ChatGPT实现超长文本处理的新方法

296次阅读

共计 2102 个字符，预计需要花费 6 分钟才能阅读完成。

基于 GPT- 4 技术的人工智能机器人 Auto-GPT 在近期受到了广泛关注

ChatGPT 已经成为了一款备受欢迎的工具，它可以帮助用户解答问题、写代码、翻译，甚至可以通过它学习更多行业的知识。然而，博主在使用 ChatGPT 时会发现它还不够智能，有时候不能够完全理解用户的意思，答非所问，下面是博主在使用中遇到的痛点

使用 chat-gpt 过程中有哪些痛点

1. 无法理解人类情感和主观性

尽管 ChatGPT 可以根据上下文理解用户的输入，但它仍然无法真正了解用户的意图，ChatGPT 只能根据输入数据和算法进行分析和回答，无法真正理解人类的情感和主观性。这种局限性可能导致一些误解和问题。

2. 上下文丢失

与 ChatGPT 进行对话时，它能够记住上下文，并在后续回答中考虑之前的内容。但是，博主在使用过程中经常会出现 ChatGPT 忘记之前的对话，这可能是由于单次请求中 Token 数量的限制或是 ChatGPT 会话长度的限制所导致的。

3. 约定被打断

如果在会话中如果有很多其他的问答，ChatGPT 可能会在继续下一步时忘记之前的约定，需要再次约定才会保持下去

那如何去解决这个痛点

这几个痛点我想使用过 gpt 的小伙伴都深有体会，那如何去解决这些问题呢。其实 openAI 已经给出了答案。

在发布 gpt4 的时候，最大的变化除了新数据模型的发布，还有一个重要的技术点更新：上下文 token 默认为 8K 最长 32k(约 50 页文本) 这代表可以可以处理更长的对话以及更深层次的语义分析。这也是 gpt4 更智能好用的原因。

但如果把这个 token 提升到 200 万个，那又会发生什么，

tips:token 简介 AI 模型使用的是非结构化文本，常用 Token 表示，以 GPT 模型为例，1000 个 Token 约等于 750 个英文单词

一篇在 AI 界热论的论文给出了答案，《Scaling Transformer to 1M tokens and beyond with RMT》它可以把 Transformer 的 Token 上限扩展至 100 万，甚至更多。

GPT4限制被破解！ChatGPT实现超长文本处理的新方法插图

— 3 —

Transformer(RMT) 怎么去实现的

1.Transformer 模型

GPT4限制被破解！ChatGPT实现超长文本处理的新方法插图1

Transformer 是一种神经网络模型，是迄今为止最新和最强大的模型之一，常用于处理上下文学习语义含义。

我们来看看 gpt4 的上下文处理模型为什么只能达到 8 -32k，因为 transformer 的可输入长度取决于内存大小，这意味着实现太长的 token 不现实，Transformer 存在一个关键问题，即其注意力操作的二次复杂度，这导致将大模型应用于处理较长序列变得越来越困难。然而，通过利用特殊的记忆 token 实现记忆机制的 Recurrent Memory Transformer(RMT) 模型，有效上下文长度能够增长到百万级，这带来了新的发展前景。

2.RMT 模型

RMT 全称 Recurrent Memory Transformer(递归记忆 Transformer)

RMT 结构图：

GPT4限制被破解！ChatGPT实现超长文本处理的新方法插图2

递归记忆 Transformer(RMT) 是一种基于记忆机制的序列建模架构，用于存储和处理序列数据中的局部和全局信息，并通过递归传递信息来处理长序列中的段之间的依赖关系。

相较于标准 Transformer 模型的实施，RMT 仅通过对输入和输出序列进行修改而无需修改底层模型架构。模型通过训练过程中的记忆操作和序列表示处理来掌控记忆机制的行为。

具体而言，RMT 采用记忆 token 的方式将记忆信息添加到输入序列中，从而为模型提供额外的容量，以处理与输入序列中任意元素无直接关联的信息。为了应对长序列的挑战，RMT 将序列分割为不同的段，并通过记忆传递机制将上一段的记忆状态传递到当前段。在训练过程中，梯度通过记忆传递的路径从当前段向前一段流动，从而实现信息的回传和更新记忆状态的目的。

这意味着扩展了 token 的数量，如果达到理想的 200 万，我们可以将整部小说甚至更多内容输入到 GPT 中，而无需依赖上下文来理解用户的信息。这种改进使得 GPT 能够更准确地处理输入，并提供更精准的回复。

现在，试想一下，如果我将整篇《红楼梦》输入到 GPT 中，是否可以让它帮我续写这个经典作品呢?

3. 计算推理速率

GPT4限制被破解！ChatGPT实现超长文本处理的新方法插图3