以openai 大gpt大语言模型为例来说明:

以下是常用的openai的大模型对比图:

4k 8k 16k 32k 分别是4000 token和8000 token 16000 token和32000token

上文(提示输入)+下文(输出补全)的长度之和。比如4k模型,意味着输入+输出的总长度在4000 token以内。不能超过4000token。

我们看到随着上下文长度的增加,成本是指数级增加的。因为transfermor架构,是根据上文内容计算下一个字的概率,随着上文内容增加,计算下文的算力会指数级上涨。

下面是300次对话,用gpt-4-1106-preview做的算力消耗的成本。

gpt-4-1106-preview VS gpt-4-0613

大家都知道4.0的0613,输入输出成本是4.0-1106的一倍。就一定gpt-4-0613 每次的对话任务成本就高?

从成本结构上来看,GPT4-0613是8k模型。而且输入和输出的成本价格都是gpt-4-1106-preview的2倍。是不是在任何场景下GPT4-0613-8k就比gpt-4-1106-preview-128k消耗就贵?

答案是错误的,在gpt长对话的场景下,GPT4-0613-8k设置输出4000token的参数下,输入也就被限制在4000 token。

但是gpt-4-1106-preview-128k输出是4000 token的情况下,输入可以达到惊人的10w token/次的消耗。意味着gpt-4-1106-preview要承受更多的输入消耗和更长的记忆力。

上文输入=模型的记忆长度,输入越长,记忆力越长

根据需求,选模型很重要。要考虑模型能力,上下文长度和模型的成本以及后期的技术调整(尤其是使用gpt-4-1106-preview 的时候,切断输入上文的长度,可以有效的降低成本)

GPT 3.5 VS GPT 4.0

这个就不用讲太多了GPT 4.0的准确性和逻辑性要比3.5好非常多,大家都有显然的体感!

模型推荐:

推荐:GPT-3.5-16k模型,可以支持长文理解,翻译和总结。

gpt-4-1106-preview,使用这个模型的成本,比之前gpt4.0 降低了一半,也必须推荐!

发表评论