Groq:https://groq.com/
是一个 100% 由漂亮国产业链完成的 AI 芯片,基本上可以说是目前世界上最快的 AI 芯片
基于此芯片运行的 Mixtral8x7B-32k 和 Llama 270B-4k 能够以每秒 500 个 token 输出,比 Gemini 快 10 倍,比 GPT-4 快 18 倍!
官网的介绍
创建了 LPU™ 推理引擎,这是同类产品中第一个也是最快的,服务于实时 AI 市场。我们的推理(而非训练)解决方案使我们在速度和精度方面成为计算中心的 AI 性能领导者。与其他提供商不同,我们不代理云服务。我们构建了自己的芯片、编译器和软件、系统以及 GroqCloud™。我们的第一代 GroqChip™ 是一种语言处理单元™ (LPU),是一个新的处理器类别。这是我们秘诀的一部分。我们的表现使人工智能在多个行业具有更大的潜力。这是关于实时 AI、低延迟、低批量大小的解决方案。
调用方式
API 申请地址:https://console.groq.com/keys
const Groq = require('groq-sdk');
const groq = new Groq();
async function main() {
const chatCompletion = await groq.chat.completions.create({
"messages": [
{
"role": "system",
"content": "请使用中文回答我的问题"
},
{
"role": "user",
"content": "你是哪个模型,你等你做什么"
},
{
"role": "assistant",
"content": "嗨!我是一名人工智能助手,旨在回答您的问题、回答您的疑问,并提供有关各种主题的信息。我可以帮助您计算数学问题,提供encyclopedic 知识,并执行各种类型的语言处理任务,例如查找信息、调整语言,甚至创作诗歌。请问有什么我可以为您做的吗?"
}
],
"model": "mixtral-8x7b-32768",
"temperature": 0.5,
"max_tokens": 1024,
"top_p": 1,
"stream": true,
"stop": null
});
for await (const chunk of chatCompletion) {
process.stdout.write(chunk.choices[0]?.delta?.content || '');
}
}
main();
支持的模型
但是目前支持的模型不多,只有三个,但是都是可以免费体验的:
LLaMA2-70b
Mixtral-8x7b
Gemma-7b-it
赶紧使用上面的 API key 的申请地址申请几个 key。
qps 还是给得挺够的
・每分钟 30 个请求 (RPM)
・每天 14,400 个请求 (RPD)
・每分钟 40,000 个令牌 (TPM)