本节将说明如何基于多轮历史对话,使用大语言模型进行回答生成
说明
chat_completions 用于向大模型发起一次对话请求,与新升级的search_knowledge联通,可以完成标准的检索生成链路。
说明
知识库文档导入/删除后,知识库更新时间最长滞后 5s,不能立即检索到,待知识库就绪后可正常检索。
参数 | 子参数 | 类型 | 是否必选 | 默认值 | 备注 |
---|---|---|---|---|---|
model | -- | String | 是 | Doubao-pro-32k | 想要用于在线生成的大模型
公共推理接入点模型可选范围:
私有推理接入点 ID 形如:
注意当使用私有接入点时,需要配合传入 API key 进行鉴权 |
messages | -- | json | 是 | 多轮对话信息
| |
stream | -- | Boolean | 否 | False | 响应内容是否流式返回
|
max_tokens | -- | Integer | 否 | 4096 | 模型可以生成的最大 token 数量 |
temperature | -- | Float | 否 | 0.1 | 采样温度 |
请先完成SDK初始化,再运行代码,详见初始化SDK
model = "Doubao-pro-32k" m_messages = [{ "role": "system", "content": """ system pe """ }, { "role": "user", "content": "test" # 用户提问 } ] res = viking_knowledgebase_service.chat_completion(model=model, messages=m_messages, max_tokens=4096, temperature=0.1, stream=True) for data in res: print(data,end="",flush=True) print("") print(res.token_usage())
Python 调用执行上面的任务,返回字典,包含的属性如下表所示
字段 | 子字段 | 字段类型 | 说明 |
---|---|---|---|
generated_answer | -- | string | 大模型回答 |
usage | -- | string | token用量统计
|