|
| 1 | +--- |
| 2 | +title: 推理提供者 |
| 3 | +description: 推理提供者是将 Twinny 与外部模型和服务连接的一种方式。 |
| 4 | +--- |
| 5 | + |
| 6 | +这些示例配置作为起点,具体的调整可能需要根据您的硬件和软件环境进行。 |
| 7 | + |
| 8 | + |
| 9 | +> 注意:Twinny 聊天(非自动补全)应与任何符合 OpenAI API 规范的 API 兼容。 |
| 10 | +
|
| 11 | + |
| 12 | +### Ollama(默认配置) |
| 13 | + |
| 14 | +#### 自动补全 |
| 15 | + |
| 16 | +- **主机名:** `localhost` |
| 17 | +- **端口:** `11434` |
| 18 | +- **路径:** `/api/generate` |
| 19 | +- **模型名称:** `codellama:7b-code` |
| 20 | +- **FIM 模板:** `codellama` |
| 21 | + |
| 22 | +#### 聊天 |
| 23 | + |
| 24 | +- **主机名:** `localhost` |
| 25 | +- **端口:** `11434` |
| 26 | +- **路径:** `/v1/chat/completions` |
| 27 | +- **模型名称:** `codellama:7b-instruct` |
| 28 | + |
| 29 | +### 使用 Ollama 打开 WebUI |
| 30 | + |
| 31 | +Open WebUI 可作为 Ollama 的代理,简单地配置端点以匹配 OpenWeb UI 提供的服务。 |
| 32 | + |
| 33 | +#### 自动补全 |
| 34 | + |
| 35 | +- **主机名:** `localhost` |
| 36 | +- **端口:** OpenWebUI 服务的端口,通常为 `8080` 或 `3000`。 |
| 37 | +- **路径:** `/ollama/api/generate` |
| 38 | +- **模型名称:** `codellama:7b-code` |
| 39 | +- **FIM 模板:** 选择一个与模型匹配的模板,如 `codellama` 用于 `codellama:7b-code` 或 `deepseek` 用于 `deepseek-coder`。 |
| 40 | + |
| 41 | +#### 聊天 |
| 42 | + |
| 43 | +- **主机名:** `localhost` |
| 44 | +- **端口:** OpenWebUI 服务的端口,通常为 `8080` 或 `3000`。 |
| 45 | +- **路径:** `/ollama/v1/chat/completions` |
| 46 | +- **模型名称:** `codellama:7b-instruct` 或任何有效的指令模型。 |
| 47 | + |
| 48 | +### LM Studio |
| 49 | + |
| 50 | +#### 自动补全 |
| 51 | + |
| 52 | +- **主机名:** `localhost` |
| 53 | +- **端口:** `1234` |
| 54 | +- **路径:** `/v1/completions` |
| 55 | +- **模型名称:** 基础模型,例如 `codellama-7b.Q5_K_M.gguf` |
| 56 | +- **LM Studio 预设:** CodeLlama Completion |
| 57 | +- **FIM 模板:** 选择一个与模型匹配的模板,如 `codellama` 用于 `CodeLlama-7B-GGUF` 或 `deepseek` 用于 `deepseek-coder:6.7b-base-q5_K_M`。 |
| 58 | + |
| 59 | +#### 聊天 |
| 60 | + |
| 61 | +- **主机名:** `localhost` |
| 62 | +- **端口:** `1234` |
| 63 | +- **路径:** `/v1/chat/completions` |
| 64 | +- **模型名称:** `codellama:7b-instruct` 或您偏好的指令模型。 |
| 65 | +- **LM Studio 预设:** 默认或 `CodeLlama Instruct` |
| 66 | + |
| 67 | +### LiteLLM |
| 68 | + |
| 69 | +#### 自动补全 |
| 70 | + |
| 71 | +LiteLLM 技术上支持使用 `custom-template` FIM 模板进行自动补全,并通过编辑 `fim.hbs` 文件实现,然而结果将根据您的模型和设置有所不同。 |
| 72 | + |
| 73 | +#### 聊天 |
| 74 | + |
| 75 | +- **主机名:** `localhost` |
| 76 | +- **端口:** `4000` |
| 77 | +- **路径:** `/v1/chat/completions` |
| 78 | + |
| 79 | +启动 LiteLLM 使用以下命令: |
| 80 | + |
| 81 | +```bash |
| 82 | +litellm --model gpt-4-turbo |
| 83 | +``` |
| 84 | + |
| 85 | +### Llama.cpp |
| 86 | + |
| 87 | +#### 自动补全 |
| 88 | + |
| 89 | +在终端中使用以下 Docker 命令启动 Llama.cpp: |
| 90 | + |
| 91 | +例如,使用 Docker 和 `codellama-7b.Q5_K_M.gguf`: |
| 92 | + |
| 93 | +```bash |
| 94 | +docker run -p 8080:8080 --gpus all --network bridge -v /path/to/your/models:/models local/llama.cpp:full-cuda --server -m /models/codellama-7b.Q5_K_M.gguf -c 2048 -ngl 43 -mg 1 --port 8080 --host 0.0.0.0 |
| 95 | +``` |
| 96 | + |
| 97 | +配置您的提供商设置如下: |
| 98 | + |
| 99 | +- **主机名:** `localhost` |
| 100 | +- **端口:** `8080` |
| 101 | +- **路径:** `/completion` |
| 102 | +- **FIM 模板:** 选择一个与模型匹配的模板,如 `codellama` 用于 `CodeLlama-7B-GGUF` 或 `deepseek` 用于 `deepseek-coder:6.7b-base-q5_K_M`。 |
| 103 | + |
| 104 | +#### 聊天 |
| 105 | + |
| 106 | +Llama.cpp 的聊天功能表现不稳定。如果您获得了良好的结果,请通过打开问题或拉取请求与我们分享。 |
| 107 | + |
| 108 | +- **主机名:** `localhost` |
| 109 | +- **端口:** `8080` |
| 110 | +- **路径:** `/completion` |
| 111 | +- **模型名称:** `CodeLlama-7B-GGUF` 或其他强大的指令模型。 |
| 112 | + |
| 113 | + |
| 114 | +### Oobabooga |
| 115 | + |
| 116 | +```bash |
| 117 | +bash start_linux.sh --api --listen |
| 118 | +``` |
| 119 | + |
| 120 | +#### 自动补全 |
| 121 | + |
| 122 | +访问 `http://0.0.0.0:7860/` 并加载您的模型: |
| 123 | + |
| 124 | +- **主机名:** `localhost` |
| 125 | +- **端口:** `5000` |
| 126 | +- **路径:** `/v1/completions` |
| 127 | +- **模型名称:** `CodeLlama-7B-GGUF` 或其他有效的指令模型。 |
| 128 | +- **FIM 模板:** 选择一个与模型匹配的模板,如 `codellama` 用于 `CodeLlama-7B-GGUF` 或 `deepseek` 用于 `deepseek-coder:6.7b-base-q5_K_M`。 |
| 129 | + |
| 130 | +#### 聊天 |
| 131 | + |
| 132 | +在 Linux 上,Oobabooga 的聊天功能未能成功: |
| 133 | + |
| 134 | +- **主机名:** `localhost` |
| 135 | +- **端口:** `5000` |
| 136 | +- **路径:** `/v1/chat/completions` |
| 137 | +- **模型名称:** `CodeLlama-7B-GGUF` |
| 138 | + |
| 139 | +### Symmetry |
| 140 | + |
| 141 | +Symmetry 是一款去中心化工具,允许您连接到计算资源网络。它可以作为 Twinny 的推理提供商,通过其点对点网络提供访问多种模型的功能。 |
| 142 | + |
| 143 | +#### 使用 Symmetry |
| 144 | + |
| 145 | +1. 在 Twinny 扩展设置中,选择您想要的模型。 |
| 146 | +2. 点击扩展中的 "Connect to Symmetry" 按钮。 |
| 147 | +3. 扩展将自动连接到 Symmetry 网络,并使用所选模型。 |
| 148 | + |
| 149 | +这个简化的过程让您可以轻松连接到 Symmetry 网络,无需手动配置。 |
| 150 | + |
| 151 | +> 注意:使用 Symmetry 时,请注意您的请求是由网络中的其他节点处理的。在必要时,请考虑数据的敏感性,并选择可信的提供商。 |
0 commit comments