- 嘿咯图床-支持原链接替换图片

使用LM studio和lobe-chat本地部署Llama3

2024-04-30 20:29:52

最近开源的超级大模型Llama3以其独特的优势，加上免费开源，在业界引起很大轰动，大家纷纷动手想要试试Llama3是否有传言中那么强大，我也将现有的几种部署方式都试用一遍，最终选择了LM studio+lobe-chat的方式来使用。

为什么选择LM studio+lobe-chat?

因为公司需要离线部署在仅有内网的环境下，以网页形式供大家体验，因此，有完善API及配套支持的框架就作为首选。

gpt4all部署方式api调用时经常崩溃，不知道为什么，因此就不纠结了。

Ollama+openai的方式在调用api的时候不方便控制GPU参与度，会影响响应速度。

LM studio+openai的方式主要还是存在需要登陆的弊端。

因此,最终选择了LM studio+lobe-chat。

如何部署？

以Windows为例，部署方式十分简单：

1.下载LM studio并安装:点击下载

2.Windows开始菜单-搜索（启用或关闭Windows功能）-打开适用于LInux的Windows子系统

3.打开LM studio，搜索Llama 3,推荐下载shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit的模型，这个是目前中文优化最好的大模型，如果机器性能好，可以下载f16版本，想要体验超越GPT4的可以选择70B版，这个暂时没有中文优化版本。

4.如果只需本地使用，那么直接点AI Chat按钮选择下载好的模型就可以直接提问使用了，GPU-Acceleration可以控制GPU参与度，越高参与越多，速度也就越快，如果显卡不行也可以关闭，直接CPU运行，速度会明显下降。

5.选择Local Server，开启LM studio的api功能，记住你设置的端口号，跨域（CORS）可以开启也可以关闭，看你使用场景，http://localhost:3000/v1就是你的api地址。

6.安装docker并打开:点击下载。以管理员身份运行CMD，输入：docker run -d -p 3210:3210 --name lobe-chat lobehub/lobe-chat 安装lobe-chat，需要一些时间。

7.http://localhost:3210 打开lobe-chat,左下角设置-语言模型。

8.选OpenAI-OpenAI API Key(随便填）-接口代理地址（http://localhost:3000/v1）- 获取模型列表点一下就可以选择在LM studio引用的模型了。

9.愉快的玩耍吧！