自由度超高的文字生成类本地AI大模型

清明这几天说是休息，却完全没有休息，除了按当地以往习俗去祭拜先人之外，大部分时间都投入到了折腾本地大模型上。

本地部署AI大模型的优势

将AI大模型部署在本地，通过充分利用本地资源，可以实现数据隐私与安全、减少网络延迟、支持离线应用、节约成本，并提高自主性与可控性，从而带来更好的体验和效果。

数据隐私与安全

在本地部署AI大模型意味着数据不必离开本地环境，因此可以更好地保护数据的隐私和安全。对于一些敏感信息，如医疗记录、金融交易等，用户可能不希望将其发送到云端进行处理。通过在本地部署模型，可以避免因数据传输而产生的安全风险，确保数据始终在用户控制之下。

减少网络延迟

本地部署AI大模型可以显著减少与远程服务器的通信延迟。对于一些需要实时响应的应用场景，如智能家居、自动驾驶等，即时性是至关重要的。通过在本地执行推理过程，可以降低因网络延迟而导致的响应延迟，提高系统的实时性和性能。

离线应用支持

在某些情况下，用户可能处于没有网络连接的环境中，但仍希望能够使用AI模型进行推断和预测。在本地部署AI大模型可以满足这种需求，因为模型和数据都存储在本地设备上，不需要依赖于网络连接。这为一些离线应用场景，如边缘计算、移动设备等，提供了更大的灵活性和可用性

成本效益

尽管云端计算提供了强大的计算资源，但长期依赖云端服务可能会导致较高的成本。特别是对于需要大量计算资源的AI应用来说，云端计算的成本可能会成为一个负担。通过在本地部署AI大模型，可以节省云端计算服务费用，提高成本效益。

自主性与可控性

本地部署AI大模型意味着用户拥有对整个部署过程的完全控制权。用户可以根据自己的需求和偏好进行定制和调整，而不受到云端服务提供商的限制。这种自主性和可控性使用户能够更好地管理和优化其AI系统，提高系统的稳定性和性能。

本地部署AI大模型的劣势

当然，本地部署的AI大模型受限于个人用户的硬件资源和技术资源等限制，也是存在一定的劣势。

资源需求

本地部署AI大模型通常需要大量的计算资源和存储空间。对于一些规模较大的模型，如BERT、GPT等，需要具备相应的硬件设施来支持其运行和存储模型参数。这可能对个人用户或小型组织来说是一个挑战，因为他们可能无法承担这些资源的成本。

管理和维护

本地部署AI大模型需要进行管理和维护，包括模型更新、性能优化、故障排除等。这可能需要专业的技术人员来负责，增加了管理成本和复杂性。相比之下，使用云端服务可以将这些管理任务交给服务提供商，减轻了用户的负担。

更新和升级

随着技术的不断发展和模型的更新迭代，本地部署的AI大模型需要及时更新和升级以保持性能和安全性。这可能涉及到重新训练模型、更换硬件设备等，需要投入额外的时间和资源。

安全风险

尽管本地部署AI大模型可以增强数据隐私和安全性，但也存在一定的安全风险。例如，本地设备可能受到物理攻击、恶意软件感染等威胁，导致模型参数泄露或被篡改。因此，需要采取相应的安全措施来保护本地部署的AI系统。

可扩展性限制

与云端计算相比，本地部署AI大模型的可扩展性可能受到限制。当需要处理大规模数据或进行高并发计算时，本地资源可能无法满足需求，导致性能下降或系统崩溃。在这种情况下，可能需要考虑将部分工作负载转移到云端或使用分布式系统来提高可扩展性。

对于我来说，折腾本地大模型部署主要是：

免费、隐私和安全，并且内容还没有限制，聊啥都可以，不会像云端那样受制于人。最大的劣势就是受限于本地主机性能，部署的模型规模不够大，能力上没有人家商业模型那么强，使用起来当然也没商业模型那么方便。

LM Studio

之前也在本地弄了不少的AI大模型整合包，一个又一个的大的要死，到处找资源下载也麻烦，又要关注公众号，又要密码之类啥的，还得忍受免费网盘的龟速，占用很多硬盘空间不说，而且费时间，事实上这些整合包也不稳定，况且也没有API服务，可玩性太差。最近又出了不少新的文字生成类的大模型，网上那些评测感觉都不靠谱的，所以想自己实际使用一下看看。

为了方便，我直接使用了LM Studio软件来尝试各种7B左右的开源免费大模型。

在花费很多时间测试后，发现目前开源免费的中文大模型中做文本总结最好用的还是Qwen1.5，当然也称不上满意，只是在一堆矮子里面选个稍微高点的罢了。

（更正一下：应该是使用过的大模型中，只是做中文文本总结、7B模型、开源中最好用的。）

另外LM Studio只支持gguf格式的模型，所以有些中文大模型没测试上，例如ChatGLM、还有Baichuan这些大模型，没有官方的gguf格式，用非官方微调过的gguf模型实在是太拉了，几乎不可用，或者都是些base模型，没有经过对齐的，总之比我用该模型的整合包要差不少。

ChatGLM-6B模型整合包在我电脑上只聊了一句就直接崩溃，完全不可用。Baichuan2-7B-Chat-4bits大模型整合包效果也还可以，不过整合包性能优化不行，而且没有API。最终只能选用LM Studio下载Qwen1.5 7B大模型用来做后端，实际上我尝试过Qwen1.5 13B模型，8G显存竟然也能跑起来，不过回复速度我不能接受，所以放弃。