概述
WebLLM 是一款高性能的浏览器内 LLM 推理引擎,它通过硬件加速将语言模型推理直接引入 Web 浏览器。所有内容都在浏览器内运行,无需服务器支持,并通过 WebGPU 加速。
WebLLM与OpenAI API完全兼容。 也就是说,您可以在本地对任何开源模型使用相同的 OpenAI API ,其功能包括流式传输、JSON 模式、函数调用(WIP)等。
我们可以带来很多有趣的机会,为每个人构建 AI 助手,并在享受 GPU 加速的同时保护隐私。
您可以使用 WebLLM 作为基础npm 包,并按照以下示例在其上构建自己的 Web 应用程序。该项目是MLC LLM的配套项目,可实现 LLM 在硬件环境中的通用部署。
主要特征
浏览器内推理:WebLLM 是一种高性能的浏览器内语言模型推理引擎,它利用 WebGPU 进行硬件加速,无需服务器端处理即可直接在 Web 浏览器中实现强大的 LLM 操作。
完全兼容 OpenAI API:使用 OpenAI API 将您的应用与 WebLLM 无缝集成,具有流式传输、JSON 模式、逻辑级控制、播种等功能。
结构化 JSON 生成:WebLLM 支持最先进的 JSON 模式结构化生成,在模型库的 WebAssembly 部分实现以获得最佳性能。检查HuggingFace 上的WebLLM JSON Playground以尝试使用自定义 JSON 模式生成 JSON 输出。
广泛的模型支持:WebLLM 原生支持一系列模型,包括 Llama 3、Phi 3、Gemma、Mistral、Qwen(通义千问)等,使其能够灵活应对各种 AI 任务。有关完整的受支持模型列表,请查看MLC 模型。
自定义模型集成:轻松集成和部署 MLC 格式的自定义模型,使您能够根据特定需求和场景适应 WebLLM,增强模型部署的灵活性。
即插即用集成:使用 NPM 和 Yarn 等包管理器或直接通过 CDN 轻松将 WebLLM 集成到您的项目中,并附带全面的示例和用于连接 UI 组件的模块化设计。
流媒体和实时交互:支持流媒体聊天完成,允许实时输出生成,从而增强聊天机器人和虚拟助手等交互式应用程序。
Web Worker 和 Service Worker 支持:通过将计算卸载到单独的工作线程或服务工作线程来优化 UI 性能并有效管理模型的生命周期。
Chrome 扩展支持:使用 WebLLM 通过自定义 Chrome 扩展来扩展 Web 浏览器的功能,并提供构建基本和高级扩展的示例。
Github:https://github.com/mlc-ai/web-llm
官方:https://chat.webllm.ai/