语言模型_搜你所想

关于大语言模型LLM插件和Agent的一些想法

browser will not understand how to play the video. 插件是安装在程序上的软件附加组件，目的是增强其功能，核心是形成围绕基础软件的生态，而这个逻辑放到大语言模型上也是成立的，大语言模型通过插件增强了其能力边界，如实时股票搜索、知识库搜索等功能，来形成围绕大模型基础能力的生态，以适应在不同场景中形成解决方案。 ChatGPT的插件类似讯飞星火的插件百度千帆...

(view)

用于 ChatGPT 的 FPGA 加速大型语言模型

简介：大型语言模型 近年来，大型语言模型 （LLM）彻底改变了自然语言处理领域，使机器能够生成类似人类的文本并进行有意义的对话。这些模型，例如 OpenAI 的 GPT，具有惊人的理解和生成语言的能力。它们可用于广泛的自然语言处理任务，包括文本生成、翻译、摘要、情感分析等。大型语言模型通常使用深度学习技术构建，特别是使用 Transformer 架构。Transform...

(view)

大型语言模型要避免的六个陷阱

从安全和隐私问题到错误信息和偏见，大型语言模型带来了风险和回报。最近人工智能(AI)取得了令人难以置信的进步，这主要是由于开发大型语言模型的进步。这些都是文本和代码生成工具的核心，例如ChatGPT、Bard和GitHub的Copilot。这些模式正在被所有部门采用。但是，它们是如何被创造和使用的，以及它们如何被滥用，仍然令人担忧。一些国家已经决定采取激进的方法，暂时禁止特定的大型语言模型，直到适当的法...

(view)

GPT大语言模型Alpaca-lora本地化部署实践

0亿的模型参数（模型参数越大，模型的推理能力越强，当然随之训练模型的成本也就越高）。LoRA，英文全称Low-Rank Adaptation of Large Language Models，直译为大语言模型的低阶适应，这是微软的研究人员为了解决大语言模型微调而开发的一项技术。如果想让一个预训练大语言模型能够执行特定领域内的任务，一般需要做fine-tuning，但是目前推理效果好的大语言模型参数维度非常...

(view)

三星正开发“类 ChatGPT”AI 大语言模型供内部使用

IT之家 6 月 9 日消息，据韩媒“Chosun Ilbo”6 月 8 日报道，三星电子已于本月初正式开启了大语言模型（LLM）的开发工作。该项目由三星研究院主导，动员了所有相关的人力和资源，以 7 月末完成初期开发为目标，该项目将供三星内部使用。 ▲ 图源三星官方 IT之家注意到，多名三星相关人士向韩媒表示，所有其他内部软件开发组织都被限制使用 GPU，且主要关联公司也都成立了人工智能开发小组，因...

(view)

Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

近年来，语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知，扩展语言模型，例如参数等，可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下，扩展对性能的影响通常可以通过扩展定律进行预测，一直以来，绝大多数研究者都在研究可预测现象。相反，包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of L...

(view)

使用 LoRA 和 QLoRA 对大型语言模型进行参数高效的微调

概述随着我们深入研究参数高效微调 (PEFT) 的世界，了解这种变革性方法背后的驱动力和方法变得至关重要。在本文中，我们将探讨 PEFT 方法如何优化大型语言模型 (LLM) 对特定任务的适应。我们将揭开 PEFT 的优点和缺点，深入研究 PEFT 技术的复杂类别，并破译两种卓越技术的内部工作原理：低秩适应（LoRA）和量化低秩适应（QLoRA）。本次旅程旨在让您全面了解这些技术，使您能够利用它们的力量...

(view)

Meta发布首个「非参数化」掩码语言模型NPM：吊打500倍参数量的GPT-3

虽然大型语言模型在NLP领域展现出的强大性能十分惊人，但其带来的负面代价也很严重，比如训练过于昂贵，难以更新等。，而且很难处理长尾知识。并且语言模型通常采用在预测层采用一个包含有限词汇量的softmax层，基本上不会输出少见的单词或短语，极大限制了模型的表达能力。为了解决模型的长尾问题，最近来自华盛顿大学、Meta AI和艾伦人工智能研究所的学者联合提出了首个「非参数化掩码语言模型」（NonParam...

(view)

360与智谱AI宣布战略合作，共同研发千亿级大语言模型“360GLM”

验。本次合作为基础，智谱AI将进一步扩展和深化大型模型技术的应用，以提升更多行业的效率和用户体验。免责声明：本文仅供参考，不构成投资建议。广告以上就是360与智谱AI宣布战略合作，共同研发千亿级大语言模型“360GLM”的详细内容，更多请关注Work网其它相关文章！ ...

(view)

一文解码语言模型：语言模型的原理、实战与评估

目录一、语言模型概述什么是语言模型？核心概念和数学表示挑战：高维度和稀疏性链式法则与条件概率举例应用场景小结二、n元语言模型（n-gram Language Models）基本概念数学表示代码示例：计算Bigram概率输入与输出优缺点优点缺点小结三、神经网络语言模型（Neural Network Language Models）基本概念数学表示代码示例：简单的NNLM输入与输出优缺点优...

(view)

上一页 1 2 3 4 5 6 7 8 下一页