aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文共同第一作者郑淼,来自于周泽南领导的百川对齐团队,毕业于北京大学,研究方向包括大语言模型、多模态学习以及计算机视觉等,曾主导MMFlow等开源项目。共同第一作者梁昊,北京大学前沿交叉学科研究院博士生,研究方向为大模型数据侧,指导老师为张文涛教授。北大-百川智能AI系统联合实验室成立于2025年1月,旨在围绕人工智能模型系统的全技术流程,研究科学和系统的数据生成和质量评估策略、大模型训练和推理加速等重要问题。联合实验室由北京大学博雅特聘教授崔斌和百川智能联合创始人陈炜鹏担任主任。基于 Transformer 架构的大语言模型正在各个领域取得突破性成果。提示词工程(Prompt Engineering)在其中的角色至关重要。用好提示词,研究人员和开发者能够引导模型在特定任务上表现得更优秀。这种方法不仅能够显著提升模型的性能,还能够增强模型的适应性,使其在面对各种复杂任务时更加灵活和高效。此外,提示词工程还能优化模型的学习过程,提高复杂问题处理效率,减少训练时间和计算资源需求。相较于传统的微调方法,提示词工程能以极低成本使模型适应多个下游任务,大幅节省计算资源和数据收集成本。然而,设计有效的提示词对非专业人士而言仍具挑战性,往往需要大量学习和实践。直接利用大语言模型进行自动提示工程通常难以取得理想效果。不恰当的提示可能分散模型注意力,反而降低性能。因此,开发一个能辅助用户,操作简便的自动提示工程系统变得尤为重要。为应对这一挑战,北京大学 - 百川联合实验室提出了 PAS 自动提示工程系统。PAS 的创新之处在于:PAS 能够对用户输入进行简洁而有效的补充,实现快速、简单且支持流式显示的自动提示工程。在多个基准测试中,PAS 的表现远超既有的 SOTA 模型,且所需数据量更少。人工评测结果同样显示 PAS 具有优异表现,凸显了其在实际应用中的巨大潜力。这一突破性成果不仅推动了提示词工程的发展,也为大语言模型在更广泛领域的应用铺平了道路。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
- 论文地址:https://arxiv.org/abs/2407.06027
- PKU-Baichuan-MLSystem
Lab:
https://github.com/PKU-Baichuan-MLSystemLabhttps://huggingface.co/PKU-Baichuan-MLSystemLab
训练 PAS 的首要任务是建立一个高质量的问题数据集。如图 (a) 所示,研究人员根据 LMSYS-1M 和 WildChat 数据集,通过以下三方面筛选出优质问题:1. 数据去重:运用 embedding 技术结合聚类算法,有效去除重复数据。2. 质量筛选:利用百川大模型对数据质量进行评估和筛选。3. 多样性保证:最终选出覆盖 10 多个类别的 9000 条高质量问题数据。在这一阶段,研究人员综合利用内部积累的 100 条高质量数据和第一步筛选的问题数据,通过 few-shot learning 方法,借助 GPT 模型构建自动提示工程数据:1. 初始数据生成:使用 few-shot learning 指导 GPT 生成初步的提示工程数据。2. 质量控制:设计 Critique 步骤,再次利用 few-shot learning 让 GPT 评估生成数据的质量。3. 迭代优化:自动筛除低质量数据,并重新生成,通过多轮迭代确保数据质量。4. 最终成果:最终得到 9000 条高质量的自动提示工程数据。
生成的 9000 条数据的分布情况如上图所示,确保了数据的多样性和代表性。最后一步将利用前两个阶段获得的数据集来微调大型语言模型:1. 选择基础模型:如 Qwen2-7b 等模型。3. 专业化训练:最终得到一个专门用于自动提示工程的大语言模型。
根据人类评估员的测评,相比先前的 SOTA(State-of-the-Art)模型,PAS 在各领域均展现出较高的胜率。在多个领域的平均胜率超过 50%,胜率与平局率之和更是高达 80% 以上。为全面评估 PAS 的性能,研究人员选择了Arena-Hard、Alpaca-Eval 2.0、Alpaca-Eval 2.0 (LC) 三个 benchmark。随后,研究人员将 PAS 应用于六个顶尖的 AI 模型,包括:
- 相较于无提示情况和先前的 SOTA 自动提示工程模型,PAS 均取得了显著提升。
- 与之前的 BPO 模型相比,PAS 展现出更强的适应性,能够与各种超大模型兼容,并在每个模型上都实现了性能提升。
PAS 不仅在性能上表现卓越,其计算效率也非常高:在数据效率方面,它仅需 9000 条微调数据便能展现出卓越性能。在输出效率方面,它能够限制补充自动提示的长度,通常不超过 30 个词。对于用户体验而言,PAS 也为大模型带来了增益,具体来说:
- 与 BPO 等先前模型不同,PAS 无需修改用户的原始问题,仅进行补充自动提示。
- 支持类似 GPT 的流式显示,进一步提升交互体验。
「如果树上有 10 只鸟,其中一只被射死了,地上有多少只鸟?」这个看似简单的问题实际上隐藏着一个巧妙的逻辑陷阱,你看到它可能也需要反应几秒,才知道树上还剩 9 只鸟,而地上只有 1 只。正如图上所示,在没有 PAS 辅助的情况下,GPT 给出了错误的回答。而 PAS 系统通过补充提示词,显著改善了模型的表现:在 PAS 的引导下,模型新一轮的回答展现出了显著的提升,不仅成功规避了问题中的逻辑陷阱,展示了清晰的、多步骤的逻辑推理过程,还能在给出正确答案之外引导用户理解整个推理过程。
相关推荐:
SEO排名是什么?揭秘如何提高网站的SEO排名
seo是什么百科,seo是什么 ,多多ai写作打不开
如何使用“Word随机生成文章”轻松提升写作效率?
网站优化深圳:助力企业在数字时代脱颖而出
ChatGPT不能打开EL?揭秘这一困扰背后的真相与解决方案,ai被动房
文章创作AI:引领智能写作的新时代
美国计算机域名全球网络的无形桥梁
软件自动生成文章:释放写作的无限潜力
seo站内链接有什么作用,seo中网站内链的作用 ,橘子ai画法
ChatGPT不能用了?了解这一背后的真相及解决方法,ai恐怖头像
ChatGPTO1免费:突破智能聊天的极限,体验AI无限可能,糯米ai唱歌
SEO是什么发色好看,什么是seosem ,ai图片转位图填色
AI网页设计生成-智能化创造无限可能,ai机甲风背景音乐
AI缩短短文-提升创作效率,写作新体验,光速写作业ai写作app
AI在线概括文章:高效处理海量信息的最佳利器
seo是什么官职,seo是什么工作内容 ,淘宝ai试衣的联盟推广
网站SEO优化的必备技巧,助力提升网站流量与排名
在线AI文章:为您打造全新内容创作体验
AI写作免费生成工具,让创作从未如此轻松!
AI+写文章:开启智能创作新时代
如何优化自己的网站,让流量与转化率双提升
AI写作技巧,让创作事半功倍!
AI写文章的新时代:赋能内容创作的智能革命
AI提取文章重要内容:让信息抓取更高效、更精准,松鼠ai 教学
AI写文章是什么?全面解读人工智能写作的魅力与价值
seo是什么物质,seo到底是什么 ,ai5858697
AI写的文章能过查重吗?揭秘智能写作的未来
seo网赚什么意思,网站seo赚钱 ,ai_hdh
提升网站曝光率与流量的秘诀独立站SEO优化全攻略
ChatGPT显示无法加载网站是怎么回事?解决方法!,glow将军ai
谷歌无法访问?如何应对这一困扰并打破网络限制
SEO网站推广托管公司助力企业突破网络营销瓶颈
ChatGPT免费订阅的使用限制:其潜力与挑战,ai辅助线无法对齐画板
网站SEO优化排名,助你赢得搜索引擎流量
亚马逊seo信息是什么,亚马逊seo关键词优化软件 ,王者男英雄ai
一键生成原创文章,轻松写作从此开启
轻松生成文章!让你在创作中游刃有余的工具推荐
如何免费优化网站,提高排名与流量
自然流SEO:破解网站排名的核心秘密,让流量飞涨
网站图片怎么优化:提升加载速度和用户体验的关键
SEO是什么防晒口罩,seo是什么防晒口罩品牌 ,ai论文大学生
如何做网站的SEO优化,提升网站流量与排名
zblog站群,zblog怎么样 ,ai图片享受
SEO是什么角色,seo指的是什么意思 ,ros ai 背景
自媒体洗稿神器:助你轻松提升内容生产效率!
AI人工智能文章生成器写作新纪元
AI帮写文档:助力高效工作,提升写作效率
AI分析文章:提升写作与内容创作的智能革命
作文一键生成:轻松解决写作难题,让作文不再是负担
seo是什么币,seo是什么意思啊视频教程 ,李沁ai换脸被