贾佳亚韩松联合团队提出大模型微调方法 LongLoRA,可轻松让大模型上下文窗口倍增

据量子位 10 月 1 日报道,来自香港中文大学和 MIT 的贾佳亚韩松联合团队提出基于 LoRA 的全新大模型微调方法 LongLoRA 登上 GitHub 热榜。据悉,该方法只要两行代码 + 11 个小时微调,就能把大模型 4k 的窗口长度提高到 32k。规模上,最长可以扩展到 10 万 token,一口气就能读完长篇小说的多个章节或中短篇小说。介绍称,在一台 8 个 A100 组成的单机上,增大窗口长度的速度比全量微调快数倍。

本文链接:https://www.8btc.com/article/6834438
转载请注明文章出处

原创文章,作者:惊蛰财经,如若转载,请注明出处:http://www.xmlm.net/bhq/26934.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注