当年高考,要有这个开源神器,那不分分钟上清华北大...

GitHubDaily 2022-06-24 15:05
公众号关注 “GitHubDaily”
设为 “星标”,每天带你逛 GitHub!

大家好,我是小 G。

最近两天,高考终于出分了!你们考得咋样?QQ 空间上转得那 10 条锦鲤起作用了吗?能让爸妈给换新 iPhone 吗?和妹子报同所学校有戏不?

好了,不装嫩凑热闹了,我参加高考都十年前的事儿了。

遥想当年考场挥斥方遒,可以说是我人生文化水平的巅峰,下笔如有神。而看看今年的高考作文题目,别说写了,曹公的这几句话都不见得能读懂几分,以现在的水平我可能连机器都考不过。

emmm 不是可能,是真的连机器都考不过。不是我小瞧自己,是如今的 AI 在写作这一块真的太厉害了。不信你看这篇文章:

这篇鲁迅体风格十足的文章,正是由浪潮信息推出的全球最大规模中文人工智能巨量模型 “源 1.0” 生成。

我大抵是没见过世面,思来想去不知输在了哪里,起身看了看,这惭愧没由头,黯黯然翻了翻这两篇作文,一篇是 AI 写得,另一篇也是 AI 写得。

好了,解除鲁迅先生 emo 版附体,话说回来,“源 1.0” 能写出这样的文章有迹可循:“源” 的单体模型参数量达 2457 亿,单在阅读方面,小源就 “读” 过 300 万本书。

所以能写出这样的高质量作文也不足为奇,不仅如此,它甚至还会写文综…… 分析汽车尾气对小花小草的生态影响、探讨中国科技发展史……

尽管 AI 应用于文字创作并不算新鲜事,但 AI 大模型的出现还是一再给人带来惊喜,创作形式和内容也变得更加丰富多彩。

小、快、灵:要想 AI 大模型落地,还看蒸馏后的技能模型

过去两年,AI 巨量模型在业内引起开发风潮。

大规模模型虽好,但落地应用过程中还需解决性能以及成本的阻碍。

在产业 AI 应用落地过程中,如何大模型产业化应用,让模型的能力变得更加 “小、快、灵”。

基于大模型快速蒸馏出轻量化标准化的技能模型,将大模型沉淀的知识、认知推理能力及泛化能力向技能模型输出,同时技能模型可专注在特定场景做极致优化,提升性能与效率,已成为新的发展趋势。

根据当下的应用需求,浪潮信息推出了全球领先中文 AI 大模型 “源 1.0” 的最新成果,基于 “源 1.0” 千亿大模型蒸馏出 4 个百亿参数规模的技能模型:知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型

蒸馏成技能模型后,在相同任务上保留 98% 的基础模型效果的同时,推理速率能提升 9 倍甚至更多。

同时,技能模型还可以与巨量模型协同进化,将执行结果反馈给巨量模型,巨量模型的知识与能力持续进化,形成一套有机循环的系统,落地场景越多、模型进化得 “越聪明”,同时模型进化的速度也越快。

如此的降本增效,可以让行业用户甚至是中小用户也能使用大模型进行深度创新,而这四个模型也正是基于 NLP 技术最常上岗的各类场景。

“源” 开发团队为模型选择的数据也是精且全,可开发出才高八斗的 “文化 bot”,也可开发出对答如流的 “社会 bot”,还能开发出满足人相对高阶情感需求的 “知心 bot”。

来看下这四个蒸馏出的技能模型都达到了怎样的水平:

古文理解模型(源晓文)在源大模型精读了 5000GB 高质量中文的基础上,又学习了先秦到近代几乎所有诗词,并精选其中最优秀的 10 万首进行强化训练。可广泛应用于文学创作、古诗文教学、汉语言文化研究等场景中。

对话技能模型(源晓问)在源大模型基础上,采用了 2660 万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,源晓问可广泛应用于虚拟人、智能助手、智能客服等场景。

中英翻译技能模型(源晓译)基于源大模型阅读的海量高质量数据集,采用维基百科、书籍、联合国文件及字幕组等近 80G 高质量数据集进行强化训练,可轻松应对日常对话、新闻、哲学、小说等日常的语言翻译任务。

知识检索问答技能模型(源晓搜)链接了包含了维基百科、书籍等知识的数据库,根据用户提问的内容,利用高性能检索方法,可广泛应用于医疗、法律、保险及娱乐等领域的智能客服、个人助理等场景。

当然,考虑到智能客服覆盖的领域不同,领域知识已经被预先编码到的知识库中,如果开发者想切换不同的应用领域,只需要替换知识库即可,不需要重新训练这个模型,可以做到应用在不同专业领域之间的迁移。

从自动驾驶到线上剧本杀,“源 1.0” 开发应用范畴广且新

自去年 10 月发布以来,“源 1.0” 已经快速投入应用实践中,在企业开发团队和个人开发者的 “真刀真枪” 中不断成长,取得了不斐的成绩:

例如,超 600 家用户,采用 “源 1.0” 提供的数据和 API 显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度;

源 1.0 已经与多个行业用户开展深度合作,支持手机智能语音助手、大型互联网翻译平台等应用的 AI 智能化升级……

除了这些相对 “常规” 的操作,不少开源社区的开发者们通过源 1.0 的开放开源平台进行了创意实现。

“AI 剧本杀” 就是其中代表,曾在 GitHub 引发热烈讨论。

GitHub:https://github.com/bigbrother666sh/shezhangbujianle

实际上,剧本杀非常考验玩家的故事场景理解能力、目的性对话能力和线索收集能力,“源” 的出现,让 AI 有了这样的能力。

下图这个顶着女生侧脸头像的蔡晓正是一群开发者开发出的 AI 虚拟人物。经过训练,“她” 不仅擅长剧本杀推理游戏,还拥有自己完整的朋友圈人设 —— 经典 AI 科幻电影《黑客帝国》的经典片段作为朋友圈背景,还会发剧本杀相关内容辅助剧情延续。

蔡晓之 “父”(们)是一群来自上海交通大学、华东理工大学等高校的学生开发者。

基于浪潮 “源 1.0” 的开源开放能力,他们开发了一个 AI 剧本杀平台,让 AI 与真人同场竞技,源 1.0 的场景化对话技能已经达到了 “人机难辨” 的程度。

低代码友好度满分:开发工具齐全,开箱即用

据开发团队介绍,在「剧本杀」项目中的合成文本环节,浪潮团队提供了技术支持,对 prompt 生成、request 提交以及 reply 查询均提供了详细的、质量极高的范本代码。

源官网地址:https://air.inspur.com/home

借助源 1.0 的开放开源的能力,AI 开发者可以快速的享受大模型带来的便利:

包括可以直接调用的开放模型 API—— 显著降低了开发者应用开发的门槛;

并且,浪潮开源了直接可用的代码示例,包括高质量中文数据集,开源模型训练代码、推理代码和应用代码等,可以帮助开发者节省各类研发开支。

如此,开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于 AI 大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。

围绕 AI 大模型构建的算法基础设施,“源” 开源社区建设再次升级。

目前,源的 API 和数据已经面向教科研、互联网、制造业等多个产业超过 600 家用户开放使用。开发团队已提供源 1.0 巨量模型、四个百亿领域模型和模型工具、开发者工具及行业合作服务。

同时,源的官网同步开放和上线了 APIExp 和 Web 应用 Sandbox(沙箱)开发工具,开发者可在 APIExp 上设置参数,零代码调用和测试所有已开放的模型服务。

Sandbox 开发工具可以让开发者仅修改少量代码,即可完成包含 web 交互的应用示例,从而快速验证业务逻辑和功能效果。

未来,“源” 还会进一步开放模型在线蒸馏、领域模型下载等服务,并完善和丰富更多基于大模型的应用示例。

低代码、低门槛,开发工具齐全、开箱即用…… 这些特点以及 NLP 巨量模型自身的魅力与潜力,让更多的、不限技术水平的开发者都有机会尝试大模型应用。

一项技术的出现,起初确实需要聚焦精炼技术和底层开发,夯实基础,而若发展到后来,它也必将 “往上走”—— 慢慢解放人类曾被限制的想象力、服务于缤纷多彩的创意,甚至会帮助证实那些曾被嘲笑是天马行空的幻想。

借用 “小源鲁迅体” 作文中的一句话:“中国青年要创造,我们要或挑战,或因势利导,或顺势而为。”

所以,想怎么用 “源”,看诸君咯。

推荐阅读