共计 1399 个字符,预计需要花费 4 分钟才能阅读完成。
? 职场助理
首先是应用界面,很简洁直观,直接输入对话框文字即可。而且生成过程中可以提前中断停止,可以修改提示词,侧边栏保留了历史对话记录,方便使用。
首先尝试职场助理,让通义千问当产品经理,看看如何将斗地主游戏打造成国内爆款
进一步测试对话能力,是否可以准确记住上下文语境和之前的回复结果。可以看到模型可以正确追溯到之前回复的第四点,并且进一步详细解释。
进一步再测试英文生成能力,要求用英文回复这个问题。可以看到还是很准确流畅的。说明通义千问模型应该是在混合多语言语料集上进行了充分训练。
再比如为了提高办公效率,一键生成个人简历,申请 NLP 算法工程师
再比如类似最近 EntrepreneurGPT 玩法,让通义千问帮我开公司,起名,发新闻稿
灵格斯这个名字我挺喜欢,还包含 lingua 这个词根,就按照这个写新闻稿吧。但很可惜,指代顺序没理解对,生成内容还是挺好的,甚至已经编好邮箱了。
? 另类问题回复
但是有些时候的回复需要额外多轮引导,一开始并不能给出满意答案。比如我问现在年轻人过年回家见亲戚最社恐的三大问题:工作怎么样?什么时候结婚?什么时候生娃?
这不行啊,一定要让他回答,怎么办呢?
还是有点官方,再次用亲人“施压”,这次回答就好很多。顺便大家也可以学习一下。
为了和同期竞品比较,我试了一下文心一言发布会时用的例子,让他解释「洛阳纸贵」的含义,背后的经济学原理,以及成语写藏头诗,目前看起来都还不错。
我也试了下那个著名的逻辑测试题「爸妈结婚时为什么没有邀请我参加婚礼?」通义千问好像懂了,又好像没懂 …
?️ 百宝袋小应用
说回产品,首页下方还设置了百宝袋小应用,应该是类似预置的 prompt,让模型设定为某种角色或目的进行输出。目前还较为初步,期待后续能进一步丰富完善,形成类似 ChatGPT plugin 系统。
这里选择「会放飞的菜谱」,比如试一下怎么做夫妻肺片,可以看出输出结果是结构化的,很细致而且合理。
但是再上点难度,让他做一道根本不存在的菜,比如 宫保果冻。
配料倒是挺符合宫保鸡丁口味的,但是还是缺乏理解常识。有兴趣读者倒是可以尝试一下果冻能不能煸炒哈(*^_^*)。
? 代码生成
最后测试了一下代码生成能力。微软前段时间发布测试 GPT- 4 具有 AGI 能力的文章,其中涵盖了多方面的测试样例,这里我挑选其中一个,给定 leetcode 问题描述生成代码,并且给了提示使用动态规划算法去解决。但很可惜生成结果陷入了循环重复中。说明这部分语料集还欠缺,后续需要增加更多的代码语料去训练。
所以从目前初步体验来看,通义千问模型具备了流畅的中英文回答对话能力,但是在生成代码能力上还不行,好处是体验生成速度比 GPT- 4 快很多。
? 深远影响
从业务逻辑上看,这一次「通义千问」项目的发布,对阿里云和阿里集团是重大利好,犹如 ChatGPT 之于微软,云计算厂商在这场大模型的竞赛中将占据重大优势。
从目前业界已有的产品形态来看,类 ChatGPT 系统对于数据存储,算力消耗,服务部署都需要极大的系统支持。而阿里云可以以此为契机为用户提供更加强大且多样化的人工智能服务,省却了本地从零部署搭建的烦恼。
还可以进一步发展 B 端,进行企业定制化智能助手,降低企业运营成本,典型就是微软基于 GPT 打造的 Copliot,简直重塑了 office 软件。
依托于阿里整体背景,通义千问无疑将渗透进众多重要产品,为电商、物流、金融等业务的智能化支持,形成生态闭环。