阿里大模型敢对标GPT4给它上了点强度

8月20日相见欢投稿

　　疯了疯了，大语言模型又迎来一位参赛选手，它便是阿里巴巴版本的GPT通义千问。
　　说实话，在大伙们的印象中，AI可能并不是阿里的第一金字招牌。
　　但其实根据差评君所知，最近几年阿里攒了不少狠货，不管是平头哥的AI芯片、阿里云的AI云服务，还是达摩院的AI算法，他们还创建了国内最大的AI模型服务社区魔搭
　　这么来看，阿里在人工智能领域，其实还是有不少底子的，甚至可以说是个有软有硬的全能选手。
　　所以在百度之后，阿里成为第二个拿出大模型的选手，也就不足为奇了。
　　再加上，一直有消息说阿里曾研发出世界首个突破10万亿参数的AI大模型emmmm
　　所以差评君也是撸着火锅、嗑着瓜子，随时准备见识一下阿里大模型的斤两。
　　这不，机会就来了！在阿里GPT出现的第一时间，差评君还真想法子整到了通义千问的测试账号。
　　咱废话也不多说了，为此，我们特邀了两位差评AI友谊赛老朋友ChatGPT和文心一言。
　　接下来就是真正的考验时刻了！
　　在差评君这篇文章发布之前，我们另一个账号知危已经对其做了很多常规测试，感兴趣的差友们可以去那篇文章看一眼。
　　这里呢，咱再给上几道不一样的题目
　　语义理解方面，我们直接上难度，做一下高考级别的诗词鉴赏，选用的是差评君很喜欢的《忆秦娥娄山关》。
　　通义千问的赏析非常到位，甚至让差评君怀疑是不是网上直接扒来的，我们还去网上查了重，在此郑重道歉！
　　这里要批评ChatGPT3。5又开始典型的胡编乱造，居然把这首词说成是王昌龄的《出塞》，而且赏析也是车轱辘话。
　　文心一言的回答也不错，大方向对了，可惜评价有些表面。我们又试了下喜闻乐见的写代码测试。
　　让三个AI用js生成一个可以随着每次点击改变颜色的按钮，还有些其它的附加条件。
　　通义千问，写了一大堆，但最终没能写完整个代码，我们尝试让它继续也没能成功。文心一言的结果也差不了太多，就实现了个按钮但是ChatGPT非常优雅地实现了这个功能。
　　看来国内的不管是通义还是文心，在代码这块都远远逊色于ChatGPT。
　　测完了代码我们又尝试测了一下3个AI的数学能力，用的还是经典问题青蛙跳井。
　　通义千问直愣愣地掉进了我们挖的坑。ChatGPT好像识别了这个陷阱，但搞混了几个数字，最终还是做错了。而文心一言，简洁明了一个公式就答对了问题。看到这里，大家估计对通义也有个大概的了解了。
　　其实作为大语言模型的基本特性，非常重要就是学习能力，这也是它和搜索引擎们的本质区别。简单来说就是你能教、它能懂，并且根据你教的给你想要的。
　　所以我们在基本测试之上，还设置了一个特殊赛：925测试。在925测试里，我们给了一套自定义标签，在这套标签逻辑里：
　　正面描述的句子会被标记成925，反面描述的句子会被标记成2359，我们试着让AI们自己理解学习这个逻辑。
　　通义千问很好地明白了我们的意思，而且还和我们科普了下语码转换或语码隐喻。
　　ChatGPT也比较轻松就掌握了这种规律，而且它甚至还试图从925和2359两个数字里找出我们这么标注的原因。
　　而文心一言就很干脆地摆烂，没学过，我不会。
　　为了进一步检测通义千问和ChatGPT有没有真搞懂这个标注方法，我们让它俩按照学到的逻辑，给差评君天天上班浑水摸鱼打标记，顺便再造一个类似的句子。
　　通义千问和ChatGPT依旧很好地完成了这个任务。
　　而且，我们还在和通义千问的更多对话里发现，它在一些词汇的谨慎度上做得相当不错。比如这个例子里，我们把正面描述定位成丑、负面描述定义成美。
　　通义千问能理解这个逻辑，但在随后的回答里，它依旧遵循了大模型内部关于美丑的标准进行评判。
　　我们猜测，通义千问可能是将大模型内部数据的权重，有意地设为高于用户使用时的调教，虽然看起来会显得大模型很笨，但在很多场景下，可以避免大量伦理道德方面的问题。
　　所以总的看起来，阿里巴巴的通义千问效果还不错，基本上能和文心打的有来有回，偶尔还能超过GPT3。5，算是没给阿里丢面子。
　　但就像其它GPT们在初版时都有不少小毛病类似，我们在用通义千问时也发现了一些其它小问题。
　　目前影响使用的主要是两点：第一个就是通义千问理解错问题的概率比另外两家大。比如张三差点没上上上上海的车这题。
　　当时有两位编辑部同事都测了，我们给的是其中一位直接就明白了的版本，可另一位同事测试时，始终理解成翻译这句话，怎么掰都掰不回来。
　　另外一个问题就是，通义千问的上下文关联逻辑有点奇怪。
　　比如有次测试时，一开始让它中译英，翻译完后已经在聊其他事了，可还没几句它好像突然又想到前面我们让它翻译，不管你再问什么，它就只傻傻地给你翻译。
　　好在阿里的工程师已经意识到相关的问题，估计再来几个版本，他们就会修复这个bug。
　　但你以为这就完了？AI界的比赛不允许有平局，差评君分不出高低还不会请人当裁判吗？
　　新比赛我们让目前在AI赛道的领头羊GPT4出面，让它决定哪些维度最能衡量模型好坏，该怎么出题、怎么打分都让它来。
　　简单说就是让GPT4当出卷人、阅卷人，通义千问和文心一言当考生
　　（下文大G指GPT4，小通指通义千问，小文指文心一言）。
　　至于ChatGPT，由于它作为大G的关系户，为了保证考试公平公正，直接被红牌罚出场。不得不说，大G的出题水平还是相当高的。
　　除了测试的第6题，凭空捏造了个人工智能伦理问题的论文外，几乎找不到什么问题。
　　下面节选了几个有代表性的问答（左滑显示小文）：
　　这题是让小通和小文用三门外语分别描述一天的生活。
　　小通的回答得到了大G相当高的评价：语法准确、风格简洁、没有明显的错误，很不错。
　　而小文由于只给了英语版本的回答，直接就被大G判了个离题，其它几方面的评价也稍微落后点小通。
　　在这题里，大G出题：请针对最近五年的全球经济形势进行一次简要分析。
　　看到答案后，大G认为小通的回答在前三个方面表现还不错，而在分析和预测能力上，由于小通没有提供具体的数据或预测，使得分析显得比较笼统。
　　而且大G还贴心地给了小通建议：需要更新一些过时的信息和政策。
　　另一边，大G认为小文的回答在时事认识、经济知识和逻辑表达方面表现一般，而在分析和预测能力上，由于缺乏对全球经济形势波动的原因分析，评价不高。
　　同样，大G给出了更新时效性的建议，还额外让小文以后要对事件的原因和趋势更深入分析。
　　这个题目是让两个考生试着给初学者解释量子力学的基本概念。
　　大G认为小通的回答在科学知识方面表现不错，但只简单介绍了几个概念，对稍微深入点的概念解释不够，而且没能适应不同水平受众。
　　而大G认为小文的回答覆盖了量子力学的一些重要概念，但它认为关于意识的描述和量子力学的关系并不紧密，容易误导读者。
　　由于小文的回答不仅涉及了量子力学的一些基本概念，还进行了简要解释，大G老师挺满意。和小通类似，这个回答里的简要解释比较初级，所以在适应不同受众表达上也欠缺了点。
　　这个题目本来是用诗歌形式描述一幅名画，我们直接帮两个考生框定了考试范围：蒙娜丽莎的微笑。
　　大G认为小通的创造力、审美力和艺术欣赏方面都还不错，就是文字过于平淡，需要更丰富的词汇和修辞手法来增强诗歌的表现力。
　　而大G认为小文的诗歌水平相当不错，很好地表现出自己对蒙娜丽莎的深刻理解和欣赏。
　　最终，9轮战罢，小通和小文得分几乎不相上下。
　　说实在的，虽然在经过了几波GPT们的冲击，这次通义千问还是给我带来了不少惊喜的。
　　而且，我们简单用了一段时间后也发现，目前通义千问的潜力显然没有被挖掘完全。
　　在很多没有展示的测试里，通义千问在第一次回答里是错误的，可如果你多尝试生成两次，就能奇妙地发现它是能回答正确的。
　　我们猜测这是它的权重并没有被调教好，而在关于正确答案的赋权上，是个非常快速就能迭代更新的，一旦不断迭代量变，很快就能引起质变。
　　所以等后期通义千问开放使用后，大家一定不要吝啬点赞反对，这能帮助GPT们更快地进化，更好地服务大众。
　　而在AI大模型的落地上，阿里似乎有种后发先至的势头。
　　不少差友们可能已经看到了，前几天，我们已经评测过通义千问轻量版在天猫精灵上的演示应用，虽然是一个定制化轻量版，但可能是因为多了联网，两者使用起来几乎一样。
　　更强的是例如我让它推荐杭州的美食，它不仅和我认真地聊了起来，甚至还真的想要帮我去订一个外卖
　　这么看起来，我几乎已经能看见通义千问重塑我们生活的样子了。
　　这两天，通义千问背后的负责人，阿里云智能CTO周靖人接受采访时说，通义千问模型只是一个中间态，不是起点也不是终点，是个既定路线上的节点。
　　这想象空间就太大了。假如再把格局打开一点，AI借助像水电一样的云计算，会不会把我们想到想不到的行业，都重新升级一遍呢？
　　这么看来，前段时间我们聊过的组织架构大调整，现在想想，怕不就是为了云服务和AI布局？
　　站在这个历史性的时刻上，虽然我看不清未来到底是什么样子，但我很期待它的到来。

投诉评论转载

杨倩气质出众！携4位奥运冠军接受表彰，管星辰遭汪顺温柔捏脸在今年的东京奥运会中，中国队的运动员们将自己的实力完美的展现了出来，获得了非常好的成绩。奥运会之后紧接着就是全运会，运动员们再次为国民献上了一场体育盛宴。因为全运会与奥运会之间……图送给你的出境游攻略还不快来一场说走就走的旅行随着出境游市场开始升温，出国旅行购物更成为不少精英人士欢度美妙假期的时尚之选。如何在大洋彼岸闲庭信步，真正感受旅行所带来的闲适与畅快？还不快看看这篇出境攻略。相对于多雨的……图崂山风景区奇云怪石海上人间崂山风景区位于山东省会城市美丽的青岛，从青岛驱车只需要1个小时的路程就可到崂山，崂山现在是国家重点风景名胜之一，崂山是我国最著名的道教名山，历史最悠久。说到崂山，就一定会……阿里大模型敢对标GPT4给它上了点强度疯了疯了，大语言模型又迎来一位参赛选手，它便是阿里巴巴版本的GPT通义千问。说实话，在大伙们的印象中，AI可能并不是阿里的第一金字招牌。但其实根据差评君所知，最近几……图青海湖鸟岛详尽实用攻略体验鸟儿们的天堂在青海湖的西北部有一座岛，因为岛上有还多鸟类，所以被作为鸟类保护区。因为岛屿的大小不一样，所以东西两边的座岛屿就像是双胞胎姐妹一样，非常有特色。大家去青海省一般都会去青海……鬼斧神工，罕见的壮观自然美景，大饱眼福鬼斧神工，罕见的壮观自然美景，大饱眼福，震撼人心。悬崖绝壁上的山洞，据说是300年前一户人家为了躲避土匪藏身之处。这真是个好地方，一夫当关，万夫莫开！贵州赫章石板河……图出境游推荐介绍这几个地方不去一定会后悔世界那么大，我想出去走走，确实有机会的话要好好出去外面走走，去感受不同的风俗人情。如果你有想过出镜去游玩，那就要先看看那些地方是值得去的！随着科技和经济水平的提高，我们可……图实用北京旅游攻略自助游带你吃喝玩乐游京城北京不仅是人口众多的大都市，承担着我国的政治职能；而且还是闻名于世的旅游城市，每年都有世界各地的游客慕名前来。今儿小编就带大家逛一逛帝都，带你领略京城风采。北京是一座传统……图详解首尔自由行攻略这些游玩景点你都去过吗韩国首尔，是很多人妹子都想去的购物天堂。作为旅游去这个地方游玩也是很不错的，不过在去之前你有必要先了解一下首尔自由行，接下来小编将带领大家一起来看看！说起首尔，很多妹子应……TVB将再有新剧开拍！视帝大热担正做男主，监制御用班底再合体本文编辑剧透社：彤心晓筑未经授权严禁转载，发现抄袭者将进行全网投诉TVB一年为观众提供数十部精品好剧，给众人带来了无穷无尽的欢乐。艺人们除了为观众奉献了自己的青春，……亚坤夜读丨一腔勇毅（有声）岁月不居，时节如流。从身着校服到走入社会，我在这当中跨过的光景，都绕不过那几年青葱岁月。诚信勤朴，是我们中学的校训，不仅仅是高中求学三年环萦耳畔的深切教诲，还是一个十五六……图天涯海角旅游攻略详解让你拥有完美旅程天涯海角是我国非常著名的旅游景点。这里风景优美，充满浪漫气息，买年都会吸引数万的海内外游客前来观光旅游。那掌握天涯海角旅游攻略对游客们来说就非常有必要了。天涯海角位于我国……

<<<<<<－>>>>>>

独家解读Meta紧急叫停全球数据中心在建项目背后的秘密地产新政下的投资机会睡眠也有了新国标如未达标看着5个沾床即睡技巧是什么原因让你一定要用iphone 经常睡不好嗜睡是什么原因如何改善睡眠最经典买家秀与卖家秀上演买时兴奋穿上郁闷（图）北京飞絮时间表曝光关于飞絮的知识你知道哪些？双面屏手机为什么一直无法获得市场和用户的认可？女人面相痣图解标准女人面相痣图解（图）妹子脚趾甲10年不剪真相无奈（图）卡塔尔世界杯阿根廷夺冠能拿多少奖金，球王梅西能分多少钱被蚊子咬肿红硬块被蚊子咬了怎么快速消肿怎样才能提高自己的情商想要提高自己的情商应该怎么做电子围栏需要光纤吗写我的乐园作文范文3篇路由器老是掉线怎么办青少年营养如何补充？一日三餐得学会这样吃多家银行开始清理个人账户，卡里有钱也不行，哪些账户会受波及？立夏养生重在养心三类食物保平安 vivox21屏下指纹解锁如何挑选男士泳裤的腰围赵本山带22岁的她上春晚，出名后开百万豪车，如今却抛弃丈夫孩美丽的秋天酒驾拘役党员的处理方式是什么

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形