热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

「春花秋月何时了」里面编码着「国恨家仇」

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。自然语言会不会机器语言效率更低呢?恰恰相反,自然语言是一种比机器语言高效,准确得多

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。
自然语言会不会机器语言效率更低呢?
恰恰相反,自然语言是一种比机器语言高效,准确得多的语言,越古老,语料越丰富的语言,就越高效,越准确。
这个结论非常反直觉,我来解释一下。
以 SMTP (简单邮件传输协议)为例,它定义了大约十几个命令,比如 HELO,OLEH,FROM,RCPT,DATA 等等。如果用二进制表达,2 的 4 次方差不多就够了。很简单,很高效对吗?
如果是用自然语言表达,可能是「你好」,「Hola」,或者「こんにちわ」或者 「م١ليب」。这些文字,通过一个类似于 GPT-3 一样的大语言模型,会被翻译成一个 1536 维的向量,也就是 1536 个浮点数字。如果一个浮点数用 4 个字节表达,那就 2 的 32 次方的 1536 次方的信息,或者等于 2 的 49152 次方这么一个数字。这个数字大得让我窒息。这个数字有多大,我不知大。至少我知道,我们现在已知的整个世界的原子数是 2 的 78 次方,多一位,就是 2 的 79 次方(就是两倍于宇宙的原子数)就已经让我无法想象了,不要说从 78 次方变成 49152 次方。
而传输的自然语言本身有多少信息量呢?你好用 Unicode 编码也就是四个字符,2 的 32 次方而已。
也就是是说,大语言模型可以把任何一个自然语言的词或者句子「扩展」成远远远远大于这个词本身的信息量。
也就是说,4 个字节的信息进6000 多个字节出。这不符合信息守恒定律呀。这是怎么做大的呢?
秘密就在于:人类的自然语言的历史上所有的语料,就是一本「密码本」。这个密码本被说的人和听的人共享。
举例子,如果我们有一本厚得不得了的书,几百亿页,包含了人类所有重要的知识。要是相隔几千公里的两个城市都有这个密码本,我们想把《三体》这一本书传递到另外一个城市,我们不用传递《三体》本身的 100 万字,而需要告诉对方一个索引,可能就是一个很小很小的数字,对方就可以从中根据密码本找到这本书。
人类历史上的所有的自然语言加和,就是这么一本密码本。我们只要说一句「春花秋月何时了」,不用加任何其他的信息,国恨家仇,幽怨的囚禁生活等等这些信息,不需要传递,就已经在每个懂这门语言的人的心里传递过去了。
两个人刚刚见面,表达一件事情需要说很多话;但是当两个人在一起合作了 20 年,可能三言两语,对方就心领神会。当两个人有共同的知识的情况下,可以通过传递更少的信息,而从共享的数据中获取多得多的信息。
我们回到 SMTP 的例子,我们看似几个命令非常简单,但是要是表达极为复杂的内容,根本无法用这几个命令组合完成。比如一个机器人决定礼貌的问候对方 ,而他只有 HELO 这一个指令,他将毫无办法。但是未来,一个机器人和另外一个机器人的问候语,可以是「你好」,可以是「吃了吗?」,可以是「」,可以是「你丫的跑哪去了?」,这几字节的信息能够传递的丰富的内涵,只要看一下汗牛充栋的小说,文献,就可以当作从这几句里面扩充信息的丰富的素材。
苹果」这两个字,如果让不懂自然语言的人看起来就是两个字的信息。但是大语言模型眼里面,这两个字里面包含了「」,包含了「」,有「」,也有「种子」,有「邪恶」的感觉,也有「七个小矮人」环绕,有「图灵」的不甘心。。。。你只要想想一下 2 的将近 50000 次方里面能放多少信息,苹果这两个字里面在大模型里面就有多少信息。
所以,用自然语言作为机器人和机器人之间的交流语言,不但不会低效,反而是无法想象的高效。就如同人类的一个眼神,就传递了无数的信息。这些信息其实不仅仅是由信息本身传递的,而是在人类的基因和文化的浩瀚的结构中包含的,眼神仅仅是一个索引

我进一步推论,历史越长,内容越浩瀚的语言,传递的效率越高。比如中文,就比毛利语更能准确的传递信息,因为中文的语料,有几千年的积累,而毛利语我们能找到的文献,相比来说小得多。或许,英语,中文这样的语言是最适合机器人交流的语言。

注:后台回复「文心一言」可以通过「文心一言智能号」直接开始体验。


推荐阅读
  • Python15行代码实现免费发送手机短信,推送消息「建议收藏」
    Python15行代码实现免费发 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • mui框架offcanvas侧滑超出部分隐藏无法滚动如何解决
    web前端|js教程off-canvas,部分,超出web前端-js教程mui框架中off-canvas侧滑的一个缺点就是无法出现滚动条,因为它主要用途是设置类似于qq界面的那种格 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 驭势科技签约禾赛科技,携手推进“全场景”自动驾驶商业化
    2021年12月8日,全球领先的激光雷达公司禾赛科技和自动驾驶商业化全球领跑的公司驭势科技共同宣布,双方达成战略合作协议。根据协议,禾赛将 ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 移动传感器扫描覆盖摘要:关于传感器网络中的地址覆盖问题,已经做过很多尝试。他们通常归为两类,全覆盖和栅栏覆盖,统称为静态覆盖 ... [详细]
  • 四月份NFT优质榜单
    四月份NFT优质榜单 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • C语言注释工具及快捷键,删除C语言注释工具的实现思路
    本文介绍了C语言中注释的两种方式以及注释的作用,提供了删除C语言注释的工具实现思路,并分享了C语言中注释的快捷键操作方法。 ... [详细]
  • 【Windows】实现微信双开或多开的方法及步骤详解
    本文介绍了在Windows系统下实现微信双开或多开的方法,通过安装微信电脑版、复制微信程序启动路径、修改文本文件为bat文件等步骤,实现同时登录两个或多个微信的效果。相比于使用虚拟机的方法,本方法更简单易行,适用于任何电脑,并且不会消耗过多系统资源。详细步骤和原理解释请参考本文内容。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 仙贝旅行是日本最大的旅游服务平台之一,为广大用户提供优质的日本定制游服务。随着用户数量的增长,仙贝旅行决定与智齿科技合作,全面替换原有客服系统,打造全新的在线客服体系。该体系具备多渠道快速接入的能力,让仙贝旅行轻松与各个渠道的接入用户完成沟通。同时,机器人与人工协同发力,提升客户服务水平。 ... [详细]
author-avatar
帅气小子勇哥
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有