触类旁通&天外飞仙
从上世纪90年代到现在,我一直在做大数据相关的研究,包括如何通过data Driven人工智能进行商业开发等,整个学术生涯都是围绕着人工智能大数据而进行的。我认为,做任何事情之前,一定要把技术的能力边界想得特别清晰,这也是《易经》中的一个最简单的原则:认识任何事物一定要把它的本质看透,找到最核心的是什么?
ChatGPT现在非常火,作为人工智能领域的从业者,我一直在思考一些问题:人工智能到底要做到什么样的地步?对整个人工智能的期待应该是什么?我认为,人工智能有四个境界:
第一个境界就是博文强记,现有的技术已经做到了这点;第二个境界是触类旁通,也就是ChatGPT现在正在做到的境界,它可以把各种各样的知识,以一种看似逻辑化的形式给串起来,本质上是概率问题,ChatGPT的本质上就是每一个词后去计算下一个词产生的概率,属于触类旁通,也就是第二境界。第三类境界是什么呢?是一叶知秋,要有推理能力和影响的能力,从这一点来说ChatGPT还需要提高。而最高境界就是达到人类的境界,可以说是“无中生有”或者叫“天外飞仙”。而整个人工智能的发展,必须要经过这四个阶段,现在已经达到第二个阶段,第三个阶段有雏形,但是并不完善和成熟,离“天外飞仙”也就是人类的境界还有很大的差距。
探寻本质&明确边界
任何新的技术的出现,首要考虑的是它最本质的东西是什么?而现在所讨论的很多都是表象,比如大家说ChatGPT“一本正经的胡说八道”,那么,要思考的就是为什么可以“一本正经的胡说八道”?而“一本正经胡说八道”最根源的是在于ChatGPT的生成机制,比如生成一篇文章,人类是先有构思,有中心思想,然后再写这篇文章。而ChatGPT是没有这样的大逻辑和构思的,它是一个单词一个单词地往外蹦,每一个往外蹦的单词是有概率的。所以,事实上这只是一个概率生成问题。
而中间过程ChatGPT会有很多用户体验的改善,比如为什么每次问同样的问题,结果并不一样?是因为它使用了温度参数,以前是每次都是选概率最大的那个词,但现在呢,不一定选概率最大的那个词,而是选概率次大的那个词。站在用户体验的角度来说,人类的几十万个词汇,以一种大规模概率生成的方式,形成了很多的树状往下走,往这边走就是这篇文章,往那边走就是那篇文章。所以问同样的问题,可以得出来两个很有趣的答案,其实无非是概率上从不同路径去走而已。
那么ChatGPT智能性的问题,其语境学习in-context learning,在开源情况下,可以不断地去教育ChatGPT。在这个教育的过程中,可以不断地调整,以适应用户。也可以说就是在调参数,让其生成更加符合用户的期待。这也就是为什么大家会突然就觉得:“哇,这个用户体验非常的棒,特别是像人类之间的交流”。
而因为其本质就是一个概率生成,那么这个概率生成就会容易产生问题。虽然ChatGPT现在呈现出一个相对比较逻辑化的形式,看上去像一篇非常正统的东西,也就是所谓的“一本正经的胡说八道”。但是也正是因为它是基于概率的,而概率是基于数据的质量算出来的。所以,虽然其中也会有人类的很多回答过程中insession的引导,但是整体上改变不了一个事实:如果你提供的前期数据不准确,或者不具备一定的逻辑完整性,那么很有可能造成的后果就是:回答可能是错误的!
因此,考虑任何技术、开始创业、建立商业模式和盈利模式的时候,一定要思考清楚技术的能力边界。重点关注它的缺陷在哪里?这个缺陷是不是从本质上可以克服,或不可以克服,这些才是真正需要思考的问题。ChatGPT本质是一种生成机制,那么它的边界是什么?如果从应用垂类来看,如医疗和金融行业,对准确性和可解释性的要求非常高,就要思考它能不能满足,如果不能应该如何去进行调整;又比如娱乐行业,做卡通、换一个脸、或者各种各样的内容生成娱乐的,准确性就可能没那么重要。所以,应该是充分理解到本质之后,避开致命缺陷,利用优点去盈利。这就跟古代算卦是一个道理的,人有时候在极速的场景下,需要的不是迷信,而是选择,是在快速的过程中给出几个高质量的选择。此时如果你是专家,面临几个高质量的选择往往比没有选择好很多。
无论从个人和企业的角度而言,永远都要思考一个问题,就是世界在快速变化过程中,你如何能够保证自身能力价值的保鲜?思考其能力价值,去分析不同的能力的保鲜期,哪些能力是可以长期保存的。比如对个人而言,自我学习的能力是最有价值并永远保鲜的,只要保持不断的快速的个人学习能力,就不用担心无法适应变化。而对于企业而言,初创企业和大型企业显然也是不同的,例如极端的情况:战略上突然天上掉一个石头下来,把你的赛道都给打没了。在这种最糟糕的情况中,需要去思考留下的能力是什么?而这个能力就是你的资源,比如数据资源、团队资源、人员资源等等,只要考虑清楚后,很多事情就可以大胆地去做了。
一家独大or群雄逐鹿
当然,可以肯定的是ChatGPT的赛道是一个大的机会,特别是在刚开始,历史上来看一般不会被一家企业所垄断。中国是否有机会呢?当然有!因为从整个ChatGPT 现有数据的语料库的训练程度来说,中文占比是极其低的。而数据是战略资源,很多的情况下高质量的数据不是想获取就能够获取的。因此从数据本身的质量性来说,中国肯定有自己的机会。而就其他语料库来说,例如谷歌,他们的技术能力是完全具备的,所以从数据准备来说,谷歌的数据质量是更好的,长远来看,虽然OpenAI是有先发优势的,但是很难说未来谷歌的机会会比OpenAI更少。所以国际上,我认为未来OpenAI和谷歌很有可能形成两大巨头,而中国也一定会有巨头出现,但具体是谁,要看将来大家努力的结果。
而且在AIGC这一领域,中国的机会相对来说会更好。因为从某种意义上来说,从无论是从工程师,对大量的工程师来做很多的细节工作的需求,都有优势;从训练上,以整个技术框架的角度来说,中国并不缺乏这方面的理解;那么从数据本身的准备而言,至少从中文而言是不缺少积累的。另外中国还有一个充分的优势,就是做1到N的东西其实是很擅长的,特别是已经看得到变现潜力的东西,相信未来我们是不会走得太慢的。
熊辉教授简介
熊辉教授,香港科技大学(广州)讲席教授,信息枢纽人工智能学域主任;曾任美国罗格斯-新泽西州立大学杰出教授(Distinguished Professor) 、RBS院长讲席教授;学术休假期间担任百度研究院副院长并主管5个实验室。AAAS Fellow、IEEE Fellow、ACM杰出科学家、中国教育部长江讲座教授、中国国家基金委海外杰青。
*文字根据熊辉教授在《全球科大校友会ChatGPT论坛-圆桌会议》中的分享整理
–
本文转载自 香港科大商学院内地办事处