2023年,全球科技领域最重要的事,就是新一轮人工智能大模型竞赛。随着OpenAI公司发布ChatGPT一鸣惊人,大模型如雨后春笋般喷涌而出,“百模大战”盛况吸引全球关注,大模型的发展速度日新月异。然而,大模型早已从单一技术比拼,升级为整个体系生态的竞争,决胜关键点在于谁能夯实基础、系统布局,更好迎接AI驱动的“算力时代”。
近日,在AICC 2023人工智能计算大会上,新智元创始人&CEO杨静在大模型创新主题圆桌论坛,与循环智能AI负责人陈虞君、中国科学院自动化研究所研究员张家俊、浪潮信息人工智能软件研发总监吴韶华围绕大模型时代的智算机遇、痛点与破局之道展开思想碰撞。
与会嘉宾指出,中国大模型发展与应用落地仍处于探索时期,需要在算法、数据、算力三方面进行创新,通过用户反馈和实践创新反哺大模型,进一步夯实基础大模型技术,推动大模型的场景化落地。
以下是圆桌问答实录整理:
杨静:百模大战各显神通,头部的玩家结合自己的优势布局大模型,也想请各位分享一下各自的大模型业务布局。
陈虞君:“提升大模型长文本能力,降低幻觉问题”
循环智能基于ToB的服务经验,我们希望能够让大模型的长文本能力尽可能在各种企业应用上产生价值,同时降低大模型幻觉问题。我们的业务也是基于如何提升改善大模型这两个能力展开的,希望利用这两个特性产生一些针对企业的更好用的大模型应用。
张家俊:“打造多模态大模型,解决实际问题”
我们暂时还没有成立工程实体,业务布局更多的是ToB和ToG。除此之外,我们在做多模态大模型,可以更容易地落地行业场景。我们不强调是大语言模型或者多模通用,而是在实际场景当中解决实际问题,通过我们的探索,确实比以前降本增效了,之前解决不了的问题能够解决了。
吴韶华:“筑基基础大模型,助力行业落地”
浪潮信息始终把精力投入在基础模型创新层面,全面的赋能应用层的开发者、元脑生态伙伴去触达最终的用户。我们认为当前在大模型领域,只有先把基础模型能力真正提上去了,大模型在行业应用层面才能真正解决碎片化的问题,才能更好的支撑行业场景的落地。
杨静:基础大模型发展的技术突破口是什么?我们应该如何破局,才能创造出高性能的大模型,尽快追赶上GPT4?
吴韶华:“算法数据双创新,打造内部飞轮”
如果想接近甚至超越GPT4的能力,一定要同时考虑算法和数据。首先是算法,不能一味的使用LIama结构或者Transformer结构,而不做任何创新。其次是数据,OpenAI的数据飞轮效应是非常显著的,他们可以通过各种途径收集非常多的实际用户的真实反馈。在这种情况下,想要接近甚至超过GPT4的核心是创新,尤其是算法和数据两方面的创新。
基于源2.0的实践,为了获取高质量的中文数学数据,我们清洗了从2018年至今约12PB的数据,最后仅得到10GB的中文数学数据。而这不到10GB数据还有很大的质量提升的空间。对此,我们选择用大模型合成数据,构建了内部的数据清洗工具和平台,利用工具快速实现了内部获取非常紧缺的数据、高质量的数据。
张家俊:“跟随无法超越,大胆创新、大胆尝试,利用专长能力解决实际问题”
在追赶和超越GPT4的过程中,我们面临着不知道它的算法,不知道用了哪些数据的问题,这使得我们无法跟随和全面验证GPT4,只能在某些数据集上,在某些能力上超越了GPT4,没有一个全面的、公认的度量标准。所以跟随它永远超越不了,我觉得应该是创新。一方面要从数据配比层面创新,另外从模型算法创新,在模型结构上大胆尝试、大胆变化,跟随是解决不了根本问题的。
值得注意的是,我们并不一定需要达到GPT4的能力才能将技术应用于实际场景中,比如我们解决了模态方面的理解问题,解决了可控性,安全性的问题,很多领域都可以用,没有必须达到GPT4的能力。
陈虞君:“以终为始,加强用户共创,发现模型局限性问题,实现创新突破”
对于大模型来说不存在真正意义上的突破点,比如没有大模型技术之前,谷歌的机器翻译做的就很好了。不同的问题会有不同的临界点,我们需要具体分析,有些问题可能大模型可以直接解决,而有些问题则可能需要长时间的迭代。其次,我们不应只追求如何追赶或者超越GPT4,从构建、训练一个大模型的角度来说,我们更应该去思考怎么样让大模型理解人类的意图,让大模型真正帮助我们完成任务。
我们以终为始去看这个问题,发现当前的模型存在很多局限性,比如不能支持长文本、存在幻觉、语义理解输出不稳定,包括GPT4也存在一些局限。这块我们做了两方面努力,一方面,所以我们孵化了一家ToC的公司,与所有使用模型的用户进行共创。另一方面,我们也广泛的和我们B端的合作伙伴进行共创,让模型在合作伙伴身上产生价值。我们相信,只有尽可能多的使用模型,才能知道模型的局限点在哪里,才能够有所创新突破。
杨静:目前堆算力一直被认为是驱动大模型进化的有效手段,但是算力荒已经成为业界共有的问题,从贵公司的发展状况来看,对于创新基础设施,提升大模型训练效率层面有哪些可以分享的经验?
陈虞君:“用尽可能少的真实的数据实现尽可能好的训练效果”
算力荒现在是普遍存在的问题,OpenAI也会存在算力荒。我们能够做的就是在尽可能少的资源的情况下,能够通过算法、数据上的创新,来应对这一问题。我们可以利用尽可能少的真实的数据实现尽可能好的效果,我们节省了很多算力的情况下达到了相近或者更好的效果这种形式。从算法上来说我们借助非常好的训练方法,让模型尽可能需要少的算力的情况下达到尽可能好的效果。
张家俊:“算力是重要因素,但算力荒不会阻碍创新”
算力在训练大模型时确实是一个重要因素,OpenAI使用大算力训练出的模型表现确实优于小算力训练出来的小模型,这是公认的事实。然而,这并不意味着我们必须拥有与OpenAI相当的算力才能进行创新,算力不会阻碍我们的创新。尽管我们可能需要训练更长的时间,比如OpenAI训练两个月的时间我们需要训练半年,但只要我们拥有适当的算法和数据,我们仍然可以实现创新。
吴韶华:“提纯高质量数据,创新分布式训练算法,等比例降低算力需求”
这个问题的本质在于大模型训练时,大家普遍认为算力越大模型性能越高,但实际上这个观念主要来自于早期的研究,当模型参数量和数据量增大时,模型的精度会有所提升。但这种提升会被折算到算力上,导致形成了算力越大模型性能越高的观念。但现在的大模型训练范式已经发生了变化,引入了指令微调,几千条高质量的数据就可以提升模型能力,所以是否需要在预训练阶段投入大量算力成为了一个问题。
根据开发源2.0的经验来看,我们清洗了互联网上12PB的数据,只得到了10GB的有效数据。在这种情况下追求数据的体量没有意义,如果能够找到有效的手段把数据量降下来,算力需求就会等比例降下来。在源2.0的开发过程中,我们整体数据体量并不大,但是内部评估质量非常高,这是提升算力效率的一个非常有效的手段。同时在设计模型结构的时候,在相同的架构下尽可能降低参数量,这样能提升参数效率,也能节省算力,相当于从算法层面考虑算力的开销。除此之外,目前成型的分布式训练算法,实现的前提是芯片之间的P2P带宽要足够高,要满足张量并行对于通信巨大的需求。对于这种情况,我们针对算力大规模分布训练做了额外的工作,可以降低大模型训练过程中对于通信带宽的需求,可以用更多样化的设备训练大模型。
杨静:大型预训练模型已经展现出了强大的性能,但在行业中的应用仍然面临一些挑战,如部署、定制化、数据隐私和安全性等问题。那么,大家认为大型预训练模型应如何走向行业并发挥其潜力呢?
陈虞君:“携手合作伙伴、行业专家教授大模型行业知识”
循环智能从2019年开始做商业化落地,一直在思考如何实现AI模型落地行业,所以在推出相关产品的时候,也关注了一些包括银行、保险、汽车、房产等在内的十个左右的行业需求。今年在使用大模型去解决各个行业问题的时候,我们发现大模型落地一个比较有挑战的点是每个行业都有不一样的专业知识和knowhow,比如法律公司对模型的输出准确性要求非常高,需要模型读懂整篇的法律法规,并且必须一字不差地输出法规内容,同时需要模型记住法律法规对应的章节号;而在房地产营销的场景,通过对销售与客户沟通场景的抽取,我们发现类似于“200的500”这种的行业“黑话”,代表了房子面积是200平米,对应的是500万的价格;而对于金融行业需要理解财报表格信息,这些都是大模型落地行业过程中我们遇到的问题。所以实现大模型落地行业的最重要的一个步骤,就是和合作伙伴、行业专家一起去教授大模型行业知识。同时,我们也在构建一个合作的形式,能够让尽可能多的合作伙伴加入一起打造大模型,通过大量的客户反馈,发现模型当前存在的问题,找到下阶段的进化方向。
张家俊:“放低姿态,用户预期管理,多接触,多耐心”
第一,放低姿态。我们的大模型是让大家拿去直接用的,很多场景下我们要放低自己的姿态。第二,用户预期管理。我们需要给出一个解决问题所需时间的预期,因为不同行业会有各种不同的问题需要解决,我们要避免给客户过高的预期,实事求是地解决问题。第三,多接触。让大家多使用,发现问题、解决问题,从用户反馈的角度会越来越好。第四,多耐心。不管做大模型,还是作为用户,培养大家多耐心,未来肯定越来越好。
吴韶华:“大模型共训,赋能开发者触达应用场景”
对于源2.0模型来说,我们推出大模型共训计划,这个计划的核心出发点希望能够让我们的研发团队,能够接触到所有的开发者。开发者提出自己的应用或场景的需求,提供1~2条示例,由我们来准备训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。同时,我们还有另外一种形式,浪潮信息会赋能合作伙伴,把我们在模型能力上的经验提供给他们,助力伙伴们把这些应用到行业当中。
杨静:现如今大家都面临着算力紧缺的问题,大模型训练也离不开充足算力的支持。所以请问各位嘉宾,目前看到或者正在做哪些工作来适应算力多元化的时代趋势的?
陈虞君:“避免算力重复和浪费,集中行业知识合作共训”
大家的训练应该是合作共训的逻辑,不同的行业会有不同的知识,我们应该尽可能地汇聚这些知识,利用有限的算力资源共训,这样就能够达到节省算力的地步,避免大量算力的重复和浪费。
张家俊:“不会把鸡蛋放在一个篮子里,走自己的大模型之路”
我们的做法是不会把鸡蛋放在一个篮子里,我们也会用到国内外的各种算力。我们从2020年开始走自己的大模型道路,一直坚持这条路,几乎所有的芯片算力都适配过,这样可以保证我们有能力保留训练大模型的方案。
吴韶华:“从系统层面应对算力多元化趋势”
浪潮信息开发了一套框架,利用这套框架里面的一层,可以专门管理各类算力,我们从系统的角度为业界面向多元算力提供一个方案。