第7章这究竟会训练出个什么玩意儿？

　　chatgpt你知道吧？‘言心’也是一个语言模型，跟chatgpt的差别就是，相比之下，‘言心’更擅长中文语料。

　　这个话题一旦展开，是怎么也绕不过去现今大火的聊天机器人chatgpt的，chatgpt推出2个月即拥有1亿月活用户，在消费者应用程序里，它是历史上最快达到这个数字的。

　　如今，它就是聊天机器人的标杆产品，火的一塌糊涂。

　　chatgpt的三代模型的核心架构都是transforer，从本质上讲，它依然是基于海量数据的延伸，并没有新的颠覆性技术，也没有从本质上超出现有的技术。

　　说起chatgpt，程旭对此很不以为然——现阶段，人工智能的理论并没有新的进展，谁强并不是强在理论先进技术高超上，而是强在硬件实力强在算力堆积上。

　　换句话说，就是钱——就拿chatgpt来说，它训练一次几乎就差不多需要三千万人民币以上的资金。

　　更别说每年的运营，据估算，每年仅是cpu和gpu的成本就能达到十亿人民币这个级别，再加上其他的费用，这真的不是一般企业能够承受的住的。

　　哪怕是千寻这样的巨头搜索企业，搞出言心这个语言模型，也是持续投入了十年以上，每年的投入几乎是整个千寻科技利润的五分之一——这绝对是一个惊人的数字。

　　但微软是真的舍得投钱啊，十亿美金十亿美金的，钱跟不是钱似的往里投资。

　　说着的时候，潘正甚是羡慕：他们甚至给openai团队配了一台性能极为强悍的超算，看着就让人眼红。

　　千寻科技的投入也不差吧？而且以后肯定还会越来越重视。毕竟现在gpt已经开始集成到bg搜索引擎，未来肯定是要发力的。

　　而搜索引擎，这可是千寻科技的核心业务甚至可以说是根基所在。bg未来在国内肯定是要跟千寻搜索直接竞争的，千寻也绝对不会无动于衷的！

　　要说chatgpt这种极为强悍的聊天机器人出现对谁的影响最大？

　　那当然是搜索业务，它对搜索引擎的影响简直就是颠覆性的。

　　相比于传统的搜索引擎来说，拥有极致的语言处理技术和语言理解能力的chatgpt简直太超前了！

　　它与用户直接对话，用类似于人与人交互的方式进行搜索，而不是传统的关键词匹配。

　　这种搜索得出的结果更加直接快捷，也更加容易使用，甚至直接放到论文里都没问题，查重都查不出来。

　　更有甚者，程序员给它描述需求，它能直接生成可用的代码——它对语言的理解能力已臻于化境！

　　而这对于千寻搜索来说，肯定不是什么好消息。

　　而言心模型，程旭印象中，言心好像是确实出了什么问题，好像还闹挺大的。

　　原本说是三月上线，三月是上线了，不过更多的是局限于商业合作伙伴，比如各类媒体地图房产等大型的合作伙伴——提供智能化的检索服务。

　　但对个人的开放一直在断续出问题，从三月上线开始，直到2024年中旬，一整年都没消停。

　　好像是模型的训练出了什么问题，但这其中究竟发生了什么，程旭也没有过多的关注。

　　千寻确实花了不少钱，投资也数十上百亿了。

　　潘正没有否认程旭的说法，这些东西都已经是公开可求证的了，不过，随后他便微微摇了摇头：但是现在有点儿，坏了！

　　坏了？

　　程旭有些不解，坏了是个什么概念？有这个术语吗？

　　难道是寒武纪受到限制，训练卡和推理卡都不能及时供应得原因？程旭有些不解，这是有些影响，但按理说，这还影响不到当前的上线。也不是什么机密，稍微消息灵通点儿的人一打听都知道。

　　潘正无奈道：不是硬件的问题，寒武纪的问题影响暂时确实没有那么大，是‘言心’基础模型的问题。

　　程旭更加不解了，基础模型能有什么问题？

　　都训练那么长时间了，数十上百亿的资金都投入进去了，基础模型有问题都没发现吗？

　　这算是早期的一个小失误，潘正解释道：原本不是什么大问题，但现在确实不好解决了。

　　程旭没有吭声，等着潘正的下文，他是越听越糊涂了。

　　早期训练的时候，训练人员也没想那么多，那个时候也没有什么严苛的标准，就使用了自己的产品做语料

　　自家的产品？程旭眼睛猛地一跳，瞬间就想起来发生了什么事儿了——千寻自家的产品，除了搜索引擎，也就文库和贴吧了！

　　而对话，贴吧，这

　　程旭瞬间醍醐灌顶——脑海中冒出了一大堆的名词：大帝吧，航空吧，人口吧，孙吧，中西部发展吧

　　这

　　用这些语料做得模型早期训练？

　　这td究竟会训练出来个什么玩意儿？

　　卧槽！实在是没忍住，程旭爆了个粗口：不会训练出‘阴阳人’加‘乐子人’的‘言心’模型吧？拿他岂不是只会阴阳怪气儿，指桑骂槐？

　　程旭摇了摇头，只是这样还是好的，真要培养出来一个类似50w人格的价值观出来，那千寻真的是哭都没地儿哭去！

　　不不不不，没那么严重！

　　潘正教授急忙摆手，制止程旭的思维再发散下去，再发散下去要完蛋了。

　　真要那么严重的话，早就被发现了，也不会拖到现在。事实上，那只是在极早期的时候发生的事情。

　　后续有了标准的训练流程，语料的选择和清洗也有了明确的选择和标准，模型的成长也非常顺利。

　　事实上，言心模型也非常强大，毕竟，这也是数十上百亿资金堆起来的。但是，就是偶尔，对于某些问题，‘言心’偶尔就会冒出一些极为离谱的回答。

　　就是因为问题是偶发的，技术人员以为是培养的问题，负责人中途也更换过，所以也就没有往早期训练语料方面去考虑。只是选择了选择纠正训练。纠正的效果其实还是不错的，所以就延续下来了。

　　但是，事实证明，根儿坏了，是怎么也无法完全纠正回来的，无论迭代多少次，总是有概率出现哪些极为离谱的回答。

　　程旭简直无语，早期的模型就是根基啊，咋能出这样愚蠢的失误呢？

　　其实也不能完全说是技术人员的问题——早期大家都没有经验，都是在摸着石头过河，出现这样那样的问题都是无法完全避免的。

　　语料清洗，今天已经是一个标准概念了，专业教材都有讲，还没有毕业的大学生都能明白他的重要意义。

　　但放在十年前，十年前人工智能刚起步，那个时候，谁能知道语料清洗的重要性？

　　这都是无数人交了巨额的学费，付出了几乎难以承受的代价，才慢慢得出的宝贵经验。

　　请收藏本站：https://www.bqgge.cc。笔趣阁手机版：https://m.bqgge.cc

『点此报错』『加入书签』

第7章 这究竟会训练出个什么玩意儿？

第7章这究竟会训练出个什么玩意儿？