谷歌「被迫」研发的TPU，引发成千芯片与之竞逐

时间：2024-12-25 17:07 作者：[db:作者]

12月12日，谷歌发布其第六代TPU（张量处置器），Trillium正式上市。谷歌盘算跟人工智能基本设备副总裁兼总司理Mark Lohmeyer表现，谷歌旗下的年夜模子Gemini 2.0恰是采取Trillium停止练习， TPU是Google Cloud AI超等盘算（AI Hypercomputer）的要害组件，集成了机能优化后的硬件、开放软件、当先的呆板进修框架以及机动的花费模子。以色列人工智能公司AI21 Labs的CTO Barak Lenz表现，AI21 Labs是自TPU v4以来的临时用户，Trillium在范围、速率跟本钱效力方面都获得了明显的提高。在GPU减速所有的人工智能时期，TPU像极外来物种。究竟在各年夜搜寻软件里输入要害词“TPU”，前多少条成果表现的都是资料学科里的聚氨酯。TPU因谷歌而呈现，TPU市场因谷歌而繁华。为何研发TPU，以及TPU团队的工程师分开谷歌后怎样将行业推向繁华，背地的故事值得报告。谷歌「自愿」研发TPU2009年，Geoffrey Hinton将深度神经收集利用于语音建模，在TIMIT（声学-音素持续语音语料库）上取得事先的最佳结果，深度进修神经收集技巧在语音辨认范畴开端年夜放异彩。假如说ChatGPT是当下人工智能海潮的出发点，那AlexNet神经收集架构的呈现就是上一个里程碑。2012年，Alex Krizhesky、Ilya Sutskever跟Hinton提出的AlexNet架构，经由过程应用GPU构建深度进修模子，革新事先的图像辨认天下记录，而且正确率到达85%，在昔时的ImageNet年夜赛中一举夺冠。人工智能在语音跟图像辨认范畴的利用惹起了谷歌的存眷，究竟这两个范畴与谷歌的中心营业，如搜寻、舆图、照片跟翻译等严密相干。正值谷歌斟酌推露面向寰球的语音辨认功效之际，研讨团队发明须要处置的人工智能盘算量将超越其现有的算力。谷歌首席迷信家Jeff Dean在采访时称：“事先，咱们大略地预算了数亿人与谷歌的产物对话会发生几多盘算量，成果表现谷歌须要安排多一倍的算力才能够满意如许的需要。”做为年夜厂，谷歌生成带有傲性。事先，谷歌团队研讨了市道上供给的全部算力处理计划，全体都被高层反对失落。互联网年夜暴发使算力需要浮现指数级回升，两个显明的的趋向开端出现，一是算力应用场景细分化，二是用户对算力的需要一直攀升，传统的通用算力芯片很难再满意一些特定场景的需要。对公用芯片的投入日益遭到存眷，开辟公司外部的深度进修公用处置器芯片成为谷歌的不贰之选。「出道即顶峰」，首代TPU推理速率为竞品30倍决议后，是敏捷的履行。谷歌挖来惠普智能基本设备试验室高等总监Norm Jouppi、Pacmid的研发担任人Jonathan Ross、Arm架构开辟商Calxeda的SoC工程总监Richard Ho以及高通高等工程师Ravi Narayanaswami等一批芯片行业资深从业职员，而这一批职员也勾画出当下人工智能芯片范畴巨子博弈的中心人才画像。面临全天下最好的工程师，年夜厂光环跟天价薪资略显便宜，真正让这帮人聚在一同的是开辟出满意寰球人工智能算力需要的处理计划这一愿景。谷歌云TPU营业开创人Zak Stone称：“2012年，我创建了一家呆板进修创业公司，为了以较低的本钱取得算力，我的结合开创人会在网上购置二手的游戏GPU，而后在咖啡桌上搭建效劳器，一旦咱们在运转GPU的时间翻开了微波炉，电源就会耗尽。参加谷歌后，我创立了云TPU名目，我晓得咱们必需把TPU打形成谷歌云的基本设备。”这也恰是谷歌不直接出卖TPU，而是经由过程谷歌云出卖TPU算力的起因之一。另一方面，这种做法能够免于搭建供给链跟硬件贩卖团队，节俭对生疏营业的投入，同时反哺了谷歌云营业而且进步了硬件产物的保密水平。从破项到落地，谷歌花了15个月。2015年，谷歌开辟出第一代TPU处置器，并开端安排在谷歌的数据核心停止深度进修模子练习。彼时，外界对谷歌外部的基本设备建立鲜有认知，而现实上，击败棋王李世石的AlphaGo恰是由TPU驱动的。研发TPU的团队担任人Norm Jouppi称：“TPU的计划进程异样敏捷，这自身就是一项不凡的成绩。更出其不意的是，首批交付的硅片无需停止任何过错修改以及掩膜的变动，而正在同步停止的另有团队组建，RTL（存放器传输级）计划专家、验证专家都急需弥补，全部任务节拍十分缓和。”呆板进修硬件体系的首席工程师Andy Swing同样表现：“咱们原认为TPU的产量不会超越1万颗，但终极出产了超越10万颗，在告白、搜寻、语音、AlphaGo乃至主动驾驶等范畴被普遍采取。”TPU跟GPU的中心差别在于，GPU更通用，而TPU则公用于减速呆板进修任务负载，是一款ASIC（公用集成电路）芯片。TPU包括数千个乘法累加器，这些累加器直接衔接，构成年夜型物理矩阵，即脉动阵列架构，如许的处置使TPU能够在神经收集盘算中实现高盘算吞吐量。Google出色工程师David Patterson称：“TPU就像海伦（希腊神话中最美的女人），它的呈现惹起了成千芯片与之竞逐。”首款TPU宣布后，英特尔便耗资数十亿美元收购了多家芯片公司。阿里巴巴、亚马逊等公司同样开端研发相似产物。TPU从新唤起了人们对盘算机架构的存眷，厥后的多少年内，呈现了上百家相干始创企业，年均总融资额近20亿美元，新主意层出不穷。停止现在，谷歌TPU阅历了屡次迭代，TPU系列产物的机能也实现了指数级的回升。TPU v1的峰值机能为92 TOPS，1TOPS代表处置器每秒钟可停止1万亿次浮点运算，做为同期的竞品，TPU v1的推理速率比英伟达K80 GPU跟英特尔Haswell CPU快15到30倍。TPU v4的峰值机能到达1.1PFLOPS，即每秒停止1100万亿次浮点运算，初次冲破每秒万万亿次浮点运算的年夜关，相较于TPU v1，机能进步了快要12倍。最新宣布的Trillium机能为TPU v5e的4.7倍，官方称是迄今为止机能最高、最节能的TPU。全部这些处置才能还只是开端。TPU的重要计划师Cliff Young以为，跟上深度进修的开展不只须要增添用于练习的芯片数目，现有的软硬件架构计划也必需转变，须要应用全新的资料-利用协同计划观点。将来深度进修架构的计划须要包括从物理到利用的各个层面的协同计划，这是攻破摩尔定律瓶颈的一种方法，是深度进修开展的新前途。团队表现：“事先，咱们的TPU跟Pod设置对建立数据核心才能很有意思，但当初咱们正在转变数据核心的计划，以更好地满意需要，当下的处理计划与将来的处理计划将十分差别。忘却单个芯片或单个TPU吧，咱们正在构建一个载满TPU的寰球数据核心收集。将来是全栈定制，从硅到所有。”TPU梦之队，从「队友到敌手」当下，全部人都在眼红英伟达在人工智能芯片市场盘踞的市场份额，而TPU让谷歌成为英伟达之外另一个主要的算力供给商。寰球超越60%取得融资的天生式AI始创公司跟近90%天生式AI独角兽都在应用谷歌Cloud的AI基本设备跟Cloud TPU效劳，包含Anthropic、Midjourney、Salesforce、Hugging Face跟AssemblyAI等企业。2024年7月，苹果颁布其应用了2048片TPUv5p芯片来练习领有27.3亿参数的装备端模子AFM-on-device，以及应用8192片TPUv4芯片来练习年夜型效劳器端模子AFM-server。这些数据答复了TPU在人工智能市场里的利用情形，也明示着这个市场会涌入更大批的竞争者。而现实上，在TPU v1刚宣布的时代，TPU团队成员另破流派或参加竞对公司的景象就已初显苗头。究竟在硅谷，当你萌发出创业主意时，成事法令中的一条就是从谷歌挖人。Social Capital的开创人Chamath Palihapitiya深谙此中的门道，他老是那么尖利且冒进，面临绅士及精英他直抒己见，做为美国的SPAC（特别目标收购公司）之王，带着散户逼空华尔街精英也让他赚足了呼喊。Palihapitiya就像投资界的马斯克，控制资源跟流量杠杆让他成为创业者背地的攒局人。2015年，在谷歌的季度财报会上，Palihapitiya不经意间懂得到谷歌正在自研AI芯片，为什么谷歌要跟英特尔竞争？成绩在Palihapitiya心中显现，他开端寻觅谜底。2016年，TPU v1宣布，跟市场上其余人一样，Palihapitiya的战略是“no miss”，他以为这一次芯片翻新能够让Facebook、Amazon、Tesla等公司以及当局应用呆板进修跟盘算机去做此前没人能做的事件。巨子入局，Palihapitiya做局。他开端对谷歌TPU范畴的工程师停止人才mapping，一年半的时光里，Palihapitiya挖走了谷歌芯片开创团队里10人中的8位，背地的两个要害脚色是Jonathan Ross跟软件工程师Doug Wightman，而建立的这家新公司恰是当下世态炎凉的AI芯片企业Groq。往年的8月5日，Groq实现由Blackrock领投的新一轮6.4亿美元融资，28亿美元的估值让Groq毫无疑难地成为AI芯片新贵。另一方面，Meta首席人工智能迷信家Yann LeCun发布担负Groq的技巧参谋，在Groq的官网上赫然挂着Yann LeCun对Groq芯片的评估：“Groq芯片确切直击关键。”而成绩在于Meta外部也在研发AI芯片，竞对公司间的人事往来不经让外界觉得不测。但能够揣测出这背地离不开Palihapitiya的周旋，究竟他曾担负了五年多的Facebook（Meta前身）副总裁，化敌为友，是攒局人的基础素养。Groq之外，是OpenAI对谷歌近乎猖狂的“挖墙脚”。猖狂的背地，是Sam Altman保守的7万亿自研芯片策略。此前，台积电CEO CC Wei在采访中表现：“Altman的打算太保守了，让人难以相信。”往年10月30日，外媒报道OpenAI与博通以及台积电告竣配合，打算于2026年出产其首个定制芯片。OpenAI造芯传言靴子落地的背地，是Sam Altman搜罗AI芯片人才打算的收网。Sam Altman的用人法令只有一条，要么当初在谷歌，要么之前在谷歌。近一年里，大批谷歌TPU团队的研发职员麋集参加OpenAI，Sam Altman搭建了从前谷歌高等工程总监Richard Ho为首的硬件研发团队，重要成员包含Tensor SoC担任人Ravi Narayanaswami、高等硬件工程师Thomas Norrie、技巧司理Sara Zebian、研讨迷信家Phitchaya以及计划验证司理Jerry Huang等人。而这一批人播种的最多的评估恰是：“他们是我配合过的最好的工程师之一。”吸引最好的工程师，Sam Altman开出的前提是：参加构建人类有史以来最巨大的盘算机体系、与年夜模子团队的高度合作且不会见临至公司外部的相同妨碍，以及高薪。TPU团队在市场颇受承认的背地是任职于谷歌时研发TPU锤炼的从0到1的工程才能，而公用于减速呆板进修跟神经收集的计划恰是当下市场最须要的。贸易层面，身居差别公司或者针尖对麦芒，但团体层面，他们都是谷歌TPU的偕行者，更是AI芯片将来的创造者。雷峰网(大众号：雷峰网)参考资料：https://cloud.谷歌.com/blog/products/compute/trillium-tpu-is-gahttps://cloud.谷歌.com/transform/ai-specialized-chips-tpu-history-gen-ai?e=48754805https://www.censtry.com/blog/why-did-谷歌-develop-its-own-tpu-chip-in-depth-disclosure-of-team-members.htmlhttps://cloud.谷歌.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning.https://cloud.谷歌.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning.雷峰网原创文章，未经受权制止转载。概况见转载须知。 ]article_adlist--> 　　申明：新浪网独家稿件，未经受权制止转载。 -->