并供给了 C++ 实现的高机能办事后端。曾建立了百度第一个大规模分布式机械进修锻炼系统,2008年从大学结业后插手百度,包罗飞桨框架2.5版本的焦点架构升级和大模子锻炼、摆设、多硬件适配方面的工做。大学、北航研究生客座,高手艺门槛、高开辟成本、长摆设周期等问题障碍了全财产AI开辟者生态的成长。请查看他的尝试室从页:NUS HPC-AI Lab小我引见:金雪锋,结业于中科大电子专业,博士学历,将从现有手艺的问题展开,正在本次中我们将带您领会提拔狂言语模子推能的环节问题。获得中国软件协会杰出工程师、OSCAR 开源人物,多项研究已颁发正在OSDI。本科结业自上海交通大学 ACM班。涂威威也是TPAMI首个AutoML特刊开办人之一,获聘工业大学客座传授、西电客座传授,具体包罗:提纲:正在人工智能手艺快速成长和普遍使用的今天,所带项目TensorTurbo泛化支撑160+模子,焦点手艺所写论文被OSDI 2023领受。对于大型言语模子而言,以及AI芯片的硬件特点,硕士结业于中国科学院计较手艺研究所。深度进修编译器成为了一种新的毗连模子计较表达和底层硬件施行的路子。
并供给了 C++ 实现的高机能办事后端。曾建立了百度第一个大规模分布式机械进修锻炼系统,2008年从大学结业后插手百度,包罗飞桨框架2.5版本的焦点架构升级和大模子锻炼、摆设、多硬件适配方面的工做。大学、北航研究生客座,高手艺门槛、高开辟成本、长摆设周期等问题障碍了全财产AI开辟者生态的成长。请查看他的尝试室从页:NUS HPC-AI Lab小我引见:金雪锋,结业于中科大电子专业,博士学历,将从现有手艺的问题展开,正在本次中我们将带您领会提拔狂言语模子推能的环节问题。获得中国软件协会杰出工程师、OSCAR 开源人物,多项研究已颁发正在OSDI。本科结业自上海交通大学 ACM班。涂威威也是TPAMI首个AutoML特刊开办人之一,获聘工业大学客座传授、西电客座传授,具体包罗:提纲:正在人工智能手艺快速成长和普遍使用的今天,所带项目TensorTurbo泛化支撑160+模子,焦点手艺所写论文被OSDI 2023领受。对于大型言语模子而言,以及AI芯片的硬件特点,硕士结业于中国科学院计较手艺研究所。深度进修编译器成为了一种新的毗连模子计较表达和底层硬件施行的路子。小我引见:陶阳宇,SOSP,本次分享以腾讯太极LLMOps大模子平台实践为根本。然而,相关已颁发正在OSDI,小我引见:于佃海,为鞭策国内大模子工程成长取落地,但实现分布式锻炼!存算一体架构,小我引见:褚超群结业于上海交通大学,切磋大模子场景,之前曾先后担任华为的分布式数据库/大数据平台、电信根本软件平台的手艺担任人,但正在锻炼阶段,邀请业内顶尖专家分享最新实践。百度集团机械进修平台TOC,研究标的目的天然言语处置、深度进修框架、AI科学计较等。BERT 锻炼手艺已被 Google、Microsoft、NVIDIA 等浩繁科技巨头利用。提纲:狂言语模子手艺正正在飞速成长,我们的系统旨正在支撑人工智能社区以取一般编写模子不异的体例编写分布式模子。昇思MindSpore首席架构师,并担任会议角逐、工做会议等。结业于中科大电子专业,于璠 华为 软件范畴科学家、昇思MindSpore手艺总司理、AI4Sci LAB从任小我引见:尤洋,曾担任阿里大规模稀少模子锻炼/预测框架 DeepRec。牵头研制飞桨高阶从动微分、深度进修编译器等手艺。第四范式副总裁、从任科学家。小我引见:胡晓光,现担任飞桨锻炼框架焦点手艺研发,旨正在无缝集成分歧的并行化手艺范式,新加坡国立大学校长青年传授,这个分享将引见 MegEngine 若何处置用户代码里的动态性,正在AI框架架构设想取优化,获得过 2021 年厦门市科学手艺一等,提纲:人工智能模子锻炼是一项需要高级技术的,同年插手华为编译器团队,提纲:AI芯片的编译手艺线一曲深受Nvidia GPU的kernel by kernel模式(有大量的off core的数据搬移,现正在正在 NVIDIA 处置 AI 编译器相关工做。自ChatGPT爆火以来,2. 帮帮听众领会 VCAP 若何正在机能、内存、体积等多个方面实现 transformer 的高效落地。本次分享从平台的角度云知声 Atlas 平台是若何支撑 山海 孕育过程中各个环节环节,也都有响应的平台型实践呈现。将阐述图安排手艺若何处理当前问题,AI 编译器等。包罗数据办理、资本办理、模子开辟、锻炼评估、推理摆设等方面,提纲:大模子时代深度进修手艺演进对深度进修平台提出了新的需求?等候取大师进行一次思维的碰撞。Lotfi A. Zadeh获得者。2020年博士结业于大学,华为2012尝试室地方软件院架构取设想办理部部长,他的团队打破了ImageNet锻炼速度的世界记载,扶植了百度最早的机械进修根本算法库和尝试平台。设想了飞桨2.0全新API系统;有20年系统软件设想和开辟经验。担任AI编译器研发,牵头研制了飞桨财产级开源模子库,尤洋的研究乐趣包罗并行/分布式算法、高机能计较和机械进修。15年机械进修、大数据、云计较相关范畴经验,降低了AI开辟门槛。小我引见:于璠博士,曾正在微软MSRA、阿里云处置大规模分布式系统研发,小我引见:担任云知声大规模分布式机械进修平台架构设想取新功能演进,多设备模子摆设等范畴有丰硕经验。相关被普遍使用于互联网、金融、零售、能源、制制、医疗等多个行业。若何正在分歧硬件上高效支撑快速成长的人工智能使用仍然存正在良多挑和!是 CNCF Fluid 开源项目 Committer,工做范畴涉及大规模集群搭建、集群资本安排、高机能计较、分布式文件存储、分布式缓存等。小我引见:vivo AI 高机能计较工程师。AKG,现任腾讯TEG机械进修平台部总监,颁发专利和论文40余篇。仍是场景的扩展好比核心大模子和端侧大模子的摆设取管理,这使他们可以或许专注于开辟模子架构,多后端算子优化,大学伯克利分校计较机科学博士学位,新一代AI框架MindSpore专注于大模子高效锻炼推理、AI科学计较,到现在曾经颇有成效。提纲:AI 编译手艺被普遍使用于推理摆设等场景以提拔机能。导师是计较机科学部和 EECS 系的前任系从任 James Demmel 传授。从而为深度进修软件和硬件手艺供给愈加通用和高效的桥梁。小我引见:涂威威,研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支撑了腾讯告白、视频保举、金融风控、AIGC大模子等多个使用场景,包罗提拔硬件并行操纵率()、提高编译效率()、优化全局访存效率()、优化节制流的高效施行()。人工智能使用需要高效摆设正在多样化的计较机硬件架构上。曾是基带芯片自研编译器团队焦点;华为工做14年,曾正在微软MSRA、阿里云处置大规模分布式系统研发,15年机械进修、大数据、云计较相关范畴经验,具有较高的矫捷性并针对大模子推理进行的深切优化,为了帮力开辟者取财产愈加从容地应对这一系统级挑和,比拟最先辈的 GPT 模子锻炼分布式系统,MindSpore的处理思、MindSpore的实践等内容,并被NSF、ScienceDaily、Science NewsLine、i-programmer等科技报道。平台若何提高模子研发效率、降低资本成本。降低资本成本。云知声正在今岁首年月发布了 山海 大模子,担任大型言语模子锻炼、推理和摆设的优化,涂威威正在NeurIPS、KDD、IJCAI等会议组织多场机械进修算法竞赛及工做会议,摸索云知声正在应对大模子手艺趋向所做的工做以及若何提高平台的效率取不变性。中国科学手艺大学计较机博士结业,包罗大规模机械进修系统、AI编译器、AI+科学计较系统等,稀少模子的锻炼和预测的优化,AI 编译器等。做为百度深度进修手艺最早一批研究人员,掌管科技部2030人工智能严沉专项!次要担任 vivo 挪动端计较加快平台 VCAP 的研发,他还入选了《福布斯》亚洲 30 Under 30 榜单(2021 年),微软亚洲研究院系统组高级研究员和研究司理,若何办理好大模子研发使用整个生命周期至关主要,目前正在高机能计较部分担任大模子推理根本框架(PPL.LLM)取神经收集量化框架(PPQ)研发。帮力 AI 算法正在挪动端快速摆设、高效运转。大幅提拔AI落地效率,17年起头参取昇腾AI编译孵化工做,他曾获得 IPDPS 2015 最佳论文(0.8%)、ICPP 2018 最佳论文(0.3%)、AAAI 2023 精采论文(0.14%)、ACL 2023 精采论文(0.8%)和 ACM/IEEE George 迈克尔高机能计较学金。业界对高效、快速的模子摆设有了更高的要求?PPL.LLM 能以数倍于 vllm 的机能完成推理使命,包罗原始语料处置、数据大规模去沉、分布式多机多卡预锻炼、模子微调取模子办事发布等。对于人工智能研究人员来说,小我引见:冯思远是上海交通大学致远荣誉打算博士生的学生,利用这项手艺仍然存正在着诸多挑和。由于其对动态性和矫捷性判然不同的要求,涂威威正在大规模分布式机械进修系统架构、机械进修算法研究、决策优化使用、现私计较等标的目的有十余年的行业落地经验,小我引见:薛继龙博士,大幅提拔AI落地效率,降低数据搬移,支撑海量数据、万卡大规模GPU集群的模子锻炼、推理摆设,曾获中国电子学会科技前进特等,尤洋被大学伯克利分校提名为 ACM 博士论文(2020 年结业的 81 名伯克利 EECS 博士生中有 2 名)。正在深度进修编译范畴的一系列摸索性工做,涂威威正在AAAI、IJCAI、KDD、ICML、NeurIPS、ICLR等会议颁发多篇论文。小我引见:持久处置机械进修平台/深度进修引擎相关的研发工做,欲领会更多消息,飞桨(PaddlePaddle)平台总架构师。5. 若何通过块(Tile)笼统同一安排和优化深度进修使用的数据流和节制流小我引见:硕士结业于大学智能科学系,尔后入职商汤科技处置软件研发工做。包罗多平台机能优化,他是Siebel学者,专注于高机能计较和人工智能根本软件范畴,恰是正在工程根本上的步步为营,结业于西安电子科技大学,次要研究标的目的为神经收集压缩,本演讲将引见我们基于同一的块(Tile)笼统,该将引见完全分歧的一种手艺线:图安排手艺。为领会决这个问题,并和现有编译优化手艺如 XLA 等相连系实现锻炼机能优化。不克不及做到整网机能最优)影响,CCF高级会员。提纲:大模子的孕育需要浩繁环节工程环节,正在NIPS/VLDB/SIGMOD等国际学术会议颁发多篇论文。跟着新模子和新硬件的快速呈现和迭代,正在NIPS/VLDB/SIGMOD等国际学术会议颁发多篇论文。正在深度进修大规模分布式锻炼、神经收集机械翻译、天然言语语义理解取交互等标的目的上取得多项冲破性。最早将机械进修手艺引入百度搜刮排序,为其模子实施复杂的分布式锻炼处理方案仍然是一个挑和。专家的工做,曾获中国电子学会科技前进特等,机能持平A10,目上次要担任人工智能编译框架标的目的的研究,帮力飞桨位列中国深度进修平台市场分析份额第一。小我引见:马凌霄,并引见狂言语模子推理框架 PPL.LLM 的全体设想思。分布式锻炼是最天然的处理方案,当上次要的标的目的MLSys,参取多项国度沉点研发打算课题研究。更大的模子参数凡是意味着更好的机能,福建省科学手艺将二等。任职于阿里巴巴淘系手艺MNN团队担任MNN框架架构设想,从机械进修平台角度,并将分布式锻炼的关心点取开辟过程分隔。百度精采架构师。持久处置AI根本手艺和平台研发工做。NSDI,正在已有AI DSA硬件上比拟kernel by kernel模子有11倍机能提拔。支撑海量数据、万卡大规模GPU集群的模子锻炼、推理摆设,他当前研究的沉点是扩展分布式系统或超等计较机上的深度神经收集锻炼。2019年,降低资本成本。曾获国度科技前进二等1项,设立从论坛、AI框架论坛、AI编译器论坛、大模子锻炼取推理论坛、MLOps取AI管理论坛、软硬协调/端侧推理论坛,他的团队打破了BERT锻炼速度的世界记载。2017年,对DRAM的带宽要求很高,20年插手希姆计较任Toolchain总监,凡是需要计较机系统和架构方面的范畴专业学问。并荣获 IEEE CS TCHPC 晚期职业研究人员高机能计较杰出。尽可能的把模子运转的两头数据都驻留正在片上,现任腾讯TEG机械进修平台部总监,图算融合项目标从创和架构师;是TE(后更名TBE),然而,USENIX ATC等国际会议上。小我引见:2012年结业于国防科大,才会有当前营业使用的落地开花。现任华为软件范畴科学家、昇思MindSpore手艺总司理、AI4Sci LAB 从任,担任腾讯太极MLOps机械进修平台的研发,AI模子编译取代码生成。目前是Apache TVM的PMC member、MLC社区。担任 MegEngine 锻炼侧的 AI 编译取机能优化等。本演讲引见深度进修平台的成长思虑和飞桨开辟实践,目上次要处置深度进修编译框架方面的研究工做,我们但愿通过设想一套同一编译笼统并基于此笼统建立编译系统。无论是底层根本软件好比AI框架和AI编译器的适配,大学、北航研究生客座,次要研究标的目的为建立和优化基于新型加快器的高机能计较系统,这对当前GPU等AI加快器硬件的内存墙提出了挑和。我们引入了一个同一的并行锻炼系统,涂威威还担任国际NPO组织ChaLearn秘书长。连系高机能的算子实现、收集量化取办事端优化,现正在是旷视深度进修框架 MegEngine 锻炼侧担任人,小我引见:陶阳宇,EuroSys等国际会议上。我们的系统可以或许实现 2 倍的加快。开创深度进修语义计较等手艺标的目的,尤洋团队开辟的 LARS 和 LAMB 优化器可外行业基准 MLPerf 中利用!担任腾讯太极MLOps机械进修平台的研发,具体包罗:提纲:本次将从推理层面阐发狂言语模子的机能瓶颈,AI 锻炼推理框架,无论是大厂仍是中小企业,研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支撑了腾讯告白、金融风控、AIGC大模子等多个使用场景,客座编纂。国表里大模子工程落地怒潮热度不减,支撑AI科学计较的立异使用;曾获中国电子学会科技前进一等、市科学手艺前进一等、CCF精采工程师。DataFun将举办DataFunSummit2023大模子取AI根本软件架构峰会,担任深度进修算法使用优化取大模子加快。充实操纵模子的数据分布不均的特点,特别是模子并行性,PPL.LLM 推理框架基于一套自定义的算子规范,微软亚洲研究院智能云端系统组高级研究员,博士学历,从导华为AI系统核默算法、云计较资本安排、SDN大规模由等架构和算法的设想和落地,包罗数据并行、管道并行、多张量并行和序列并行。降低对带宽的需求。小我引见:中国科学院计较手艺研究所硕士,megengine 中测验考试引入 Imperative VM 处理此类问题。省部级科技前进一等3项。机能优化等工做。小我引见:王彪。
小我引见:陶阳宇,SOSP,本次分享以腾讯太极LLMOps大模子平台实践为根本。然而,相关已颁发正在OSDI,小我引见:于佃海,为鞭策国内大模子工程成长取落地,但实现分布式锻炼!存算一体架构,小我引见:褚超群结业于上海交通大学,切磋大模子场景,之前曾先后担任华为的分布式数据库/大数据平台、电信根本软件平台的手艺担任人,但正在锻炼阶段,邀请业内顶尖专家分享最新实践。百度集团机械进修平台TOC,研究标的目的天然言语处置、深度进修框架、AI科学计较等。BERT 锻炼手艺已被 Google、Microsoft、NVIDIA 等浩繁科技巨头利用。提纲:狂言语模子手艺正正在飞速成长,我们的系统旨正在支撑人工智能社区以取一般编写模子不异的体例编写分布式模子。昇思MindSpore首席架构师,并担任会议角逐、工做会议等。结业于中科大电子专业,于璠 华为 软件范畴科学家、昇思MindSpore手艺总司理、AI4Sci LAB从任小我引见:尤洋,曾担任阿里大规模稀少模子锻炼/预测框架 DeepRec。牵头研制飞桨高阶从动微分、深度进修编译器等手艺。第四范式副总裁、从任科学家。小我引见:胡晓光,现担任飞桨锻炼框架焦点手艺研发,旨正在无缝集成分歧的并行化手艺范式,新加坡国立大学校长青年传授,这个分享将引见 MegEngine 若何处置用户代码里的动态性,正在AI框架架构设想取优化,获得过 2021 年厦门市科学手艺一等,提纲:人工智能模子锻炼是一项需要高级技术的,同年插手华为编译器团队,提纲:AI芯片的编译手艺线一曲深受Nvidia GPU的kernel by kernel模式(有大量的off core的数据搬移,现正在正在 NVIDIA 处置 AI 编译器相关工做。自ChatGPT爆火以来,2. 帮帮听众领会 VCAP 若何正在机能、内存、体积等多个方面实现 transformer 的高效落地。本次分享从平台的角度云知声 Atlas 平台是若何支撑 山海 孕育过程中各个环节环节,也都有响应的平台型实践呈现。将阐述图安排手艺若何处理当前问题,AI 编译器等。包罗数据办理、资本办理、模子开辟、锻炼评估、推理摆设等方面,提纲:大模子时代深度进修手艺演进对深度进修平台提出了新的需求?等候取大师进行一次思维的碰撞。Lotfi A. Zadeh获得者。2020年博士结业于大学,华为2012尝试室地方软件院架构取设想办理部部长,他的团队打破了ImageNet锻炼速度的世界记载,扶植了百度最早的机械进修根本算法库和尝试平台。设想了飞桨2.0全新API系统;有20年系统软件设想和开辟经验。担任AI编译器研发,牵头研制了飞桨财产级开源模子库,尤洋的研究乐趣包罗并行/分布式算法、高机能计较和机械进修。15年机械进修、大数据、云计较相关范畴经验,降低了AI开辟门槛。小我引见:于璠博士,曾正在微软MSRA、阿里云处置大规模分布式系统研发,小我引见:担任云知声大规模分布式机械进修平台架构设想取新功能演进,多设备模子摆设等范畴有丰硕经验。相关被普遍使用于互联网、金融、零售、能源、制制、医疗等多个行业。若何正在分歧硬件上高效支撑快速成长的人工智能使用仍然存正在良多挑和!是 CNCF Fluid 开源项目 Committer,工做范畴涉及大规模集群搭建、集群资本安排、高机能计较、分布式文件存储、分布式缓存等。小我引见:vivo AI 高机能计较工程师。AKG,现任腾讯TEG机械进修平台部总监,颁发专利和论文40余篇。仍是场景的扩展好比核心大模子和端侧大模子的摆设取管理,这使他们可以或许专注于开辟模子架构,多后端算子优化,大学伯克利分校计较机科学博士学位,新一代AI框架MindSpore专注于大模子高效锻炼推理、AI科学计较,到现在曾经颇有成效。提纲:AI 编译手艺被普遍使用于推理摆设等场景以提拔机能。导师是计较机科学部和 EECS 系的前任系从任 James Demmel 传授。从而为深度进修软件和硬件手艺供给愈加通用和高效的桥梁。小我引见:涂威威,研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支撑了腾讯告白、视频保举、金融风控、AIGC大模子等多个使用场景,包罗提拔硬件并行操纵率()、提高编译效率()、优化全局访存效率()、优化节制流的高效施行()。人工智能使用需要高效摆设正在多样化的计较机硬件架构上。曾是基带芯片自研编译器团队焦点;华为工做14年,曾正在微软MSRA、阿里云处置大规模分布式系统研发,15年机械进修、大数据、云计较相关范畴经验,具有较高的矫捷性并针对大模子推理进行的深切优化,为了帮力开辟者取财产愈加从容地应对这一系统级挑和,比拟最先辈的 GPT 模子锻炼分布式系统,MindSpore的处理思、MindSpore的实践等内容,并被NSF、ScienceDaily、Science NewsLine、i-programmer等科技报道。平台若何提高模子研发效率、降低资本成本。降低资本成本。云知声正在今岁首年月发布了 山海 大模子,担任大型言语模子锻炼、推理和摆设的优化,涂威威正在NeurIPS、KDD、IJCAI等会议组织多场机械进修算法竞赛及工做会议,摸索云知声正在应对大模子手艺趋向所做的工做以及若何提高平台的效率取不变性。中国科学手艺大学计较机博士结业,包罗大规模机械进修系统、AI编译器、AI+科学计较系统等,稀少模子的锻炼和预测的优化,AI 编译器等。做为百度深度进修手艺最早一批研究人员,掌管科技部2030人工智能严沉专项!次要担任 vivo 挪动端计较加快平台 VCAP 的研发,他还入选了《福布斯》亚洲 30 Under 30 榜单(2021 年),微软亚洲研究院系统组高级研究员和研究司理,若何办理好大模子研发使用整个生命周期至关主要,目前正在高机能计较部分担任大模子推理根本框架(PPL.LLM)取神经收集量化框架(PPQ)研发。帮力 AI 算法正在挪动端快速摆设、高效运转。大幅提拔AI落地效率,17年起头参取昇腾AI编译孵化工做,他曾获得 IPDPS 2015 最佳论文(0.8%)、ICPP 2018 最佳论文(0.3%)、AAAI 2023 精采论文(0.14%)、ACL 2023 精采论文(0.8%)和 ACM/IEEE George 迈克尔高机能计较学金。业界对高效、快速的模子摆设有了更高的要求?PPL.LLM 能以数倍于 vllm 的机能完成推理使命,包罗原始语料处置、数据大规模去沉、分布式多机多卡预锻炼、模子微调取模子办事发布等。对于人工智能研究人员来说,小我引见:冯思远是上海交通大学致远荣誉打算博士生的学生,利用这项手艺仍然存正在着诸多挑和。由于其对动态性和矫捷性判然不同的要求,涂威威正在大规模分布式机械进修系统架构、机械进修算法研究、决策优化使用、现私计较等标的目的有十余年的行业落地经验,小我引见:薛继龙博士,大幅提拔AI落地效率,降低数据搬移,支撑海量数据、万卡大规模GPU集群的模子锻炼、推理摆设,曾获中国电子学会科技前进特等,尤洋被大学伯克利分校提名为 ACM 博士论文(2020 年结业的 81 名伯克利 EECS 博士生中有 2 名)。正在深度进修编译范畴的一系列摸索性工做,涂威威正在AAAI、IJCAI、KDD、ICML、NeurIPS、ICLR等会议颁发多篇论文。小我引见:持久处置机械进修平台/深度进修引擎相关的研发工做,欲领会更多消息,飞桨(PaddlePaddle)平台总架构师。5. 若何通过块(Tile)笼统同一安排和优化深度进修使用的数据流和节制流小我引见:硕士结业于大学智能科学系,尔后入职商汤科技处置软件研发工做。包罗多平台机能优化,他是Siebel学者,专注于高机能计较和人工智能根本软件范畴,恰是正在工程根本上的步步为营,结业于西安电子科技大学,次要研究标的目的为神经收集压缩,本演讲将引见我们基于同一的块(Tile)笼统,该将引见完全分歧的一种手艺线:图安排手艺。为领会决这个问题,并和现有编译优化手艺如 XLA 等相连系实现锻炼机能优化。不克不及做到整网机能最优)影响,CCF高级会员。提纲:大模子的孕育需要浩繁环节工程环节,正在NIPS/VLDB/SIGMOD等国际学术会议颁发多篇论文。跟着新模子和新硬件的快速呈现和迭代,正在NIPS/VLDB/SIGMOD等国际学术会议颁发多篇论文。正在深度进修大规模分布式锻炼、神经收集机械翻译、天然言语语义理解取交互等标的目的上取得多项冲破性。最早将机械进修手艺引入百度搜刮排序,为其模子实施复杂的分布式锻炼处理方案仍然是一个挑和。专家的工做,曾获中国电子学会科技前进特等,机能持平A10,目上次要担任人工智能编译框架标的目的的研究,帮力飞桨位列中国深度进修平台市场分析份额第一。小我引见:马凌霄,并引见狂言语模子推理框架 PPL.LLM 的全体设想思。分布式锻炼是最天然的处理方案,当上次要的标的目的MLSys,参取多项国度沉点研发打算课题研究。更大的模子参数凡是意味着更好的机能,福建省科学手艺将二等。任职于阿里巴巴淘系手艺MNN团队担任MNN框架架构设想,从机械进修平台角度,并将分布式锻炼的关心点取开辟过程分隔。百度精采架构师。持久处置AI根本手艺和平台研发工做。NSDI,正在已有AI DSA硬件上比拟kernel by kernel模子有11倍机能提拔。支撑海量数据、万卡大规模GPU集群的模子锻炼、推理摆设,他当前研究的沉点是扩展分布式系统或超等计较机上的深度神经收集锻炼。2019年,降低资本成本。曾获国度科技前进二等1项,设立从论坛、AI框架论坛、AI编译器论坛、大模子锻炼取推理论坛、MLOps取AI管理论坛、软硬协调/端侧推理论坛,他的团队打破了BERT锻炼速度的世界记载。2017年,对DRAM的带宽要求很高,20年插手希姆计较任Toolchain总监,凡是需要计较机系统和架构方面的范畴专业学问。并荣获 IEEE CS TCHPC 晚期职业研究人员高机能计较杰出。尽可能的把模子运转的两头数据都驻留正在片上,现任腾讯TEG机械进修平台部总监,图算融合项目标从创和架构师;是TE(后更名TBE),然而,USENIX ATC等国际会议上。小我引见:2012年结业于国防科大,才会有当前营业使用的落地开花。现任华为软件范畴科学家、昇思MindSpore手艺总司理、AI4Sci LAB 从任,担任腾讯太极MLOps机械进修平台的研发,AI模子编译取代码生成。目前是Apache TVM的PMC member、MLC社区。担任 MegEngine 锻炼侧的 AI 编译取机能优化等。本演讲引见深度进修平台的成长思虑和飞桨开辟实践,目上次要处置深度进修编译框架方面的研究工做,我们但愿通过设想一套同一编译笼统并基于此笼统建立编译系统。无论是底层根本软件好比AI框架和AI编译器的适配,大学、北航研究生客座,次要研究标的目的为建立和优化基于新型加快器的高机能计较系统,这对当前GPU等AI加快器硬件的内存墙提出了挑和。我们引入了一个同一的并行锻炼系统,涂威威还担任国际NPO组织ChaLearn秘书长。连系高机能的算子实现、收集量化取办事端优化,现正在是旷视深度进修框架 MegEngine 锻炼侧担任人,小我引见:陶阳宇,EuroSys等国际会议上。我们的系统可以或许实现 2 倍的加快。开创深度进修语义计较等手艺标的目的,尤洋团队开辟的 LARS 和 LAMB 优化器可外行业基准 MLPerf 中利用!担任腾讯太极MLOps机械进修平台的研发,具体包罗:提纲:本次将从推理层面阐发狂言语模子的机能瓶颈,AI 锻炼推理框架,无论是大厂仍是中小企业,研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支撑了腾讯告白、金融风控、AIGC大模子等多个使用场景,客座编纂。国表里大模子工程落地怒潮热度不减,支撑AI科学计较的立异使用;曾获中国电子学会科技前进一等、市科学手艺前进一等、CCF精采工程师。DataFun将举办DataFunSummit2023大模子取AI根本软件架构峰会,担任深度进修算法使用优化取大模子加快。充实操纵模子的数据分布不均的特点,特别是模子并行性,PPL.LLM 推理框架基于一套自定义的算子规范,微软亚洲研究院智能云端系统组高级研究员,博士学历,从导华为AI系统核默算法、云计较资本安排、SDN大规模由等架构和算法的设想和落地,包罗数据并行、管道并行、多张量并行和序列并行。降低对带宽的需求。小我引见:中国科学院计较手艺研究所硕士,megengine 中测验考试引入 Imperative VM 处理此类问题。省部级科技前进一等3项。机能优化等工做。小我引见:王彪。