从5G专家到AI领军人物，加入开源是突破自我的捷径-Linux Foundation开源软件学园

Linux基金会希望助力更多开发者们加入开源。在Linux基金会培训及认证部门每年设立的LiFT奖学金（LFOSSA人才激励计划）中，根据技术发展趋势，奖学金类别也做出了一些调整，在这一季人才激励计划中，新增设了AI 达人类别。这次介绍的LFOSSA人才激励计划之类别就是 AI 达人 (AI Master) - 熟悉及热爱开放AI技术并具有丰富经验的任何开发人员，这些技术不限于Pytorch、其他AI，DL和LLM技术。

为此，我们这次与2023年LFOSSA开源推广大使奖得主、LFAI & Data基金会董事会主席孟伟进行访谈，分享一下他的开源故事！

姓名：孟伟

职业：系统架构师

码龄：18

最爱的开源项目：PyTorch、Django、Adlik…

兴趣爱好：登山

1. 首先请做个简单的自我介绍。

孟伟，系统架构师、中兴通讯开源负责人。2009年开始担任中兴通讯中心研究院ROSNG CGN项目经理。从2016年，牵头中兴通讯人工智能领域的预研工作。他致力于AI和5G方向的研究，并在2018年被选为联合国国际电信联盟ITU-T ML5G WG3主席（机器学习应用于5G网络架构组）。同时他当选中国人工智能产业发展联盟总体组副组长，Linux AI & Data基金会董事会成员，并于2023年成功当选Linux AI & Data基金会董事会主席。

孟伟先生先后担任Linux基金会OpenDaylight OF-CONFIG项目的PTL及Adlik项目的mentor，并且在IETF及ITU-T立项及发布多项国际标准，涉及人工智能及网络功能虚拟化方向。同时，他以第一作者获得中国及国际专利授权30余项。

在大学时代，为了暑假还可以登录宿舍内的电脑，孟伟在Linux系统上，运用开源工具搭建私有VPN和NAS系统，从此与开源就结下不解之缘。自2015年开始，正式贡献社区，他完成从使用开源到贡献开源的角色转变，如今他称自己为“基金会的志愿者”，专注于AI大模型领域的开源与商业化等议题，建设AI生态的同时帮助更多开发者更好地拥抱开源。

2018年3月， Linux 基金会成立子基金会LF AI & Data基金会（前身是深度学习基金），孟伟作为中兴通讯的代表，参与了LF AI & Data的创建，努力推动AI生态发展。

2. AI人才需求旺盛：根据一些行业人才机构统计，泛互联网行业对AI人才的需求持续走高，但AI人才仍然稀缺，薪资连续3年逆势攀升。算法研究员是最紧缺的岗位之一，平均两家公司争夺1位人才。您对此有什么建议？

孟伟：开源是软件开发历史上最好的合作模式，没有之一。坦白来说，开源以及基于开源的培训，是可以迅速建立起AI人才梯队的最好的方法。

开源及开源培训有以下优势：

（1）降低学习门槛： 开源项目通常都有详细的文档和代码，这降低了学习 AI 的门槛，让更多人可以参与到 AI 的学习和开发中来，从而扩大 AI 人才的基数。

（2）促进知识共享： 开源项目可以促进知识共享，让更多人可以从他人的经验中学习，并贡献自己的知识，从而提高 AI 人才的整体水平。

（3）推动技术创新： 开源项目可以推动技术创新，因为更多人可以参与到项目的开发中来，并提出新的想法和解决方案。

（4）灵活多变： 基于开源的培训可以根据个人的实际情况进行调整，并提供个性化的学习方案，从而提高 AI 人才的学习效率。

（5）实践性强： 基于开源的培训通常注重实践，让个人可以实际操作开源项目，并从中学习经验，从而提高 AI 人才的实践能力。

当然开源项目繁多，良莠不齐，我们需要挑选一些高质量的开源项目，这些开源项目必须具有详细的说明文档和代码注释，最好还是社区化运作的开源社区，自己的问题能够快速得到响应。

3. 构建大型语言模型和其他强大的生成式AI系统是一个昂贵的过程，需要大量的计算和数据。但使用开源模型可以让开发者在其他人的基础上进行开发，降低成本并扩大AI的使用范围。开源AI除了可以降低公众资源的消耗、免费公开可用，还有哪些闭源AI无可比拟的优势？

孟伟：闭源和开源在大模型领域孰优孰劣最近的争议非常多。搞清楚这个问题之前，我们需要理清什么是开源大模型。我的理解是大模型开源和代码开源并不完全相同，代码是对于事物的逻辑进行归纳，是人类智慧的输出，其逻辑完全体现在开源代码中。而大模型则不同，不仅仅有数学模型、逻辑，还有涉及到隐私的数据，还有算力。

我们都知道，开源生态讲究的是社区重于代码，一个活跃的社区至关重要。对于代码开源，感兴趣的小伙伴可以基于代码进行再开发再发布，并且贡献社区。但是对于大模型开源，普通的开发者拿到的是一个预训练好的大模型，如何再开发再发布并贡献社区，是个棘手的问题，因为普通开发者缺乏数据、算力，就算有这些资源进行增强预训练和精调之后，如何upstream到社区。

因此，大模型如果只开放模型本身，我认为不算开源。数据和算力进一步的开放、组建预训练模型社区才是大模型开源的未来的方向。通过社区的建设，降低了开发者的成本，让大模型应用百花齐放，因此可以迅速搭建生态，在速度上，这是同样水平线上的闭源大模型所不能及的。

4. 人才竞争激烈：由于AI人才的稀缺性，各大企业为了争夺有限的AI人才，纷纷推出高薪待遇和丰厚的福利政策，甚至开出百万年薪的诱惑。AI人才的需求与市场上的供应能力之间的矛盾日益加大，导致AI人才成为市场上最抢手的“香饽饽”。您觉得加入开源社区，增加在开源社区的投入，通过开源社区培养更多AI人才，是不是解决人才荒的有效途径？

孟伟：当然是。其实不仅仅对于AI人才，对于IT产业的人才的培养，开源都具有得天独厚的优势。开源社区的特点是知识共享和持续学习，企业可以利用这种文化促进内部学习和成长的氛围。社区中，开源项目通常会提供一个实际操作和学习新技术的平台，参与这些项目能让员工在非商业压力的环境下提高编程、设计和系统架构等实际技能。并且，开源项目通常涉及复杂的技术问题和创新解决方案，参与这些项目有助于员工学习如何处理复杂的技术挑战。通过参与和贡献开源项目，员工可以获得实战经验，这些经验可以转化为内部培训材料，帮助其他员工学习和成长。

此外，企业通过支持开源项目，可以展示其对技术社区的承诺和支持，这有助于提升企业的品牌形象。有机构做过调研，对技术人才而言，一个积极参与开源的公司往往更具吸引力，因此这可以帮助企业吸引和留住对创新和自由文化有高度求知欲的顶尖人才。

5. 人才培养滞后：尽管目前有很多高校、企业和培训机构都在培养AI人才，但由于AI技术的复杂性和专业性，能够熟练掌握并应用的人才供应速度相对滞后，难以满足市场的巨大需求。您觉得LFOSSA可以发挥哪些作用？

孟伟：如同之前我所提出的大模型开源不仅仅要开源模型本身，也需要开放数据和算力。但是目前来说，多数开源大模型并没有做到这一点。对于大模型培训来说，能够提供给学员实际操作的条件，能够让学员尝试去做数据的管理、大规模预训练及精调，这些都是非常重要的。因此作为LFOSSA，可以通过Linux基金会强大的平台，提供如下学习素材：

（1）开发数据

大型语言模型，如GPT-4，在训练过程中需要大量的数据。这些数据应该是多样化的，来自不同的来源，以确保模型的广泛应用性和减少偏差。开源一个模型通常不直接涉及开源其训练用的原始数据，但是开发者需要访问大量的数据集来训练或进一步优化模型。

（2）算力需求

训练这样的大型模型需要极其昂贵且强大的硬件资源，通常包括大量的GPU或TPU。例如，GPT-4这样的模型可能需要数千个GPU运行数周到数月时间。提供足够的算力是大型模培训及实践的一个重大挑战。

例如LFOSSA例如通过收集公开或收费的数据集、租赁算力服务器的方式，可以备齐以上学习要素。对于快速培养AI及大模型人才至关重要，也是LFOSSA能够吸引学员的重要因素。

2024年春季的LF开源软件学园人才激励计划共有以下6个类别：

无论你的年龄，行业背景，技术程度，只要对技术有兴趣，有热诚，有渴望就有机会入选。入选者可以在Linux基金会开源软件学园中任意选择一门课程学习，并免费参加一次Linux基金会提供的任何认证考试，学习和考试费用由Linux基金会开源软件学园承担。优秀的申请者还会获得Linux基金会开源软件学园颁发的奖项。申请截至日期为2024年4月30日。仅剩最后2天，大家马上报名！

请注意：申请表是入选本计划的唯一准则，所以不要吝啬您的开源的热情，真诚填写表单，增加获奖可能。

我们期待"你"的开源故事分享，等着你来报名。

立即点击 此网址 https://training.linuxfoundation.cn/scholarship 申请 Linux 基金会开源软件学园人才激励计划！