人工智能技术能给“农业芯片”带来怎样的助力?国内首个种业大语言模型的推出,或许可以给出全新的探索路径。
据崖州湾国家实验室最新发布消息,崖州湾国家实验室精准设计与智造团队联合中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登”,英文名称LargeLanguageModelforSeedDesign(SeedLLM)。
“丰登”重点关注生物育种,尤其我国主要粮油作物和肉禽动物,对维护国家粮食安全有积极意义。团队认为,该大模型技术的运用不仅填补了我国在种业专业领域的大模型空白,同时也是对我国育种领域采纳新技术的一次大胆尝试。
值得关注的是,育种是一项复杂的工作,种业研发周期长、难度大,这是现状和事实。而长期以来,育种信息缺乏统一的平台,数据知识呈现出“孤岛式”分布,也为育种知识的普及学习带来了壁垒。同时,由于生物育种涉及生物学、遗传学、气象学、土壤学等多学科交叉,专业人员在从事育种工作时不得不跨越众多领域的文献、数据,甚至需要编写代码进行数据访问,工作效率受到极大的限制。
“丰登”模型集成了上海人工智能实验室研发的大语言模型书生·浦语2.0与大数据分析,对海量来自不同渠道的育种科研文献、技术书籍及网络资源进行深度解析和索引,在品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域查询等四大应用场景中,为用户提供解释和回答。
据崖州湾国家实验室介绍,“丰登”模型在由国内育种专家制定的标准测评中表现远超农学相关专业本科生,综合得分是本科生的4.87倍。
该模型具有4大核心能力:整合分散的知识资源,系统深度挖掘并结构化我国在育种领域迄今积累的包括学术文献、书籍、田间日志在内的广泛知识;跨领域知识融合,利用多学科知识图谱,整合了生物学、遗传学、气象学、土壤学等相关领域的知识,发掘这些领域之间的新联系;提高访问效率,通过自然语言对话接口降低了技术门槛,用户可以直接提出问题并迅速获得易于理解的答案,提高育种工作效率;知识共享与传播,不仅服务于育种专家和科研人员,也向全国的农业工作者提供必要的支持,加速了育种知识的广泛传播和应用。
值得一提的是,为全面评估“丰登”的专业性能,上述三方团队还组织育种专家设计了100道水稻育种专业问题及对应标准答案,涵盖品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域查询四大任务。
共计115人参与本次标准测评,其中包括14名国内水稻育种专家,49名农学相关专业研究生和52名本科生(大三及以上)。评估团队通过排序和打分的方法,对“丰登”的回答在准确性、稳定性和推理能力等方面进行了细致评价。测评中还引入了本科生的回答作为测试基准。
测评结果表明,“丰登”在最佳答案个数和综合分数上的表现均超出预期,且在多个评估维度上超越了语言模型国际领先水平代表AnthropicClaude3和OpenAIGPT-4。团队认为,这些结果充分证明了“丰登”种业大语言模型在处理水稻育种相关知识方面的潜力。
据悉,“丰登”v0.1拥有200亿参数,现已开放水稻相关知识的测试接口申请。首批参与测试的单位除崖州湾国家实验室和中国农业大学外,还包括隆平高科、中国科学院、中国农业科学院、正大集团、复旦大学、华中农业大学、华南农业大学、上海市农业科学院、广东省农业科学院等。
崖州湾国家实验室方面表示,将诚邀国内育种领域各单位参与研发,提供高质量语料,涵盖更多品种,助力中国种业。
崖州湾国家实验室于2022年9月正式成立,由中国科学院院士李家洋领衔,是中央管理的新型科研事业单位,主要承担国家战略科研任务,保障国家粮食安全。