****内容: 国内外医学知识图谱发展情况 医学知识图谱的领域特征和应用需求 数研院医学知识图谱构建 医学知识图谱应用案例
国内外医学知识图谱发展情况
知识图谱概念
广义概念:作为一种技术体系,指大数据知识工程的一系列代表性技术的总称。
狭义概念:作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体、概念及其
之间的各种语义关系。 国外医学知识图谱:UMLS
UMLS是美国国家医学图书馆自1986年起研究和开发的一体化医学语言系统,包含超级叙词表、语义网络、专业词典和词汇处理工具。
超级叙词表是一个非常庞大的术语库,集成了生物医学和健康方面的本体、叙词表、分类表、疾病编码集、专家系统、词汇表中的术语及相关信息,如有MeSH,SNOMED CT等。 语义网络:为超级叙词表中的概念提供统一的组织和分类,并揭示概念之间的语义关系。 专家词典和词汇处理工具:用于超级叙词表同义概念的自动归并。 规模:语义网包含133种语义类型,54种语义关系。超级叙词表包含300多万概念,1300多万概念名称。
国外医学知识图谱:SNOMED CT
2002年1月,SNOMED CT首次发布,它由两大医学术语SNOMED RT与CTV3合并而来,国际版SNOMED CT在每年的1月和7月各更新一次。SNOMED C核心构件是概念、描述(术语)和关系 。
目前SNOMED CT包含19种语义类型,50多种语义关系,35万概念,120万描述(术语), 110万关系。 国内医学知识图谱:CUMLS
CUMLS是中国医学科学院医学信息研究所基于UMLS开发的中文一体化医学语言系统,包含医学词表、语义网、构建工具与平台。
医学词表涵盖了10余个生物医学领域内的主题词表、分类表、术语表及医学语料库,其中重要的来源词表包括《医学主题词表(中文版)》(MeSH中文版)、《中国中医药学主题词表》等。 语义网:基于美国UMLS建立,由两部分构成:语义类型、语义关系。 构建工具与平台:构建工具包括同义词识别工具、语义相似度计算工具、主题分类自动映射工具、主题词/副主题词自动组配工具;词表发布服务平台是中文一体化医学语言系统面向最终用户使用的平台。 规模:共收录医学主题词3万余条、入口词3万余条、医学术语10万余条、医学词汇素材30万余条。
国内医学知识图谱:医药卫生知识服务系统
医药卫生知识服务系统由中国医学科学院医学信息研究所承建,通过对资源的深度挖掘和关联分析,建设了知识图谱、知识脉络分析等特色知识服务和应用。
规模:医药卫生知识服务系统已发布疾病和药品领域知识图谱,其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。 国内医学知识图谱:中医药知识图谱
中国中医科学院中医药信息研究依托中医药学语言系统(TCMLS)构建了中医药知识图谱。中医药知识图谱是面向中医药领域的知识图谱。
共有9种知识图谱类型,包含“基于中医药学语言系统的知识图谱”、“中医美容知识图谱”、“中医养生知识图谱”、“中医临床知识图谱”等。
国内医学知识图谱:OpenKG
OpenKG是由中国中文信息学会倡导的中文领域开放知识图谱社区项目,主要工作内容包括http://OpenKG.CN(开放图谱资源库)、cnSchema(中文开放图谱Schema)和Openbae(开放知识图谱众包平台) 。
主要工作内容:
http://OpenKG.CN:聚集了很多开放的中文知识图谱数据、工具、文献资源。主要有93个数据集,包括面向中文电子病历的命名实体识别数据集、病人事件知识图谱等; cnSchema:定义了中文领域开放知识图谱的基本类、术语、属性和关系等本体层概念; Openbase:以中文为核心,机器学习与众包协同;支持将知识图谱转化为Bots 。 医学知识图谱的领域特征和应用需求 医学知识的特点
不同知识源对同一个概念采用了不同术语进行表达: 精确度要求高:医学知识专业性高,医学应用场景容错率低,因此医学知识图谱的精确度要求高:
复杂程度高:医学是经验总结的科学,医学概念的内涵往往比较丰富,且有些医学知识复杂很难用简单三元组表达: 医学知识图谱的不同应用场景需求侧重点也有所不同,需要最大化的满足才能提高图谱的适用性。