大数据助力精准医疗
百度大数据部 吴李知
目录
精准医疗的概念与意义
精准医疗的核心是大数据分析
大数据助力精准医疗的三个层次
精准医疗大数据之基因组学大数据
精准医疗大数据之健康管理大数据
精准医疗大数据之生活习惯大数据
大数据助力精准医疗的发展方向
精准医疗的概念与意义
2015年1月30日,美国总统奥巴马在国情咨文演讲中宣布精准医疗计划(Precision Medicine Initiative),引发世界关注。
美国白宫科学技术办公室科学部:精准医疗是一种考虑个体差异(基因组、蛋白质组、代谢组)、环境和生活方式的促进健康和治疗疾病的新兴方法。
未病
精准预测+精准管理
欲病
精准检测+精准干预
已病
精准诊断+精准治疗
精准医疗的核心是大数据分析
传统医疗的依据
精准医疗
综合考虑的因素
症状
- 发热
- 头晕
- 咳嗽
检验检查
血检
X光
CT
家族病史
- 糖尿病
- 乳腺癌
- 结肠癌
- 凝血功能障碍
生活习惯生活环境电子病历健康档案
患者“组学”
- 基因组
- 转录组
- 蛋白质组
代谢组
表观组学
微生物生态组学
最新研发进展
- 新靶点
- 新药物
- 新机理
大数据助力精准医疗的三个层次
Level 1 - IT基础架构:数据中心、服务器、带宽
数据存储:
容量超过4000PB,20多万个中国国家图书馆
计算能力:
CPU总量高达70万颗、CPU内核总数超过300万个
环保节能:
自主研发的的高性能、低功耗服务器,节能43%
百度山西阳泉数据中心
大数据助力精准医疗的三个层次
百度大脑深度学习、超大规模机器学习、大规模GPU并行化平台
百度大脑
深度学习、超大规模机器学习、大规模GPU并行化平台
数据工厂
数据工厂
新一代数据库管理与查询技术、大数据挖掘机
开放云
低能耗数据中心、超大规模分布式架构、新一代智能自动化运维、超强云安全
百度自有数据
行业数据
/需求
行业数据
/需求
行业数据
/需求
大数据助力精准医疗的三个层次
Level 3 – 互联网大数据
超过60亿次
日搜索请求
实时性
14个用户
过亿APP
广泛性
不是抽样,是全样
多屏
数据统计
标准化
数据平台
多维性
数据维度丰富
数据每日及时更新
掌握互联网动态
源自网民主动实时搜索表达挖掘百度超过 6 亿用户行为
整合PC、无线端用户数据, 用户全方位画像
精准医疗大数据之基因组学大数据
为什么众多组学中基因组学启动最快
第一次人类基因组测序耗时13
第一次人类基因组测序耗时13年,成本为27亿美元
90年代初,自动化测序每天完成1万个碱基对的测序
2005年,每天测序的碱基对增至100万个以上
2010年,每天测序的碱基对增至250亿
个,检测速度上千倍提高
2014年,Illumina推出HiSeq X Ten系统,每周至少可完成320个人类基因组测序,每年完成的数量可超过18000个
成本
NGS技术全基因组测序成本已降至$1000以下
资料来源:NIH,Illumina,中国医疗圈, 百度大数据部分析
精准医疗大数据之基因组学大数据
基因组学大数据的处理特点
数据量大– 单个人基因数据200G左右
数据类型多 – 20+数据格式,fasta、fastq、SRA、BAM、SAM… 数据处理流程多 –典型的全基因组数据,20+步骤
处理算法多 – 信息检索算法,机器学习算法,图论,动态规划算法
精准医疗大数据之基因组学大数据
基因组学大数据分析平台架构
用户 开发者平台:KPI、App开发工具、App管理服务、App库
工作流解析序列分析
工作流解析
序列分析
基因组浏览
序列比对分析
统计分析
显著性分析
聚类分析
?
?
序列批量比对
相关分析
?
任务管
理服务
核酸序列分析序列
变异分析
序列片段统计
主成分分析
HW平衡检验
连锁不平衡分析
单体型分析
?
?
?
权限
管理 数
安全 据
管理 分析
监控 平
管理 台
数据备份
数据与知识共享
生物信息数据库
生物信息
数据库
DNA序列数据库
RNA序列/核
糖体数据库
人类基因组数据库
基因表达数据库
基因突变、病理和免疫数据库
疾病药物相关分析miRNA调控分析GO功能富集分析Pathway通路分析疾病分析
文献挖掘
容灾异地 文件系统:分布式存储、数据仓库、Erasure Code冗余编码、文件管理服务
容灾
计算系统:BCC、资源管理、容器调度、Docker仓库,Hadoop / MPI计算平台
精准医疗大数据之健康管理大数据
多层级数据采集建立居民电子健康档案
多层级数据采集
建立居民电子健康档案
家
深入社区,检查便利
使用频度中,周活、月活
精度较高,可校准家用设
备
健康数据