sunshine

大数据2

来源: 时间:七月 11, 2014, 7:38 a.m.

郭华东院士:大数据+大科学=大发现

http://news.sciencenet.cn/htmlnews/2014/7/298425.shtm

“大数据是财富,是资源,是科研的战略高地。大数据正在改变人们的研究方式,是人类认识自然和行星地球的新钥匙。”

这是中国科学院院士、中科院遥感与数字地球所所长郭华东于日前在北京召开的大数据与科学发现国际研讨会上做出的判断。从数据发展历史看,19世纪70年代以来,数据量大约每十年翻一番;从工业化时代进入信息化时代后,数据量以每三年翻一番的速度持续增长;当今社会,随着计算机技术和互联网的快速发展,数据存储量、规模和种类更是飞速增长,“大数据时代”已经来临。

“不过,在大数据概念与应用实践中,互联网大数据、商业大数据得到了广泛重视和快速发展,与之相比,科学大数据的理论研究与实践还相对较少。”

在郭华东看来,大数据有着重要的发展潜力,其中重要的一点是能够改变人们的科研方式。“通过对大数据的挖掘,取得新的科学发现。”

实际上,科学界已经有了这样的先例。比如上帝粒子的发现,就是欧洲强子对撞机长期数据积累的结果;而诸如人类基因组计划、全球变化研究等,浩瀚的数据量也不断产生着重要的科学发现。

与此同时,科技界屡现大数据相关的论文、专刊和书籍。2008年,英国《自然》杂志率先出版了“大数据”专刊,分析了大数据对当代科学的影响和意义;2011年,美国《科学》杂志推出“数据处理”专刊;2012年,联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》……

“大数据的数量之大已经出乎了人们的预料,更重要的是,它改变了人类认识自然的方式。”郭华东告诉《中国科学报》记者,“尤其是需要巨额投资建造、运行和维护大型研究设施的大科学工程,以及需要跨学科合作的大规模、大尺度的前沿性科学研究项目,更是与大数据联系密切。大数据+大科学=大发现。”

目前,国际上已经有一些学术组织和大型科学计划在着力推动科学大数据的发展,如国际科学理事会下属的国际科技数据委员会是全球最大的科技数据国际学术组织,现拥有国家会员、国际学术组织会员等50余个会员。2010年郭华东当选该组织主席。

任职期间,郭华东努力加强与各国际组织的联系,为其提供战略指导和专业的关键数据,积极推动各项工作,取得了显著的成绩。

在这些工作中,郭华东发现,科学大数据要真正引发科学上的大发现,还存在着一些瓶颈。除了数据获取、处理、存储、传输、系统控制等技术瓶颈外,理念和政策上的瓶颈更亟待突破。“对我国来说,政府已经认识到了大数据的重要性,但数据的共享工作仍然任重道远,这座高山还远远没有翻过去。”

一项统计数字显示,中国目前拥有的数据量占全球的14%;而到2020年,这一比例将上升至21%。

可现实的情况却是“即便同在一个单位里,两个部门之间都很可能不相往来”,“这些部门其实都掌握了许多数据,但不共享,这就等于没有大数据”。

郭华东呼吁,国家应将大数据上升为一项国家战略,做好顶层设计,要从国家层面上推进中长期计划和政策的实施。“大数据时代已经来临,如果认识跟不上,将来落后的不止一步两步。当我们把大数据看作与土地、森林、矿产一样的国家资源时,这件事就能够做好了。”


http://www.biotech.org.cn/information/121478



当前我们正处于一个数据爆炸性增长的大数据时代,各类信息系统在医疗卫生机构的广泛应用以及医疗设备和仪器的逐步数字化使得医院积累了更多的数据资源,这些数据资源是非常宝贵的医疗卫生信息,对于疾病的诊断、治疗、诊疗费用的控制等都是非常有价值的。如何在大数据时代做好医疗卫生信息化建设,是值得我们思考的问题。


一、大数据时代对医疗信息化建设新要求


据估计,中国一个中等城市(100万人口)50年所积累的医疗数据量就会达到10pb级别。随着我国医疗信息化建设加快,医疗卫生数据量爆发式增长,医疗卫生领域已迎来了自己的“大数据时代”,大数据相关特性对医疗信息化建设提出了新的要求。


(一)数据量爆发式增长,要求医疗信息化架构可扩展


医疗卫生数据主要来源于三方面:


1、生命科学领域及医药研发领域


在生命科学领域,随着高通量测序的技术发展和逐步应用,生命科学领域的数据量正在高速增长,每台高通量的测序仪每天可产生约100gb的数据,仅华大基因一家中国基因公司,每天就有一百多台这样的测序仪在满负荷的运行着,产生10tb的数据。在医药研发领域,药物研发是相当密集型的过程,一家中小型制药企业年累积的数据量也在tb以上。


2、医疗领域


就医疗机构诊疗数据看,诊疗数据结构复杂包含大量半结构化或非结构化数据,单个半结构化数据(如心电图、b超、cr、ct等)的数据量远远大于单个结构化数据(如xml文档),如一张普通ct图像大约150mb、一个标准的病理图接近5gb,而一个xml文档大小约几十k,随着医疗机构信息化建设转向临床信息系统,越来越多医院将重点建设pacs、lis系统,从而产生大量非结构化诊疗数据。


医疗领域大数据除医疗机构诊疗数据外,患者在医疗机构就医过程中还将产生挂号、缴费、新农合基金使用情况、医保资金使用情况、诊断结论、诊疗过程等数据。根据卫计委2014年颁布的《人口健康信息管理办法(试行)》要求,电子健康档案、电子病历、全员人口信息等人口健康信息需要实现长期保存,医疗领域数据量将逐年累积增加。


3、移动医疗领域


随着移动互联网、物联网技术的快速发展,可穿戴式医疗设备逐步从概念走向现实。可穿戴式设备最重要的应用就在医疗健康管理领域,从谷歌眼镜、苹果手表到耐克腕带等均具备一定医疗健康管理功能,为用户提供身体素质指标监测、疾病数据跟踪等服务。随着可穿戴式设备的快速发展,未来将产生大量的医疗健康数据。


面对来源丰富且日益膨胀的医疗卫生数据,目前医疗信息化的存储架构无法满足大数据应用的需要,在处理和查询大数据集时更是力不从心,需要设计新的以数据为中心的计算模型和系统架构,把医疗卫生各个业务系统独立的、分散的、不同品牌或不同级别的存储产品统一到一个或几个大的存储池下,形成逻辑上统一的整体,进而根据数据整合或应用整合的需要将数据迁移到相应的存储空间,从而实现医疗信息化中存储架构的统一规划和部署。


(二)数据价值高,要求医疗信息化建设重视数据挖掘

医疗卫生数据结构较为复杂,除了普通结构化数据外,多为半结构化或者非结构化的数据,如心电图、b超、ct、mr、cr、等临床影像文件多为非结构化数据。在“大数据”时代,传统的数据库分析系统正面临着一次历史性变革。


目前国外已经有许多机构开始深入研究医疗数据的挖掘利用,并已经从大数据中找到了与医疗卫生相关的潜在价值,例如:早在2009年,甲型h1n1流感爆发的几周前,google开发“谷歌流感趋势”延伸服务,通过分析大量用户对于流感有关词条所做的搜索记录识别流感爆发,与官方机构相比google能提前1-2周预测流感爆发,预测结果与官方数据相关性高达97%。苹果前总裁史蒂夫•乔布斯在与胰腺癌症斗争的过程中也应用了大数据技术,他是世界上第一个对自身所有dna和肿瘤dna进行排序的人,通过分析整个基因数据的大数据文档,乔布斯的医生能基于他的特定基因组成按需用药。资料显示,胰腺癌患者的死亡率极高,出现症状后患者的平均寿命仅为9个月,5年生存率不到2%,但是乔布斯通过大数据技术开发出的个性化药物将生命延长了好几年。


相对国外医疗卫生数据挖掘的进展,我国医疗卫生数据挖掘才刚刚起步,大部分医疗卫生机构还停留在数据的精确性层面,而非从数据关联性方面分析挖掘数据价值,需要加大对医疗卫生大数据分析的投入,通过对医疗卫生大数据有效的存储、处理、查询和分析,辅助医生做出更为科学和准确的诊断和用药决策,帮助医院根据患者潜在需求开发全新个性化服务及自动服务,帮助相关研究机构突破医疗方法和药物革新,支持地区甚至全国医疗行业主管部门优化医疗资源及服务配置。


二、大数据时代中国医疗信息化建设的建议


大数据时代医疗信息化建设从产业角度看,未来将创建一个以患者为中心,数据快速流通,精准分析的价值链条。在此链条中政府、医疗卫生机构、医疗信息化软硬件提供商等应明确各自定位,协同合作,才能在大数据时代做好医疗信息化建设。


(一)政府应发挥政策制定、产业发展推动作用


政府在医疗信息化建设中主要发挥政策制定、产业发展推动作用。目前我国医疗信息化标准建设不完备,基础的电子病历和电子健康档案建设标准虽然已经出台,但目前并没有出台针对大数据时代医疗信息化建设中涉及的各项数据的采集、传输、处理及相关医疗信息架构的标准。


(二)医疗卫生机构应前瞻部署医疗信息化建设


医疗卫生机构是医疗信息化建设主体,在进行医疗信息化建设过程中应该有前瞻意识,勇于将新一代信息技术融入医疗信息化建设过程中。目前一些三甲医院已经进行了诸如移动医疗、远程医疗等尝试,但对于大数据在医疗卫生机构应用仍然较为保守,仍停留在bi用大数据辅助办公阶段,用于临床精准用药的较少,未来随着大数据相关技术的逐步成熟,医疗卫生机构应逐步将大数据从辅助办公拓展到提高临床医疗服务质量方面。


(三)ict厂商应加大上下游合作,瞄准大数据下医疗信息化建设积极开发新产品

软硬件设备厂商作为医疗信息化技术的提供者,应瞄准大数据下医疗信息化建设新机遇开发新产品,加大上下游产业链合作,如针对可穿戴设备产生的大量健康监测数据,医疗信息化软硬件设备厂商可以与下游医疗卫生机构合作,将医疗服务前置,使患者能够尽快发现可能的健康隐患,甚至在家中就能通过智能终端定期查看可穿戴设备中记录的健康信息,并得到医疗机构相关医生给予的医疗健康诊断信息及就诊建议,实现“治已病”向“治未病”的转移;由于可穿戴设备小巧、轻薄的特点对电池的续航能力和cpu、无线传输芯片的功耗提出更为苛刻的要求,医疗信息化软硬件设备厂商需要软硬件厂商与上游处理器、存储器、电源、无线通信、软板、传感器、执行器等主要零部件厂商合作,共同开发具有功耗低功能强的可穿戴式医疗产品。


http://www.biotech.org.cn/information/121648

“大数据”院士鄂维南谈运用


上一篇: