浅谈医学大数据
陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。
现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。
大数据定义及其特征大数据顾名思义就是数量极其庞大的数据资料。从上世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍HibertLopez2011。2012年,每天会有25EB量的数据产生A
drewErik2012。现在,2014年,每天会有23ZB量的数据产生IBM2015。这是一个什么概念?现在一般我们电脑的硬盘大小都以GB,或者TB为单位了。1GB的容量可以储存约54亿的汉字,或者170张普通数码相机拍摄的高精度照片,或者300350首长度为56分钟的MP3歌曲。那GB和TBEB,ZB的关系又是怎样?
1ZB1024EB10242PB10243TB10244GB。如果你有一台1TB硬盘容量的电脑,那1ZB就是大致等于10亿台电脑的容量远远超出了我们一般的想象。
f早期,IBM定义了大数据的特性有3个:大量性(Volume)多样性(Variety)快速性(Velocity)ZikopoulosEato
deRooosDeutschLapis2012。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出:易变性(Variability),准确性Veracity和复杂性Complexity。
作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。
大数据的6个特性描述如下:大量性:一般在大数据里,单个文件大量性的级别至少为几十,几百GB以上,一调查Russom2013显示相当多的机构拥有的数据总量在10到99TB之间。用我们传统的数据库软件,1GB已经可以储存千万条有着几百个变量的数据记录了。多样性:泛指数据类型及其来源的多样化Troester2012,进一步可以把数据结构归纳为结构化structured,半结构化semistructured,和非结构化u
structuredSAS2014。快速性:反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012年时,谷歌每天就r