如何把AI应用在电子健康记录、肿瘤影像、医保欺诈识别中

jopen 7年前
   <p>2016 年 12 月,深圳大学获批国家级大数据工程实验室,其中健康医疗大数据研究中心是由深圳市南山人民医院与深圳大学、腾讯联合组成。</p>    <p>近日,深圳市南山区人民医院信息中心主任朱岁松在演讲中介绍了该实验室目前在 AI 方向上的研究和应用:基于特征工程的医保欺诈的识别、医保扣费、于洛仑兹分析的医疗架构改革、基于机器学习的医疗体制、基于卷积神经网络的图像识别和基于区块链的电子健康记录。</p>    <p><strong><img alt="如何把AI应用在电子健康记录、肿瘤影像、医保欺诈识别中" src="https://simg.open-open.com/show/d7ee4ae4a891f339c6b5f97ed7c05583.jpg" /></strong></p>    <p>雷锋网了解到,朱岁松主任针对上述的几个问题提出了自己的看法:医保欺诈方面人类的欺诈行为具有社会学特征,把具象的人抽象为数学特征后可以用算法来判定可疑度;在医疗体系方面,未来的肿瘤图像应该与电子病历、基因组学、生物样本数据库等等关联,才是一种真正的基于机器学习的医疗体制;卷积神经网络的图像识别是目前业界的主流方向。腾讯觅影的食道癌检测也是基于卷积神经网络类似的算法来展开的。</p>    <p><strong>联合实验室的几个研究方向</strong></p>    <p>在这个联合实验室下面,我们有几个 AI 实践方向:</p>    <p><strong>基于特征工程的医保欺诈的识别</strong></p>    <p>第一个研究方向是基于特征工程的医保欺诈的识别。这个题目是国家 2015 年全国大学生数学建模里面的一道A题,A题是医保欺诈工程,第一题是基因测序,是华大基因的,C题是红树林环境评估模型。在这个特征工程里面,为什么说是基于特征工程呢?因为人类的欺诈行为具有社会学特征。将这些社会学特征在我们的医保大数据里面做成一系列的标志、工程,就能够将这些具体社会的人抽象为一系列的数学特征,再利用大数据上面一系列的算法来判断可疑度有多大。</p>    <p>举个例子,它的标准答案一共有三十几个场景。举几个例子,它是列为 X1、X2,一直到 XN。</p>    <p>以 X1 为例,患者的就诊是有一定的范围的,比如说在一个地区,一段时间内,患者医保卡的就诊次数,有些医保卡的就诊次数为0,有些就诊次数为1,有一些为2、3、4,一直到N,N越大,他的次数也就越少,那么研究这个数的分布,我们会发现它符合补充分布。知道它的补充分布以后,就能够得出来一个Y=F(X)的函数逻辑,就能够找出他的敏感点。这个敏感点找出来以后,大于 5 次或者大于 8 次就是他的敏感点,有 95% 的行为不一样,这就是一个异常,就可以做一个标记。</p>    <p>X2,患者开了处方,这个药品是不可以拿来当饭吃的,在我们医学上面有一个值,就是 DDD 值,就是该药每次的标准用量,你吃药不能吃得太多,超过这个数,你就超过了 DDD 值,每个处方也是有这个 DDD 值控制,限制你不能吃这么多药。研究这个 DDD 值,它这个稍微偏正态的一个分布。偏正态以后,我们也能够求得出来一个Y=F(X)这么一个函数,求出这个函数,也能够求出你的整个分布出来,也就能求得出来当你这个 DDD 值大于多少的时候,你就是合理的,这些都是来源于大数据。</p>    <p>X3,医学上很多检查与用药都是相关联的,如果你用了很多高血压的药,但是从你的体检数据里面、门诊数据、住院数据,查到你的血压从来就不曾高过,你这个药很显然不是你在使用的药。</p>    <p>X4,比如说医学上面很多是不可逆的特征,比如说做了一个有脑卒中的,脑子出了问题,做了 CT,是阳性。但是在大数据里面,你在第二次、第三次住院,他就没问题了,有可能没问题吗?很多医学上面是不可逆的,这里面也标记为阳性,很可能是你的卡被别人在用。</p>    <p>从 X1 一直到 XN 这么多的数学特征,我们以一种模型的方式,或者是条件概率的方式把它组合成一个值、一个熵值。建模以后,这个熵值是介于 0 与 1 之间,比较靠近 1 的时候,我们会赋予他一个值,医保欺诈嫌疑就非常高,如果小于 0.4 就是医保欺诈嫌疑会比较低。把这个模型建立好以后,统统通过这个模型跑一遍,那么整个医保就会更加规范。事实上很多是基于特征分析,你可以知道他是不是存在不合理的行为,这是研究方向之一。</p>    <p><strong>医保扣费</strong></p>    <p>研究方向之二就是基于第二期的医保扣费。所谓的第二期,就是将这些人类的疾病,2 万多种疾病,按照临床过程相似,复杂程度相似以及资源消耗相似这三个相似原则,把它分类合并到几百个组,那么医保就按这个组来付费,它是非常可取的,在国外是一种方法学,不但用于医院之间相互之间综合实力的对比,更重要是用于医院之间的评价,社保的收费、付费,它的价值是非常大的。这个第二期是国家医改的重点之重点。</p>    <p>国家一共有三个试点,第一个试点是福建的三明,第二个试点是新疆克拉玛依,第三个试点就是深圳。深圳这边其实真正落地的就是在我们南山医院,我是国家 CTR 项目组的成员,我负责这块的工作也是利用大数据来进行核算以及 DR 值。在这个 DR 值算出来分到这个组以后,按照这个理想状态,它应该是资源消耗相似,它的相似度怎么样来检验,比如说你分到这个组了,假如分组系数是非常准的话,那么类似的情形可能是这样子的。在这一组里面,患者的平均费用假设是 1 万块钱,那么分到这个组以后,其他的患者费用应该是在 9000-11000 之间,在这个区间内,它是非常准的,也就是这些数据非常集中,离散度越小越集中,说明你这个分组越准。但是事实上它通常不是这样子,那么你怎么样来检验它是准还是不准呢?它是有多种方法的,其中最主要的有三个。</p>    <p>第一个就是用变异系数,就是分子,分子就是它的标准差,分母就是它的均数,这么一个解读,这是作为离散度的比较。第二个是方差。第三个是检验,它能够判断你这个分组准还是不准。如果分到这个组里面,它不准怎么办,这里面也是要应用大数据的一些算法来判断分组还是不分组。</p>    <p>它的主要算法有三种,第一种就是用到系统聚类的方法。聚类了以后,把它分为两大类,以准不准给它拆散成两组或者三组,它立马就准了,数据立马就集中了。第二个叫做决策树,第三种叫做回归数,在大数据里面有很多这样的算法。这种算法就是将分组不是太准的数据,利用这些数学模型把它拆散成两到三组,就是提出这个数据模型给你验证。所以国家这次把这个分组做成一个试点工作,义无反顾地放到南山,实际上对我们的技术是一个挑战,也是一个检验。</p>    <p><strong>基于洛仑兹分析的医疗架构改革</strong></p>    <p>在我们的第三个研究方面,是基于洛仑兹分析的医疗架构改革。大家知道这个改革是国家的一个课题,国家的医改,药品、耗材占据了很大的比例,可是对于这些手术费、治疗费,体现医生劳动价值的这些项目并没有增加,300 块钱、500 块钱的手术费,这是非常不合理的。那么怎么来扭转这种不合理的现象,国家的医改价格要改革。</p>    <p>那么这个价格改革怎么改?很多的那些专家、学者们,很多都是基于宏观经济学上来定义这个价格,你怎么样来调,大家达到的共识是什么呢——总体卫生资源的支出,患者支出的总费用不应该上涨。第二就是检验费、检查费等等这些依赖于仪器设备的费用应该降价。第三个就是治疗费、手术费这之类的体现医务人员劳动价值的收费项目要涨,涨的幅度是多少。</p>    <p>在我这边所做的研究是什么呢?就是基于洛仑兹分析,我就能够给你找得出来哪些数据可移动,哪些数据必须很谨慎的动,哪些数据是不能动的。基于洛仑兹分析我们进行一系列的数学建模,就能够知道你这个收费项目被引用了多少次,产生了多少金额,那么它是可以动,还是不可移动的。医学上面的收费项目,包括检验费、治疗费、手术费等等这些,就非常类似于我们有 100 亩地。在这 100 亩地里面,不同农作物所用的化肥是不一样的,农药是不一样的,劳动时间是不一样的,生长时间也不一样,最终卖出的钱也不一样,这就可以达到一种博弈模型。这个博弈模型就是这些费用,这么多的产品,用什么方案可以让劳动时间是最短的,产品总价是最多的,等等,它是可以用一个规划来做的</p>    <p>线性方程加上一系列的约束条件能够求得一个最优解。同样的道理,我们医学价格改革也是一样,不同的价格,涨价的幅度不一样,我们利用一个计算机大数据的模拟,在南山区这边,在十几年数以千亿计的就诊患者,生成一种新的价格体系以后,让政府重新进行一次结算。因为我们的分布式就是要让它重新结算一次,生成一组新的费用,对这种新的费用再来进行线性规划,再来进行洛仑兹分析,这样我就能够非常精准地定义出某一种项目、某一类项目,涨多少是比较合适的,它最终的产出类似于有三个博弈模型。</p>    <p>第一个博弈模型,怎么样的调价方案对患者是最有利的,还有什么样的调价方案对医院是最有利的,医院要生存、要发展,这是不得不考虑的数据模型。所以这样我的研究模型里面会涉及到三种模型,并且把它标注成什么样的条件,它会达成一种什么样的目标。</p>    <p><strong>基于机器学习的医疗体制</strong></p>    <p>第四个方向是基于机器学习的,比如说我们刚才讲的食道癌筛选,仅仅是基于图像本身,这是远远不够的,未来的肿瘤图像应该与电子病历、基因组学、生物样本数据库等等这些关联在一起,才真正有生命力,才是一种真正的基于机器学习的医疗体制,这是我们的第四个研究方向。当然这些研究方向都是和腾讯、和深大资源密切相关的。</p>    <p><strong>基于卷积神经网络的图像识别</strong></p>    <p>第五个研究方向,就是基于卷积神经网络的图像识别。刚才讲了,我们的食道癌,它这边的判读都是基于卷积神经网络这种类似的算法来展开的,这是目前整个业界的主流方向。</p>    <p><strong>基于区块链的电子健康记录</strong></p>    <p>最后一个研究方向就是我们基于区块链的电子健康记录。因为我们目前整个电子健康记录是基于 CA 认证、基于 PKI 格式的,国家也有电子码来确保这些数据的准确性,它在法律上的不可推卸性。另外一个身份认证,一个 CA 证书来证明,这条医嘱是在一个可信的人在一个合法的时间里面所下注的,这种电子病历是有合法性的,它是能够拿来打官司的,这是电子记录。</p>    <p>但是像这种电子记录,它的成本也是非常高的,大家知道我们要做一个 CA 认证的话,你要有公证处服务器,要有时间服务器,要有U-key,要有每年的服务费用,还有一些灾备,专门的网络等等,它的成本实际上是非常高的。但是有另外一种技术可以良好地解决这个问题,就是区块链。区块链,我定义为改变未来的技术,我们也非常期待区块链能与我们整个电子健康记录关联在一起,让在医院产生的医疗健康记录,患者在远端也能看到,而且中间在互联网往上面走的时候,其他任何环节把这些数据截取下来,你是看不到,你也看不懂,而且它是确保了终端生产这段是完全一致的。像这个电子货币,未来你得病,它都是基于算法,实际上它很简单,就是一个函数加密起来,让你解不开。</p>    <p>我们也非常期待在这六个方面与深圳大学、与腾讯这边有密切的合作,我也相信这一天已经到来了,而且我们在前期已经有很多的项目已经做出来了,不仅仅是在医学图像识别这一块,我们和腾讯这边合作,做成了新农合,做成了医保的异地结算,还做成了整个移动互联网社保支付等等,我们的成果是非常多的。</p>    <p>来自: <a href="/misc/goto?guid=4959010338720701202" id="link_source2">雷锋网</a></p>