作为连续型数据类型,本身就自带七十二变的本体,因此本期概要我们继续来向大家讲解一下,在构建复出基本概念时,连续型数据类型还有哪些其他神奇的变动表达手段。
1、正态切换
首先要提到的就是极其常见的正态切换表达手段。我们都本来,在构建一维复出时,必需保证一定的前提条件,其中所有一项即尽快数据类型需违抗自数据类型或者近似自数据类型,如果不保证自数据类型的条件,往往但会引发构建的复出基本概念产生一定的偏倚,因此对于连续型数据类型在事前完成正态性筛选是十分必要的。
那么,当我们的数据集资讯常见于展现出非正态时,必需怎么办呢?此时,我们可以将完整的连续型数据类型作某种变数的切换,使偏态资讯正态化,从而保证复出基本概念构建的必需。
根据数据集本身常见于形态的各不相异,我们可以有别于各不相异的正态切换变数,例如对完整连续型数据类型开平方由此而来根号个数(Square Root)、由此而来自然比个数(Ln X)、由此而来以10为底的比个数(Log10 X)、由此而来紧接在(1 / X)等等。
当然,必需特别注意的是,如果比个数据类型完成了正态切换,在结果中所对复出基本概念表达式完成阐释时,应当按照切换后的数据类型给予阐释,或者可以根据切换时适用的变数关连,倒推完整绝对个数对完整因数据类型的振荡大小。
例如JACC季刊2016年发备注的一篇文中[1],创作者在统计数据分析时首先比个数据集完成了正态性筛选(中文翻译备注述:Normality of continuous variables was assessed by the Kolmogorov-Smirnov test)。
整体而言troponin I、NT-proBNP、corin等状况展现出偏态常见于的不同之处,因此在详细描述数据数据分析对象基线数据时创作者也有别于了中所倍数(上四分倍数,下四分倍数)的备注达表达手段,例如Troponin I的中所位素质为4.5(1.8,12.6)ng/ml。
随后创作者有别于多重一维复出的方法有,来数据分析直接影响corin素质的状况(中文翻译详细描述:Multiple linear regression ysis was applied to determine factors influencing corin levels. Levels of troponin I, NT-proBNP, and corin were normalized by log10 transformation)
即数据数据分析执法人员首先对troponin I、NT-proBNP、corin等状况由此而来log10切换成为自数据类型,然后便转化成到多重一维复出中所完成数据分析。(结果创作者未在文中所展现出)
随后创作者又完成了Cox复出基本概念数据分析,虽然Cox复出对绝对个数的类型不会多种各不相异的尽快,但是为了与多重一维复出中所数据类型扩展的表达手段相一致,故创作者对于troponin I、NT-proBNP、corin等状况依然有别于log10切换成后的表达手段归属于基本概念,结果见下备注示意图。
2、每变动一般而言当前的切换表达手段
在前期概要《想将连续数据类型切换成为容数据类型归属于复出基本概念,咋分三组?》中所,我们讲解到若从外部将完整的连续型数据类型扩展基本概念,复出表达式被阐释为每变动一个一个单位素质所引起的因数据类型的变动振荡,但有时这种变动振荡不太可能是很较弱的。
因此,我们可以将连续型绝对个数以一个主角好的一般而言间距,有别于等距分三组的手段,将其切换为容数据类型,然后便扩展到基本概念中所完成数据分析。这样分三组的必要在于,数据分析结果在实际的针灸运用于中所易于病征解读和运用于。
例如我们归属于的数据数据分析成年人比率为31-80岁,我们可以按照比率每10岁一三组完成分成,细分31-40、41-50、51-60、61-70、71-80共5个亚三组,主角4个容数据类型归属于基本概念完成数据分析。
但是如果某一状况的变异仅限于很大,此时按照上述方法有完成分三组时,就不太可能但会被细分很多亚三组,必需主角很多个容数据类型归属于基本概念,从而使得基本概念看上去“臃肿”;又或者数据集的变异仅限于大得多,无法便完成更小一个单位的分三组,此时就不便适合将其切换成为容数据类型的表达手段。
那么,如果遇到这种完全一致情况,应当该对连续型数据类型完成怎样的处置呢?我们便来看一篇JACC季刊2016年发备注的一篇文中[2]。
该数据数据分析Cox复出结果如下备注示意图,我们见到基本概念中所的以外数据类型,创作者都适用到了“per”这样一个词,例如per 5% change、per 0.1 U、per 100 ml/min,等等,这里的“per + 变动间距 + 一个单位”的表达手段,备注示的即为我们要讲解的,将连续型数据类型按照每变动一般而言当前的表达手段完成切换。
完全一致自为其中所2个状况为例来完成说明。例如Oxygen uptake efficiency slope,在数据数据分析成年人中所的平均素质为1655 U,5%-95%成年人的变动仅限于为846-2800 U,由此可见数据集的变动仅限于是非常大的。此时如果转化成完整连续型数据类型,每缩减1U,复出基本概念的HR个数不太可能就但会大得多,无法展现实际的针灸意涵;如果切换为容数据类型,又不太可能但会被分成成很多三组。
因此,创作者将该数据类型以每缩减100 U的表达手段转化成到基本概念中所,评价的是Oxygen uptake efficiency slope每缩减100 U时,数据数据分析成年人的丧生安全性但会增高9%(HR=0.91,95% CI:0.89-0.93)。
便例如Peak RER这个状况,数据数据分析成年人的平均素质为1.08 U,5%-95%成年人的变动仅限于为0.91-1.27 U,数据集振荡又非常小。此时如果转化成完整连续型数据类型,每缩减1U,复出基本概念的HR个数不太可能就但会很大,而且在针灸意涵的阐释上,由于成年人中所的数个数仅限于大得多,从外部变动1U的生物体完全一致情况极为常见,无法在针灸大部分病人中所给与运用于。如果切换为容数据类型,不太可能也无法便完成拆成。
因此,创作者将该数据类型以每缩减0.1 U的表达手段转化成到基本概念中所,勘查的是Peak RER每缩减0.1U时,数据数据分析成年人的丧生安全性但会增高6%(HR=0.94,95% CI:0.86-1.04),但无统计学显著性。
解读了这种变动表达手段的意涵,那么在实际的统计数据分析中所,如何实现这种表达手段的切换呢?本来很非常简单,假如,如果我们只想把该状况由每缩减1个一个单位转化成每缩减100个一个单位(变动振幅减少100倍),只必需将该完整数据类型相乘100代入基本概念无需;正因如此,如果我们只想把该状况由每缩减1个一个单位转化成每缩减0.1个一个单位(变动振幅加大10倍),只必需将该完整数据类型相乘10无需。
3、每变动一个平均数的切换表达手段
上面我们讲解了每变动一般而言当前的切换表达手段,例如每变动0.1、10或100个一个单位,但是我们常常在阅读古籍时,还但会见到另外一种变动表达手段,即绝对个数每变动一个平均数(per SD increase)的表达手段。那么这种变动表达手段又是什么从哪里冒出来的呢?
我们便来看一篇JACC季刊2016年发备注的一篇文中[3](好吧,原谅小咖独宠JACC,而但会努力争由此而来做到雨露均沾),Cox复出结果如下备注示意图。
我们见到,对于比率和收缩压,创作者都有别于了每缩减1个平均数的表达手段归属于到复出基本概念中所,即比率每缩减1个平均数,动脉粥样硬化性心脏病(ASCVD)的发作安全性缩减70%(HR=1.70,95% CI:1.32-2.19);收缩压每缩减1个平均数,ASCVD的发作安全性缩减25%(HR=1.25,95% CI:1.05-1.49)。
这里将连续型数据类型切换为per SD increase的表达手段转化成基本概念中所,又有什么多种各不相异的意涵么?
我们都本来,平均数是详细描述一个数据类型的所有检视个数与均数的平均线性某种程度的举例来说,对于计量一个单位相异的数据类型,平均数越远,数据集的线性某种程度就越远。在针灸实践中所,我们常用平均数来计算病理学的测试的仅限于。
假定测定的举例来说违抗自数据类型,根据自数据类型曲线下总面积推定,方差 ± SD区间内的总面积为68.27%,方差 ± 1.96 SD区间内的总面积为95%,方差 ± 2.58 SD区间内的总面积为99%,一般来说在分之一4个平均数的各地区,数据集已经基本覆盖总面积了95% 的样本。
因此,特别是对于罕见的非常规新举例来说,每缩减1个一个单位时的针灸意涵极为是很明确的完全一致前提,可以将其切换为每缩减1个SD的表达手段归属于复出基本概念中所,由此可以指导病征根据自身实际的测定结果,看看自己是处于成年人常见于素质的几个平均数各地区,进而来评核其对应当的安全性但会相反多少。
正因如此,实现这种表达手段的切换也非常非常简单,可以通过表列出两种手段:
1、在构建复出基本概念之前,将完整的连续型数据类型完成国际标准处置,便将国际标准后的绝对个数转化成到复出基本概念中所,所给与的复出系数即为绝对个数每缩减1个SD时对因数据类型的直接影响(特别注意这里只对绝对个数完成国际标准处置)。
2、如果未对完整数据类型完成国际标准处置,也可以从外部把完整数据类型转化成到基本概念中所,得出未标化的复出系数(Unstandardized Coefficients),然后便相乘该绝对个数的平均数,此时即为绝对个数每缩减1个SD时对因数据类型的直接影响。
不过挑剔的同学但会见到,SPSS在控制器未标化的复出系数(Unstandardized Coefficients)的同时也但会控制器国际标准复出系数(Standardized Coefficients),那么这个国际标准复出系数又是什么恶鬼,它与上述未标化的复出系数,以及每缩减1个SD的复出系数又有什么区别呢,更进一步的文中中所但会有讲解。
参考古籍:
[1] J Am Coll Cardiol. 2016 May 3;67(17):2008-14
[2] J Am Coll Cardiol. 2016 Feb 23;67(7):780-9
[3] J Am Coll Cardiol. 2016 May 31;67(21):2480-7
相关新闻
相关问答