最近我们被客户要求撰写关于非参数估计的研究报告。在应用的设置中,我们经常遇到分类数据类型和连续数据类型的组合。 熟悉传统非参数核平滑方法的人会明白,这些方法假定基础数据本质上是连续的,但事实往往并非如此。 一种同时处理连续数据和分类数据存在的方法称为“频率”方法,其中数据被分解为对应于分类变量假设值的子集(“单元格”),然后才将密度或位置应用于每个单元格中剩余的连续数据。
非参数频率方法被广泛认为是不令人满意的,因为它们通常会导致使用样品分裂引起的大量效率损失。
在本文中,我们通过许多经验应用来说明R的使用。 选择每个应用程序是为了在应用的环境中突出显示特定的计量经济学方法。
间歇泉是位于黄石国家公园的旅游景点。 这个包含 n = 272 次观测的著名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和等待下一次喷发的时间(以分钟为单位)(等待)。 公园服务使用此数据集来模拟预期持续时间,具体取决于自上次喷发以来经过的时间量。 然而,对联合分布进行建模本身就很有意义,并且核估计器很容易揭示联合 PDF 和 CDF 的基本双峰性质。 在本例中,我们加载旧的间歇泉数据并计算密度和分布函数。 结果如图所示。 请注意,在此示例中,我们一步进行带宽选择和估计
- R> Ful <- npst(~ eruptions + waiting, data = fal)
- R> summary(f.fful)
