非线性回归模型-ZhiMap思维导图

非线性回归模型
进入思维导图模式
- 最大似然估计法MLE
  - 前提：扰动项正态分布
    - 检验
      - 画图
        画残差直方图，与正态分布密度函数比较
        Stata ： .hist <变量名>,normal
        核密度图与正态分布比较
        Stata： .kdensity <变量名>,normal lpattern("-")
        散点图QQ plot：正态分布的分位数-残差分位数
        Stata： .qnorm <变量名>
      - 统计检验
        雅克-贝拉检验
        变量
        偏度 $E[\dfrac{x-\mu}{ σ }]^3$
        峰度 $E[\dfrac{x-\mu}{ σ }]^4$
        超额峰度 $E[\dfrac{x-\mu}{ σ }]^4-3$
        残差
        偏度样本估计值 $\dfrac{1}{ n\hat{ σ }^3 } \sum\limits_{i=1}^n e_i^3$
        超额峰度样本估计值 $\dfrac{1}{ n\hat{ σ }^4 } \sum\limits_{i=1}^n e_i^4-3$
        统计量
        $JB=\dfrac{n}{6}[(\dfrac{1}{ n\hat{ σ }^3 } \sum\limits_{i=1}^n e_i^3)^2+\dfrac{1}{4}(\dfrac{1}{ n\hat{ σ }^4 } \sum\limits_{i=1}^n e_i^4-3)^2] \xrightarrow{d} χ ^2(2)$
        Stata
        显示偏度和峰度
        .su <>,detail
        计算JB统计量
        .di (r(N)/6)*((r(skewness)^2)+[(1/4)*(r(kurtosis)-3)^2])
        计算JB对应的p值
        .di chi2tail(2,<JB值>)
        D'Agostino检验
        Stata： .sktest <>
        非参数Shapiro-Wilk检验
        Stata： .swilk <>
        非参数Shapiro-Francia检验
        Stata: .sfrancia <>
    - 变正态分布
      - 取对数
        Stata: .gen ln<>=log<>
  - 基本思想：参数 $θ$ 取何值时，取到该样本的可能性最大
  - 数学操作：似然函数 L( θ,y）为概率密度函数的乘积，通常取对数，对 θ 一阶导为零
    - 一阶条件 $\Rightarrow$
      - $s( θ ,y)= \frac{ \partial ln( θ ,y)}{ \partial θ } = \begin{bmatrix} \frac{ \partial ln( θ ,y)}{ \partial θ_1 } \\ \vdots \\ \frac{ \partial ln( θ ,y)}{ \partial θ_K } \end{bmatrix}$ =0
      - 性质
        似然函数正确，得分函数期望为零即 $E[s (θ _0,y)]=0$
        分解： $s (θ ,y)= {\displaystyle \sum_{i=1}^{n}{s_i( θ ;y_i)} }$
    - 二阶条件 $\Rightarrow$
      - 对数似然函数黑塞矩阵 $\frac{ \partial ^2ln(θ;y)}{ \partial θ \partial θ'} = \frac{ \partial ( \frac{ \partial ln(θ;y)}{ \partial θ} )}{ \partial θ'}$ 为负定矩阵 $\Rightarrow$ 严格凹函数
      - 黑塞矩阵分解 $H(θ;y)= {\displaystyle \sum_{i=1}^{n}{H_i(θ;y)} }$
        第i个观测值对黑塞矩阵的贡献
  - 估计
    - 估计步骤
      - 用假想值 $\tilde{ β } 和 \tilde{ σ }^2$ 代替真实值
      - 第一步：选择 $\tilde{ β }$ 使得 $ln( \tilde{ β }, \tilde{ σ }^2 )$ 最大
      - 第二步：代入 $\tilde{ β }$ ，选择最优 $\tilde{ σ }^2$
    - 结论
      - 对回归系数的估计与OLS完全一样
      - 对扰动方差 $σ^2$ 估计与OLS不同，在大样本下相同
      - 估计量 $\hat{ σ }^2$ $\hat{ σ }_{ML}^2$ 小样本下有偏
    - 数值解
      - $θ$ 为一维
        网格搜索
      - θ 为多维
        迭代法
        高斯-牛顿法
        牛顿-拉弗森法
  - 研究MLE的大样本性质
    - 定义信息矩阵
      - 对数似然函数的黑塞矩阵期望值的负数， $I( θ )=-E[ \frac{ \partial ^2lnL( θ ;y)}{ \partial θ \partial θ '} ]$
        对数似然函数在 $θ$ 空间的平均曲率
        包含 $θ$ 是否容易估计的信息
        二阶偏导不易计算，表达为一阶偏导乘积形式
      - 信息矩阵等式
        $I( θ _0)=-E[ \frac{ \partial ^2lnL( θ _0;y)}{ \partial θ \partial θ '} ]=E[ \frac{ \partial lnL( θ _0;y)}{ \partial θ } \cdot \frac{ \partial lnL( θ _0;y)}{ \partial θ' } ]=E[s( θ _0;y)s( θ _0;y)']$
      - 得分函数的方差为信息矩阵
        $θ = θ_0$ 处， $I(θ_0)=Var[s( θ _0;y)]$
    - 无偏估计的最小方差
      - 克莱默-劳下限
        $\hat{ θ }为真实参数 θ _0的任意无偏估计，则在一定的正则条件下，Var(\hat\theta) \geqslant [I( θ _0)]^{-1}$
        在一定的正则条件下，对于真实参数 $θ _0$ 的渐进正态一致估计所能达到的最小方差为 $[I( θ _0)]^{-1}$
      - 高斯马尔可夫定理+扰动项正态分布假定 $\Rightarrow$ OLS为BUE
      - MLE不一定是无偏估计
    - 大样本性质
      - 前提：满足一定的正则条件
        一致性
        $p {\displaystyle \lim_{n \rightarrow \infty}{\hat{θ}_{ML}} }= θ _0$
        渐近有效性
        渐近协方差矩阵 $Avar(\hat{ θ }_{ML})=n[I( θ _0)]^{-1}$ 在大样本下达到了克莱默-劳下限
        渐近正态
        $\sqrt{n} (\hat{θ}_{ML}- θ _0) \xrightarrow{d}N(0,[I( θ _0)]^{-1})$ ,可近似认为 $\hat{θ}_{ML} \xrightarrow{d}N( θ _0,[I( θ _0)]^{-1})$
      - 不变性
        将参数 $θ$ 变换为 $α =g( θ )$ ，则 $α$ 的最大似然估计就是 $\hat{α}_{ML}=g(\hat{ θ }_{ML})$
        $g(\cdot)$ 可以是多维函数
        $α$ 与 $θ$ 不必有一一对应的函数关系
    - 渐进协方差矩阵
      - 渐近协方差矩阵 $Avar(\hat{ θ }_{ML})=n[I( θ _0)]^{-1}$ $=n\{-E[ \frac{ \partial ^2lnL( θ _0;y)}{ \partial θ \partial θ '} ] \}^{-1}$
      - 估计
        似然函数正确
        期望值法
        知道黑塞矩阵具体形式，则直接以 $\hat{ θ }_{ML}$ 代替 ${ θ }_{0}$ 即可得
        观测信息矩阵法
        以 $\hat{ θ }_{ML}$ 替代 ${ θ }_{0}$ 后，直接忽略期望算子
        梯度向量外积法(BHHH法)
        利用信息矩阵等式，用 $\sum \limits_{i=1}^{n}\hat{s}_i \hat{s}_i'$ 估计 $I( θ _0)$ ，其中 $\hat{s}_i = \frac{ \partial lnf(y_i;\hat{\theta}_{ML})}{ \partial \theta}$
        只需计算一阶偏导数，该协方差估计量总是负定的
  - 准最大似然估计法QMLE
    - 随机变量不服从正态分布，但仍使用最大似然估计
    - 一致估计量的条件
      - 概率密度函数属于线性指数分布族
        概率密度函数形式为 $f(y;\theta)=\dfrac{p(y)e^{r(\theta)}}{q(\theta)}$
      - 条件期望 $E(y|x)$ 的函数形式设定正确
    - 大多不一致
      - 胡贝尔-怀特稳健标准误
        =异方差稳健标准误
        样本数据为iid(独立同分布)
        不确定模型是否设定正确，但QMLE仍为一致估计量
        Stata 选择项“r”或“vce(robust)”
    - 聚类标准误
      - 样本数据分为若干组，且同一组内观测值存在自相关
      - Stata 自由选择项 “vce (cluster clustvar)”
  - 三类渐进等价的统计检验
    - 检验原假设： $H_0：\beta = \beta _0$
      - Wald检验
        $β$ 的无约束估计量 $\hat{β}_U$ 与 $β_0$ 的距离
        $W=(\hat{\beta}_U-\beta_0)'[Var(\hat{\beta}_U)]^{-1}(\hat{\beta}_U-\beta_0) \xrightarrow{d} χ ^2(K)$ ， $K$ 为约束条件个数
      - 似然比检验LR
        无约束的似然函数最大值 $lnL(\hat{\beta}_U)$ 比有约束的似然函数最大值 $lnL(\hat{\beta})$ 更大
        若 $H_0$ 正确，则 $lnL(\hat{\beta}_U)-lnL(\hat{\beta}_R)$ 不应该很大
        统计量 $LR=2[lnL(\hat{\beta}_U)-lnL(\hat{\beta}_R)] \xrightarrow{d} χ ^2(K)$
        Stata lrtest命令
      - 拉格朗日乘子检验
        有约束条件的对数似然函数最大化问题： $\max\limits_{ \tilde{\beta} } lnL(\tilde{\beta}) \\ s.t. \beta=\beta_0$
        统计量 $LM=[ \frac{ \partial lnL(\hat{\beta}_R)}{ \partial \tilde{\beta} } ]'[I(\hat{\beta}_R)]^{-1}[ \frac{ \partial lnL(\hat{\beta}_R)}{ \partial \tilde{\beta} } ] \xrightarrow{d} χ ^2(K)$
      - 三类检验大样本下渐近等价
        正态分布+线性假设 $\Rightarrow$ W $\geqslant$ $LR$ $\geqslant$ $LM$
        Wald检验使用最广，但不具有不变性
        无约束估计方便，使用Wald
        有约束估计方便，使用LM
- 非线性最小二乘法NLS

非线性回归模型

​最大似然估计法MLE

​前提：扰动项正态分布

​检验

​画图

​画残差直方图，与正态分布密度函数比较

​Stata ： .hist <变量名>,normal

​核密度图与正态分布比较

​Stata： .kdensity <变量名>,normal lpattern("-")

​散点图QQ plot：正态分布的分位数-残差分位数

​Stata： .qnorm <变量名>

​统计检验

​雅克-贝拉检验

​变量

​偏度 E[x−μσ]3E[\dfrac{x-\mu}{ σ }]^3E[σx−μ​]3

​峰度 E[x−μσ]4E[\dfrac{x-\mu}{ σ }]^4E[σx−μ​]4

​超额峰度 E[x−μσ]4−3E[\dfrac{x-\mu}{ σ }]^4-3E[σx−μ​]4−3

​残差

​偏度样本估计值 1nσ^3∑i=1nei3\dfrac{1}{ n\hat{ σ }^3 } \sum\limits_{i=1}^n e_i^3nσ^31​i=1∑n​ei3​

​超额峰度样本估计值 1nσ^4∑i=1nei4−3\dfrac{1}{ n\hat{ σ }^4 } \sum\limits_{i=1}^n e_i^4-3nσ^41​i=1∑n​ei4​−3

统计量

​Stata

显示偏度和峰度

​.su <>,detail

​计算JB统计量

​.di (r(N)/6)*((r(skewness)^2)+[(1/4)*(r(kurtosis)-3)^2])

​计算JB对应的p值

​.di chi2tail(2,<JB值>)

​D'Agostino检验

​Stata： .sktest <>

​非参数Shapiro-Wilk检验

​Stata： .swilk <>

​非参数Shapiro-Francia检验

​Stata: .sfrancia <>

​变正态分布

​取对数

​Stata: .gen ln<>=log<>

​基本思想：参数 θ θ θ 取何值时，取到该样本的可能性最大

​数学操作：似然函数 L( θ,y）为概率密度函数的乘积，通常取对数，对 θ 一阶导为零

​一阶条件⇒ \Rightarrow ⇒梯度向量(得分向量)

性质

​似然函数正确，得分函数期望为零即 E[s(θ0,y)]=0E[s (θ _0,y)]=0E[s(θ0​,y)]=0

​分解： s(θ,y)=∑i=1nsi(θ;yi)s (θ ,y)= {\displaystyle \sum_{i=1}^{n}{s_i( θ ;y_i)} } s(θ,y)=i=1∑n​si​(θ;yi​)

二阶条件 ⇒ \Rightarrow ⇒

​黑塞矩阵分解 H(θ;y)=∑i=1nHi(θ;y)H(θ;y)= {\displaystyle \sum_{i=1}^{n}{H_i(θ;y)} } H(θ;y)=i=1∑n​Hi​(θ;y)

​第i个观测值对黑塞矩阵的贡献

​估计

​估计步骤

用假想值 β~和σ~2 \tilde{ β } 和 \tilde{ σ }^2β~​和σ~2 代替真实值

​第一步：选择 β~ \tilde{ β }β~​ 使得 ln(β~,σ~2)ln( \tilde{ β }, \tilde{ σ }^2 )ln(β~​,σ~2) 最大

​第二步：代入 β~\tilde{ β }β~​ ，选择最优 σ~2\tilde{ σ }^2σ~2

​结论

对回归系数的估计与OLS完全一样

​对扰动方差 σ2σ^2σ2 估计与OLS不同，在大样本下相同

​估计量 σ^2\hat{ σ }^2σ^ML2\hat{ σ }_{ML}^2σ^ML2​ 小样本下有偏

​数值解

​ θ θ θ 为一维

​网格搜索

​θ 为多维

​迭代法

​高斯-牛顿法

​牛顿-拉弗森法

​研究MLE的大样本性质

​定义信息矩阵

​对数似然函数的黑塞矩阵期望值的负数， I(θ)=−E[∂2lnL(θ;y)∂θ∂θ′]I( θ )=-E[ \frac{ \partial ^2lnL( θ ;y)}{ \partial θ \partial θ '} ]I(θ)=−E[∂θ∂θ′∂2lnL(θ;y)​]

​对数似然函数在θ 空间的平均曲率

​包含 θθθ 是否容易估计的信息

​二阶偏导不易计算，表达为一阶偏导乘积形式

​信息矩阵等式

得分函数的方差为信息矩阵

​ θ=θ0 θ = θ_0θ=θ0​ 处， I(θ0)=Var[s(θ0;y)]I(θ_0)=Var[s( θ _0;y)]I(θ0​)=Var[s(θ0​;y)]

​无偏估计的最小方差

​克莱默-劳下限

​在一定的正则条件下，对于真实参数 θ0 θ _0θ0​ 的渐进正态一致估计所能达到的最小方差为 [I(θ0)]−1[I( θ _0)]^{-1}[I(θ0​)]−1

​高斯马尔可夫定理+扰动项正态分布假定 ⇒ \Rightarrow ⇒ OLS为BUE

​MLE不一定是无偏估计

​大样本性质

​前提：满足一定的正则条件

​一致性

​ plim⁡n→∞θ^ML=θ0p {\displaystyle \lim_{n \rightarrow \infty}{\hat{θ}_{ML}} }= θ _0pn→∞lim​θ^ML​=θ0​

最大似然估计法MLE

前提：扰动项正态分布

检验

画图

画残差直方图，与正态分布密度函数比较

Stata ： .hist <变量名>,normal

核密度图与正态分布比较

Stata： .kdensity <变量名>,normal lpattern("-")

散点图QQ plot：正态分布的分位数-残差分位数

Stata： .qnorm <变量名>

统计检验

雅克-贝拉检验

变量

偏度 $E[\dfrac{x-\mu}{ σ }]^3$

峰度 $E[\dfrac{x-\mu}{ σ }]^4$

超额峰度 $E[\dfrac{x-\mu}{ σ }]^4-3$

残差

偏度样本估计值 $\dfrac{1}{ n\hat{ σ }^3 } \sum\limits_{i=1}^n e_i^3$

超额峰度样本估计值 $\dfrac{1}{ n\hat{ σ }^4 } \sum\limits_{i=1}^n e_i^4-3$

Stata

.su <>,detail

计算JB统计量

.di (r(N)/6)((r(skewness)^2)+[(1/4)(r(kurtosis)-3)^2])

计算JB对应的p值

.di chi2tail(2,<JB值>)

D'Agostino检验

Stata： .sktest <>

非参数Shapiro-Wilk检验

Stata： .swilk <>

非参数Shapiro-Francia检验

Stata: .sfrancia <>

变正态分布

取对数

Stata: .gen ln<>=log<>

基本思想：参数 $θ$ 取何值时，取到该样本的可能性最大

数学操作：似然函数 L( θ,y）为概率密度函数的乘积，通常取对数，对 θ 一阶导为零

一阶条件 $\Rightarrow$

似然函数正确，得分函数期望为零即 $E[s (θ _0,y)]=0$

分解： $s (θ ,y)= {\displaystyle \sum_{i=1}^{n}{s_i( θ ;y_i)} }$

二阶条件 $\Rightarrow$

黑塞矩阵分解 $H(θ;y)= {\displaystyle \sum_{i=1}^{n}{H_i(θ;y)} }$

第i个观测值对黑塞矩阵的贡献

估计

估计步骤

用假想值 $\tilde{ β } 和 \tilde{ σ }^2$ 代替真实值

第一步：选择 $\tilde{ β }$ 使得 $ln( \tilde{ β }, \tilde{ σ }^2 )$ 最大

第二步：代入 $\tilde{ β }$ ，选择最优 $\tilde{ σ }^2$

结论

对扰动方差 $σ^2$ 估计与OLS不同，在大样本下相同

估计量 $\hat{ σ }^2$ $\hat{ σ }_{ML}^2$ 小样本下有偏

数值解

$θ$ 为一维

网格搜索

θ 为多维

迭代法

高斯-牛顿法

牛顿-拉弗森法

研究MLE的大样本性质

定义信息矩阵

对数似然函数的黑塞矩阵期望值的负数， $I( θ )=-E[ \frac{ \partial ^2lnL( θ ;y)}{ \partial θ \partial θ '} ]$

对数似然函数在 $θ$ 空间的平均曲率

包含 $θ$ 是否容易估计的信息

二阶偏导不易计算，表达为一阶偏导乘积形式

信息矩阵等式

$θ = θ_0$ 处， $I(θ_0)=Var[s( θ _0;y)]$

无偏估计的最小方差

克莱默-劳下限

在一定的正则条件下，对于真实参数 $θ _0$ 的渐进正态一致估计所能达到的最小方差为 $[I( θ _0)]^{-1}$

高斯马尔可夫定理+扰动项正态分布假定 $\Rightarrow$ OLS为BUE

MLE不一定是无偏估计

大样本性质

前提：满足一定的正则条件

一致性

$p {\displaystyle \lim_{n \rightarrow \infty}{\hat{θ}_{ML}} }= θ _0$

渐近有效性

渐近协方差矩阵 $Avar(\hat{ θ }_{ML})=n[I( θ _0)]^{-1}$ 在大样本下达到了克莱默-劳下限

渐近正态

$\sqrt{n} (\hat{θ}_{ML}- θ _0) \xrightarrow{d}N(0,[I( θ _0)]^{-1})$ ,可近似认为 $\hat{θ}_{ML} \xrightarrow{d}N( θ _0,[I( θ _0)]^{-1})$

不变性

将参数 $θ$ 变换为 $α =g( θ )$ ，则 $α$ 的最大似然估计就是 $\hat{α}_{ML}=g(\hat{ θ }_{ML})$