tokenpocket|aic

作者: tokenpocket
2024-03-07 16:57:00

模型选择方法：AIC和BIC - 知乎

模型选择方法：AIC和BIC - 知乎首发于统计与机器学习切换模式写文章登录/注册模型选择方法：AIC和BIC慕容然努力奔跑，方能轻步前行。经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterionBIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterionHQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterionL是在该模型下的最大似然，n是数据数量，k是模型的变量个数三个模型A, B, C，在通过这些规则计算后，我们知道B模型是三个模型中最好的，但是不能保证B这个模型就能够很好地刻画数据，因为很有可能这三个模型都是非常糟糕的，B只是烂苹果中的相对好的苹果而已。这些规则理论上是比较漂亮的，但是实际在模型选择中应用起来还是有些困难的，我们不可能对所有这些模型进行一一验证AIC, BIC，HQ规则来选择模型，工作量太大。AIC赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上。AIC越小，模型越好，通常选择AIC最小的模型在一般的情况下，AIC可以表示为【2】：AIC=(2k-2L)/n 它的假设条件是模型的误差服从独立正态分布。其中：k是所拟合模型中参数的数量，L是对数似然值,n是观测值数目。k小意味着模型简洁，L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。具体到，L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量，sse为残差平方和，L主要取决于残差平方和，为负数（所以还可以写成：AIC = （2k + 2|L|）/n解释【1】：在AIC之前，我们需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。对于一批数据，假设存在一个真实的模型f，还有一组可供选择的模型g1、g2、g3…gi，而K-L 距离就是用模型 gi 去估计真实模型 f 过程中损失的信息。可见K-L 距离越小，用模型 gi 估计真实模型 f 损失的信息越少，相应的模型 gi 越好。然后，问题来了。怎么计算每个模型 gi 和真实模型 f 的距离呢？因为我们不知道真实模型 f，所以没办法直接计算每个模型的K-L距离，但可以通过信息损失函数去估计K-L距离。日本统计学家Akaike发现log似然函数和K-L距离有一定关系，并在1974年提出Akaike information criterion，AIC。通常情况下，AIC定义为：AIC=2k-2ln(L)，其中k是模型参数个数，L是似然函数。-2ln(L)反映模型的拟合情况，当两个模型之间存在较大差异时，差异主要体现在似然函数项-2ln(L)，当似然函数差异不显著时，模型参数的惩罚项2k则起作用，随着模型中参数个数增加，2k增大，AIC增大，从而参数个数少的模型是较好的选择。AIC不仅要提高模型拟合度，而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。然后，选一个AIC最小的模型就可以了。 BICBIC=-2 ln(L) + ln(n)*kBIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC的原理是不同的，AIC是从预测角度，选择一个好的模型用来预测，BIC是从拟合角度，选择一个对现有数据拟合最好的模型，从贝叶斯因子的解释来讲，就是边际似然最大的那个模型作者：龙鹰图腾223链接：https://www.jianshu.com/p/4c8cf5df2092来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。另外解释说明首先看几个问题1、实现参数的稀疏有什么好处？一个好处是可以简化模型、避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数作用，会引发过拟合。并且参数少了模型的解释能力会变强。2、参数值越小代表模型越简单吗？是。越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反应了在这个区间的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。一、AIC1、简介AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性(Goodness of fit)的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。2、表达式k为参数数量L是似然函数增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过拟合的情况。所以优先考虑的模型应是AIC值最小的那一个，假设在n个模型中作出选择，可一次算出n个模型的AIC值，并找出最小AIC值对应的模型作为选择对象。一般而言，当模型复杂度提高（k）增大时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。二、BIC1、简介 BIC= Bayesian Information Criterions，贝叶斯信息准则。2、表达式BIC=ln(n)k-2ln(L)L是似然函数n是样本大小K是参数数量三、总结1、共性构造这些统计量所遵循的统计思想是一致的，就是在考虑拟合残差的同事，依自变量个数施加“惩罚”。2、不同点BIC的惩罚项比AIC大，考虑了样本个数，样本数量多，可以防止模型精度过高造成的模型复杂度过高。AIC和BIC前半部分是一样的，BIC考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。编辑于 2020-05-21 11:15回归模型线性回归回归分析赞同 24331 条评论分享喜欢收藏申请转载文章被以下专栏收录统计与机

AIC（赤池信息准则）_百度百科

赤池信息准则）_百度百科网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心AIC是一个多义词，请在下列义项上选择浏览（共6个义项）展开添加义项AIC播报讨论上传视频赤池信息准则收藏查看我的收藏0有用+10本词条由“科普中国”科学百科词条编写与应用工作项目审核。AIC信息准则即Akaike information criterion [1]，是衡量统计模型拟合优良性(Goodness of fit)的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。中文名赤池信息量准则外文名Akaike information criterion简称AIC定义对多种模型作选择的判别方法创立人赤池弘次目录1提出背景2数学表达及应用3AIC的延伸应用数字信号处理中对多种模型作选择的判别方法。在一般的情况下，AIC可以表示为： AIC=2k-2ln(L)其中：k是参数的数量，L是似然函数。假设条件是模型的误差服从独立正态分布。让n为观察数，SSR(SUM SQAURE OF RESIDUE)为残差平方和，那么AIC变为： AIC=2k+nln(SSR/n)增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。假设在n个模型中做出选择，可一次算出n个模型的AIC值，并找出最小AIC值相对应的模型作为选择对象。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。提出背景播报编辑1971年由赤池弘次提出，该准则于1973年以概念简介的形式发表。1974年首次出现在赤池弘次发表的正式论文中。截止2018年6月，该论文已被超过4万次引用。数学表达及应用播报编辑AIC公式如图1所示。图1其中e^(2k/T)为惩罚因子(penalty factor)。AIC指标是常用的利用趋势估计预测模型的指标之一，其他三种主要指标为Mean Squared Error (MSE)，s^2和Schwarz information criterion (SIC)。s^2和SIC的penalty factor依次为(T/T-K)及T^(k/T)。假设自由度从0变动到0.2，s^2、AIC及SIC的惩罚因子的变化将如图2所示：其中s^2的惩罚因子最为敏感，AIC次之，SIC的惩罚因子敏感度最低。图2AIC的延伸应用播报编辑1. AICcAICc首次由Sugiura [2]提出，在样本小的情况下，AIC转变为AICc，公式如图3:图3Burnham和Anderson（2004） [3]提出，当n增加时，AICc收敛成AIC。所以AICc可应用在任何样本大小的情况下.McQuarrie 和 Tsai（1998）把AICc定义为 [4]：McQuarrie 和 Tsai提出的另一个紧密相关指标为AICu：2. QAIC（Quasi-AIC）QAIC公式表达为：其中：c是方差膨胀因素。因此QAIC可以调整过度离散（或者缺乏拟合）。另外，在小样本情况下, QAIC表示为：新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号京公网安备110000020000

最优模型选择准则：AIC和BIC - 知乎

最优模型选择准则：AIC和BIC - 知乎切换模式写文章登录/注册最优模型选择准则：AIC和BICSEOer热爱生活，爱seo转载自：标点符链接：最优模型选择准则：AIC和BIC - 标点符作者：钱魏Way很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时带来一个机器学习中非常普遍的问题——过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，信息准则 = 复杂度惩罚 + 精度惩罚，值越小越好。复杂度惩罚：对应“参数数量”、“训练数据量”，数值变大表明模型复杂度增加，容易过拟合精度惩罚：对应“负log-似然函数”，数值变大表明似然函数降低，模型对数据集的描述能力下降1、实现参数的稀疏有什么好处？一个好处是可以简化模型、避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数作用，会引发过拟合。并且参数少了模型的解释能力会变强。2、参数值越小代表模型越简单吗？是。越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反应了在这个区间的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。此处我们介绍一下常用的两个模型选择方法——赤池信息准则（Akaike Information Criterion，AIC）和贝叶斯信息准则（Bayesian Information Criterion，BIC）。目录AICBICAIC和BIC该如何选择？AIC/BIC实战：Lasso模型选择相关文章:AIC赤池信息量准则（英语：Akaike information criterion，简称AIC）是评估统计模型的复杂度和衡量统计模型“拟合”资料之优良性(Goodness of fit)的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基础上。在一般的情况下，AIC可以表示为：AIC=2k−2ln(L)其中：k是参数的数量L是似然函数假设条件是模型的误差服从独立正态分布。让n为观察数，RSS为残差平方和，那么AIC变为：AIC=2k+nln(RSS/n)增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但尽量避免出现过度拟合（Overfitting）的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息量准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。当两个模型之间存在较大差异时，差异主要体现在似然函数项，当似然函数差异不显著时，上式第一项，即模型复杂度则起作用，从而参数个数少的模型是较好的选择。一般而言，当模型复杂度提高（k增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。AIC不仅要提高模型拟合度（极大似然），而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。BIC贝叶斯信息准则，也称为Bayesian Information Criterion（BIC）。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。公式为：BIC=ln(n)k–2ln(L)其中，k为模型参数个数n为样本数量L为似然函数ln(n)k惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。与AIC相似，训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC该如何选择？AIC和BIC的原理是不同的，AIC是从预测角度，选择一个好的模型用来预测，BIC是从拟合角度，选择一个对现有数据拟合最好的模型，从贝叶斯因子的解释来讲，就是边际似然最大的那个模型。共性构造这些统计量所遵循的统计思想是一致的，就是在考虑拟合残差的同事，依自变量个数施加“惩罚”。不同点BIC的惩罚项比AIC大，考虑了样本个数，样本数量多，可以防止模型精度过高造成的模型复杂度过高。AIC和BIC前半部分是一样的，BIC考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC前半部分是惩罚项，当n≥8n≥8时，kln(n)≥2kkln(n)≥2k，所以，BIC相比AIC在大数据量时对模型参数惩罚得更多，导致BIC更倾向于选择参数少的简单模型。AIC/BIC实战：Lasso模型选择本示例利用Akaike信息判据(AIC)、Bayes信息判据(BIC)和交叉验证，来筛选Lasso回归的正则化项参数alpha的最优值。通过LassoLarsIC得到的结果，是基于AIC/BIC判据的。这种基于信息判据(AIC/BIC)的模型选择非常快，但它依赖于对自由度的正确估计。该方式的假设模型必需是正确, 而且是对大样本(渐近结果)进行推导，即，数据实际上是由该模型生成的。当问题的背景条件很差时(特征数大于样本数)，该模型选择方式会崩溃。对于交叉验证，我们使用20-fold的2种算法来计算Lasso路径：LassoCV类实现的坐标下降和LassoLarsCV类实现的最小角度回归(Lars)。这两种算法给出的结果大致相同，但它们在执行速度和数值误差来源方面有所不同。Lars仅为路径中的每个拐点计算路径解决方案。因此，当只有很少的弯折时，也就是很少的特征或样本时，它是非常有效的。此外，它能够计算完整的路径，而不需要设置任何元参数。与之相反，坐标下降算法计算预先指定的网格上的路径点(本示例中我们使用缺省值)。因此，如果网格点的数量小于路径中的拐点的数量，则效率更高。如果特征数量非常大，并且有足够的样本来选择大量特征，那么这种策略就非常有趣。在数值误差方面，Lars会因变量间的高相关度而积累更多的误差，而坐标下降算法只会采样网格上路径。注意观察alpha的最优值是如何随着每个fold而变化。这是为什么当估交叉验证选择参数的方法的性能时，需要使用嵌套交叉验证的原因:这种参数的选择对于不可见数据可能不是最优的。import timeimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LassoCV, LassoLarsCV, LassoLarsICfrom sklearn import datasets# 这样做是为了避免在np.log10时除零EPSILON = 1e-4diabetes = datasets.load_diabetes()X = diabetes.datay = diabetes.targetrng = np.random.RandomState(42)X = np.c_[X, rng.randn(X.shape[0], 14)] # 添加一些不好的特征# 将最小角度回归得到的数据标准化，以便进行比较X /= np.sqrt(np.sum(X ** 2, axis=0))# LassoLarsIC: 用BIC/AIC判据进行最小角度回归model_bic = LassoLarsIC(criterion='bic')t1 = time.time()model_bic.fit(X, y)t_bic = time.time() - t1alpha_bic_ = model_bic.alpha_model_aic = LassoLarsIC(criterion='aic')model_aic.fit(X, y)alpha_aic_ = model_aic.alpha_def plot_ic_criterion(model, name, color): alpha_ = model.alpha_ + EPSILON alphas_ = model.alphas_ + EPSILON criterion_ = model.criterion_ plt.plot(-np.log10(alphas_), criterion_, '--', color=color, linewidth=3, label='%s 判据' % name) plt.axvline(-np.log10(alpha_), color=color, linewidth=3, label='alpha: %s 估计' % name) plt.xlabel('-log(alpha)') plt.ylabel('判据')plt.figure()plot_ic_criterion(model_aic, 'AIC', 'b')plot_ic_criterion(model_bic, 'BIC', 'r')plt.legend()plt.title('模型选择的信息判据 (训练时间:%.3fs)' % t_bic)plt.show()import timeimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LassoCV, LassoLarsCV, LassoLarsICfrom sklearn import datasets# 这样做是为了避免在np.log10时除零EPSILON = 1e-4diabetes = datasets.load_diabetes()X = diabetes.datay = diabetes.targetrng = np.random.RandomState(42)X = np.c_[X, rng.randn(X.shape[0], 14)] # 添加一些不好的特征# 将最小角度回归得到的数据标准化，以便进行比较X /= np.sqrt(np.sum(X ** 2, axis=0))# LassoLarsIC: 用BIC/AIC判据进行最小角度回归model_bic = LassoLarsIC(criterion='bic')t1 = time.time()model_bic.fit(X, y)t_bic = time.time() - t1alpha_bic_ = model_bic.alpha_model_aic = LassoLarsIC(criterion='aic')model_aic.fit(X, y)alpha_aic_ = model_aic.alpha_# LassoCV: 坐标下降# 计算路径t1 = time.time()model = LassoCV(cv=20).fit(X, y)t_lasso_cv = time.time() - t1# 显示结果m_log_alphas = -np.log10(model.alphas_ + EPSILON)plt.figure()ymin, ymax = 2300, 3800plt.plot(m_log_alphas, model.mse_path_, ':')plt.plot(m_log_alphas, model.mse_path_.mean(axis=-1), 'k', label='平均', linewidth=2)plt.axvline(-np.log10(model.alpha_ + EPSILON), linestyle='--', color='k', label='alpha:CV估计')plt.legend()plt.xlabel('-log(alpha)')plt.ylabel('均方惨差')plt.title('每折上的均方残差: 坐标下降法' '(训练时间: %.2fs)' % t_lasso_cv)plt.axis('tight')plt.ylim(ymin, ymax)plt.show()import timeimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LassoCV, LassoLarsCV, LassoLarsICfrom sklearn import datasets# 这样做是为了避免在np.log10时除零EPSILON = 1e-4diabetes = datasets.load_diabetes()X = diabetes.datay = diabetes.targetrng = np.random.RandomState(42)X = np.c_[X, rng.randn(X.shape[0], 14)] # 添加一些不好的特征# 将最小角度回归得到的数据标准化，以便进行比较X /= np.sqrt(np.sum(X ** 2, axis=0))# LassoLarsIC: 用BIC/AIC判据进行最小角度回归model_bic = LassoLarsIC(criterion='bic')t1 = time.time()model_bic.fit(X, y)t_bic = time.time() - t1alpha_bic_ = model_bic.alpha_model_aic = LassoLarsIC(criterion='aic')model_aic.fit(X, y)alpha_aic_ = model_aic.alpha_ymin, ymax = 2300, 3800# LassoLarsCV: 最小角度回归法# Compute pathsprint("Computing regularization path using the Lars lasso...")t1 = time.time()model = LassoLarsCV(cv=20).fit(X, y)t_lasso_lars_cv = time.time() - t1# Display resultsm_log_alphas = -np.log10(model.cv_alphas_ + EPSILON)plt.figure()plt.plot(m_log_alphas, model.mse_path_, ':')plt.plot(m_log_alphas, model.mse_path_.mean(axis=-1), 'k', label='平均', linewidth=2)plt.axvline(-np.log10(model.alpha_), linestyle='--', color='k', label='alpha CV')plt.legend()plt.xlabel('-log(alpha)')plt.ylabel('均方惨差')plt.title('每折上的均方残差: 最小角度回归法' '(训练时间: %.2fs)' % t_lasso_lars_cv)plt.axis('tight')plt.ylim(ymin, ymax)plt.show()参考链接：赤池信息量准则Bayesian information criterionplot_lasso_model_selection发布于 2020-11-14 15:56参数估计机器学习统计学赞同 18721 条评论分享喜欢收藏申请

赤池信息量准则 ( Akaike information criterion) - 知乎

赤池信息量准则 ( Akaike information criterion) - 知乎首发于python金融风控评分卡模型微专业课切换模式写文章登录/注册赤池信息量准则 ( Akaike information criterion)python风控模型重庆未来之智信息技术咨询服务有限公司创始人赤池信息量准则是由日本统计学家赤池弘次创立的，以熵的概念基础确定。赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。历史Akaike 信息准则是由统计学家Hirotugu Akaike制定的。它最初被命名为“信息标准”。Akaike 在 1971 年的一次研讨会上首次用英文宣布；研讨会论文集于 1973 年出版。然而，1973 年的出版物只是对这些概念的非正式介绍。第一个正式出版物是 1974 年 Akaike 的一篇论文。截至 2014年10 月，这篇 1974 年的论文在Web of Science 上的引用次数超过 14,000 次：使其成为有史以来被引用次数最多的研究论文第 73 位。如今，AIC 已经变得足够普遍，以至于经常在不引用 Akaike 1974 年论文的情况下使用它。事实上，有超过 150,000 篇学术文章/书籍使用 AIC（由Google Scholar评估）。AIC 的初始推导依赖于一些强有力的假设。Takeuchi (1976)表明假设可以变得更弱。然而，竹内的作品是用日语写的，多年来在日本以外的地方并不广为人知。AICc 最初由Sugiura (1978)提出用于线性回归（仅）。这激发了Hurvich & Tsai (1989) 的工作，以及同一作者的几篇进一步的论文，这些论文扩展了 AICc 可以应用的情况。Burnham & Anderson (2002) 的著作是对信息论方法的第一次一般性阐述。它包括竹内工作的英文介绍。这本书让 AIC 的使用量大大增加，现在它在Google Scholar上的引用次数超过 48,000 次。赤池称他的方法为“熵最大化原理”，因为该方法建立在信息论中的熵概念之上。事实上，在统计模型中最小化 AIC 等效于最大化热力学系统中的熵。换句话说，统计学中的信息论方法本质上是应用热力学第二定律。因此，AIC 源于路德维希·玻尔兹曼( Ludwig Boltzmann)关于熵的工作。有关这些问题的更多信息，请参见Akaike (1985)和Burnham & Anderson (2002，第 2 章)。公式：在一般的情况下，AIC可以表示为：AIC=(2k-2L)/n参数越少，AIC值越小，模型越好样本数越多，AIC值越小，模型越好这和调整的R方思路一致，即对变量多的模型加重惩罚力度它的假设条件是模型的误差服从独立正态分布。其中：k是所拟合模型中参数的数量，L是对数似然值,n是观测值数目。AIC的大小取决于L和k。k取值越小，AIC越小；L取值越大，AIC值越小。k小意味着模型简洁，L大意味着模型精确。因此AIC和修正的决定系数类似，在评价模型是兼顾了简洁性和精确性。具体到，L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量，sse为残差平方和表明增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。AICc和AICu在样本小的情况下，AIC转变为AICc：AICc=AIC+[2k(k+1)/(n-k-1)当n增加时，AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下（Burnham and Anderson, 2004）。McQuarrie 和 Tsai（1998: 22）把AICc定义为：AICc=ln(RSS/n）+(n+k)/(n-k-2),他们提出的另一个紧密相关指标为AICu：AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2).QAICQAIC(Quasi-AIC)可以定义为：QAIC=2k-1/c*2lnL其中：c是方差膨胀因素。因此QAIC可以调整过度离散（或者缺乏拟合）。在小样本情况下, QAIC表示为：QAICc=QAIC+2k(2k+1)/(n-k-1)一些统计软件计算不可靠一些统计软件将报告 AIC 的值或对数似然函数的最大值，但报告的值并不总是正确的。通常，任何不正确都是由于省略了对数似然函数中的常数。例如，n 个独立的相同正态分布的对数似然函数是——这是在获得 AIC 值时最大化的函数。一些软件，然而，省略了常数项( n /2) ln(2 π )，因此报告了对数似然最大值的错误值，因此也报告了 AIC。如果所有模型的残差都是正态分布的，则此类错误对于基于 AIC 的比较无关紧要：因为这样错误就会抵消。然而，一般而言，常数项需要包含在对数似然函数中。因此，在使用软件计算 AIC 之前，通常最好在软件上运行一些简单的测试，以确保函数值正确。python金融风控评分卡模型和数据分析微专业课（博主亲自录制视频）：版权声明：文章来自公众号(python风控模型),未经许可，不得抄袭。遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。编辑于 2021-08-10 13:10信息论热力学第二定律统计赞同 363 条评论分享喜欢收藏申请转载文章被以下专栏收录python金融风控评分卡模型微专业课python信用评分卡建模（附代码）

赤池信息量准则（AIC）有什么合理的解释吗？如何能推导出其中神奇的系数2？ - 知乎

赤池信息量准则（AIC）有什么合理的解释吗？如何能推导出其中神奇的系数2？ - 知乎首页知乎知学堂发现等你来答切换模式登录/注册统计学回归分析赤池信息量准则（AIC）有什么合理的解释吗？如何能推导出其中神奇的系数2？AIC=2k-2ln(L)，此处k为自由度，L为似然函数。这里的系数2从何而来，尤其是自由度前的那一个。关注者58被浏览36,562关注问题写回答邀请回答好问题添加评论分享7 个回答默认排序大象医学话题下的优秀答主关注不认同楼上认为AIC是基于主观看法和计算简便，从而构造出来的一个统计量。因为AIC实际上是对样本内误差（In Sample Error）的估计量，即在训练样本的基础上，保持自变量不变，观察到一组新的Y‘ （我没看明白这里新的Y‘是根据Y的分布随机生成的，还是根据Y在自变量X的条件分布生成的），然后计算模型在这个新样本中得到的误差的期望值。见Element of Statistical Learning, P229-P232.如果用的是平方损失函数，系数中的-2来自于E(y-f(x))^2的中间项-2y*f(x)。Optimism bias - estimates of prediction error如果是对数似然损失函数，系数中的-2来自于离差前面的-2.Deviance (statistics)发布于 2016-11-22 15:03赞同 151 条评论分享收藏喜欢收起小心假设自动控制等 2 个话题下的优秀答主关注推荐一本书吧：赤池情報量規準AIC―モデリング・予測・知識発見出版社链接：赤池情報量規準AIC发布于 2017-06-29 21:06赞同添加评论分享收藏喜欢

AIC智能校园系统20230420

Image 01

Image 02

Image 03

Image 04

Image 05

Image 06

欢迎登录系统

帐号

密码

验证码

登　录

推荐使用Google Chrome 、360浏览器（极速模式）、IE8以上

>>>学生点此登陆

AIC和BIC准则详解_aic,bic-CSDN博客

AIC和BIC准则详解

最新推荐文章于 2023-02-15 11:42:53 发布

Sany 何灿

最新推荐文章于 2023-02-15 11:42:53 发布

阅读量1.7w

点赞数

分类专栏：

机器学习理论

原文链接：https://www.jianshu.com/p/6b8722d5b4f3

版权

机器学习理论

专栏收录该内容

30 篇文章

11 订阅

订阅专栏

很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价，同时带来一个机器学习中非常普遍的问题——过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，此处我们介绍一下常用的两个模型选择方法：

1. 赤池信息准则（Akaike Information Criterion，AIC）

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下，AIC定义为：

−

(

)

AIC = 2k-2ln(L)

AIC=2k−2ln(L) 其中k是模型参数个数，L是似然函数。从一组可供选择的模型中选择最佳模型时，通常选择AIC最小的模型。

当两个模型之间存在较大差异时，差异主要体现在似然函数项，当似然函数差异不显著时，上式第一项，即模型复杂度则起作用，从而参数个数少的模型是较好的选择。

一般而言，当模型复杂度提高（k增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。

目标是选取AIC最小的模型，AIC不仅要提高模型拟合度（极大似然），而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。

贝叶斯信息准则（Bayesian Information Criterion，BIC）

BIC（Bayesian InformationCriterion）贝叶斯信息准则与AIC相似，用于模型选择，1978年由Schwarz提出。训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

(

)

−

(

)

BIC = kln(n)-2ln(L)

BIC=kln(n)−2ln(L)

其中，k为模型参数个数，n为样本数量，L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。

AIC与BIC比较

AIC和BIC的公式中前半部分是一样的，后半部分是惩罚项，当

≥

n≥10^2

n≥102时，kln(n)≥2k，所以，BIC相比AIC在大数据量时对模型参数惩罚得更多，导致BIC更倾向于选择参数少的简单模型。

优惠劵

Sany 何灿

关注

踩

觉得还不错?

一键收藏

知道了

AIC和BIC准则详解

复制链接

扫一扫

专栏目录

Matlab的AIC和BIC的计算方法-关于AIC.doc

08-12

Matlab的AIC和BIC的计算方法-关于AIC.doc

关于AIC.doc

AIC和BIC的计算方法

AIC和BIC的计算方法，留作备用

一文帮你理解模型选择方法：AIC、BIC和交叉验证！

qq_43300144的博客

04-14

2万+

一文帮你理解【模型选择方法】：AIC、BIC 和交叉验证！

本文先讲透模型选择的基本思想，再逐一叙述几种比较典型和常用的模型选择方法，希望可以帮助你理解。

一、模型选择的基本思想

模型选择的核心思想就是从某个模型中选择最佳模型。模型选择主要用于解决过拟合现象。

它与一般的“调参”不一样，调参很多时候可能是针对优化算法中的某些参数进行调整，比如步长（学习速率）、迭代次数等，也会涉及到模型中调整参数（也称正则参数）的选择。但是模型选择不涉及算法中的参数，仅涉及模型目标函数中的调整参数。

模型选择最标准的方法是在

4 条评论

您还未登录，请先

后发表或查看评论

理解赤池信息量（AIC）,贝叶斯信息量（BIC）

赤池信息量准则 ( Akaike information criterion)-统计学术语_akaike鈥檚 information criterion (aic)-CSDN博客

赤池信息量准则 ( Akaike information criterion)-统计学术语

最新推荐文章于 2023-01-12 14:48:52 发布

python机器学习建模

最新推荐文章于 2023-01-12 14:48:52 发布

阅读量5.9k

点赞数

分类专栏：

python风控模型

文章标签：

赤池信息量准则

Akaike

AIC

统计

回归

本文链接：https://blog.csdn.net/fulk6667g78o8/article/details/119024082

版权

python风控模型

专栏收录该内容

138 篇文章

70 订阅

订阅专栏

赤池信息量准则是由日本统计学家赤池弘次创立的，以熵的概念基础确定。

赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

历史

Akaike 信息准则是由统计学家Hirotugu Akaike制定的。它最初被命名为“信息标准”。Akaike 在 1971 年的一次研讨会上首次用英文宣布；研讨会论文集于 1973 年出版。然而，1973 年的出版物只是对这些概念的非正式介绍。第一个正式出版物是 1974 年 Akaike 的一篇论文。截至 2014年10 月，这篇 1974 年的论文在Web of Science 上的引用次数超过 14,000 次：使其成为有史以来被引用次数最多的研究论文第 73 位。

如今，AIC 已经变得足够普遍，以至于经常在不引用 Akaike 1974 年论文的情况下使用它。事实上，有超过 150,000 篇学术文章/书籍使用 AIC（由Google Scholar评估）。

AIC 的初始推导依赖于一些强有力的假设。Takeuchi (1976)表明假设可以变得更弱。然而，竹内的作品是用日语写的，多年来在日本以外的地方并不广为人知。

AICc 最初由Sugiura (1978)提出用于线性回归（仅）。这激发了Hurvich & Tsai (1989) 的工作，以及同一作者的几篇进一步的论文，这些论文扩展了 AICc 可以应用的情况。

Burnham & Anderson (2002) 的著作是对信息论方法的第一次一般性阐述。它包括竹内工作的英文介绍。这本书让 AIC 的使用量大大增加，现在它在Google Scholar上的引用次数超过 48,000 次。

赤池称他的方法为“熵最大化原理”，因为该方法建立在信息论中的熵概念之上。事实上，在统计模型中最小化 AIC 等效于最大化热力学系统中的熵。换句话说，统计学中的信息论方法本质上是应用热力学第二定律。因此，AIC 源于路德维希·玻尔兹曼( Ludwig Boltzmann)关于熵的工作。有关这些问题的更多信息，请参见Akaike (1985)和Burnham & Anderson (2002，第 2 章)。

公式：

在一般的情况下，AIC可以表示为：

AIC=(2k-2L)/n

参数越少，AIC值越小，模型越好

样本数越多，AIC值越小，模型越好

这和调整的R方思路一致，即对变量多的模型加重惩罚力度

它的假设条件是模型的误差服从独立正态分布。

其中：k是所拟合模型中参数的数量，L是对数似然值,n是观测值数目。

AIC的大小取决于L和k。k取值越小，AIC越小；L取值越大，AIC值越小。k小意味着模型简洁，L大意味着模型精确。因此AIC和修正的决定系数类似，在评价模型是兼顾了简洁性和精确性。

具体到，L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量，sse为残差平方和

表明增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

AICc和AICu

在样本小的情况下，AIC转变为AICc：

AICc=AIC+[2k(k+1)/(n-k-1)

当n增加时，AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下（Burnham and Anderson, 2004）。

McQuarrie 和 Tsai（1998: 22）把AICc定义为：

AICc=ln(RSS/n）+(n+k)/(n-k-2),

他们提出的另一个紧密相关指标为AICu：

AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2).

QAIC

QAIC(Quasi-AIC)可以定义为：

QAIC=2k-1/c*2lnL

其中：c是方差膨胀因素。因此QAIC可以调整过度离散（或者缺乏拟合）。

在小样本情况下, QAIC表示为：

QAICc=QAIC+2k(2k+1)/(n-k-1)

一些统计软件计算不可靠

一些统计软件将报告 AIC 的值或对数似然函数的最大值，但报告的值并不总是正确的。通常，任何不正确都是由于省略了对数似然函数中的常数。例如，n 个独立的相同正态分布的对数似然函数是

——这是在获得 AIC 值时最大化的函数。一些软件，然而，省略了常数项( n /2) ln(2 π )，因此报告了对数似然最大值的错误值，因此也报告了 AIC。_如果_所有模型的残差都是正态分布的，_则_此类错误对于基于 AIC 的比较无关紧要：因为这样错误就会抵消。然而，一般而言，常数项需要包含在对数似然函数中。因此，在使用软件计算 AIC 之前，通常最好在软件上运行一些简单的测试，以确保函数值正确。

欢迎学习csdn学院更多金融风控相关知识《python金融风控评分卡模型和数据分析》

优惠劵

python机器学习建模

关注

踩

觉得还不错?

一键收藏

打赏

知道了

赤池信息量准则 ( Akaike information criterion)-统计学术语

赤池信息量准则是由日本统计学家赤池弘次创立的，以熵的概念基础确定。赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。历史Akaike 信息准则是由统计学家Hirotugu Akaike制定的。它最初被命名为“信息标准”。Akaike 在 1971 年的一次研讨会上首次用英文宣布；研讨会论文集于 1973 年出版

复制链接

扫一扫

专栏目录

sinorder.zip_akaike_rss matlab_赤池 matlab_赤池信息准则

07-15

为sinudoidal模型的AIC阶估计.AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，又由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

在一般的情况下，AIC可以表示为： AIC=2k-2ln(L)

其中：k是参数的数量，L是似然函数。假设条件是模型的误差服从独立正态分布。让n为观察数，RSS为剩余平方和，那么AIC变为： AIC=2k+nln(RSS/n)

增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

理解赤池信息量（AIC）

大鱼的博客

12-06

9341

在学逐步回归的过程中，遇到了AIC，只知道这玩意儿越小，模型拟合力更好。查了一下：

AIC是由日本统计学家赤池弘次创立和发展的，该准则是建立在熵的基础上的。

一般情况下，公式为

AIC=(2k-2L)/n

这公式我们可以看到，n是样本量，样本量越大该值越小，跟我们平时说的样本量越大，模型越有说服力

k是拟合模型中参数的数量，可以知道参数越少，AIC越小

L是对数似然值，L越大模型说明越...

2 条评论

您还未登录，请先

后发表或查看评论

A Novel Approach to Blind Deconvolution based on Generalized Akaike’s Information Criterion

02-06

A Novel Approach to Blind Deconvolution based on Generalized Akaike’s Information Criterion

论文研究 - 野生捕捞鱼类大量繁殖的模型

05-24

该论文搜索了有关野生捕捞鱼的原始数据，其中的S型增长函数描述了质量增长明显优于非S型函数。具体而言，使用Akaike信息准则，将冯·贝塔兰菲的S型增长函数（代谢指数对a = 2/3，b = 1）与无界线性增长和有界指数增长进行了比较。因此，假设质量的对数正态分布（即，较重的动物的方差较高），则比较最大似然拟合。从70多个年龄大小的数据开始，本文重点研究了来自大型数据集的15个数据。其中，六个具有400-20,000个数据点的数据适用于S型增长模型。为此，使用定制的优化工具从通用vonBertalanffy-Pütter类模型中确定了最佳拟合增长函数。该课程归纳了Verhulst（物流增长），Gompertz和von Bertalanffy的著名模型。尽管最合适的模型差异很大，但它们的指数对却表现出显着的格局，因为它们的差接近1/3（例如：von Bertalanffy指数对）。这就定义了一类新的模型，为此，本文提供了将增长与食物消费相关联的生物学动机。

使用混合 ARIMA 模型预测股市价格：印度制药公司的案例研究-研究论文

06-10

许多投资者为了预测股票价格使用各种技术，如基本面分析和技术分析，有时依赖于各种股票市场分析师提供的讨论。 ARIMA 是预测算法下时间序列分析的一部分，本文尝试使用 ARIMA 模型预测在 NIFTY100 上市的印度选定制药公司的股价。从 2017 年 1 月 1 日到 2019 年 12 月 31 日，每个选定的制药公司的 782 个时间序列观察的样本量被认为是构建 ARIMA 模型的框架。 ADF 检验用于验证数据是否平稳。对于 ARIMA 模型估计，已经观察到 ACF 和 PACF 的相关图中的显着峰值，并且许多模型已经针对每个选定的公司采用不同的 AR 和 MA 项来构建。之后，选择了 5 个最佳模型，并对各种 AR 和 MA 术语进行了必要的灌输以调整模型，并根据波动率、调整后的 R 平方和 Akaike 信息准则为每个公司选择最佳调整后的 ARIMA 模型。结果可用于分析股票价格及其在未来研究工作中的深入预测。

赤池信息量准则（Akaike Information Criterion）

u014765410的博客

09-25

1万+

赤池信息量准则

时间序列回归模型（Forecasting: Principles and practice第六章）

weixin_41636030的博客

11-17

1万+

6.1 the linear model

简单线性回归

最简单回归模型是预测变量y和单一预测因子x存在线性关系

Beta0和beta1分别表示截距和斜率。Beta0表示当x=0时，预测值y；beta1表示平均预测变化y是由于x增加1个单位引起的。

在这里，除非强制要求回归线穿过‘原点’，否则它应该始终包含在截距，即使当x=0时，截距与y的关系似乎不make sense。

多重线性回归（mult...

赤池信息准则AIC，BIC

AIC（Nvidia显卡授权生产厂商）_百度百科

Nvidia显卡授权生产厂商）_百度百科网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心AIC是一个多义词，请在下列义项上选择浏览（共6个义项）添加义项收藏查看我的收藏0有用+10AIC播报讨论上传视频Nvidia显卡授权生产厂商AIC就是nVIDIA根据市场的变化，不断的调整合作伙伴的阵容，直至最后发展成为AIC（Add－in－Cards亲密合作伙伴），Nvidia的官方AIC列表中还包括了主板合作伙伴的厂商。中文名AIC含义具研发制造能力的NVIDIA合作伙伴出售商家通路厂商得到支持市场基金、活动方案目录1公司简介2信息介绍公司简介播报编辑AIC特指具有研发和制造能力的NVIDIA合作伙伴，通常AIC制造产品而由通路厂商贴牌出售，能够对NVIDIA的市场策略给予终端产品线的支撑。AIC往往能够比传统的通路厂商享受到更多的支持，如市场基金、活动方案、显示芯片与显存的捆绑优惠等等。同理,ATi（现AMD）方面, 帮助ATi打天下的团队，被命名为AIB（Add－in－Board认证合作伙伴）。不过，无论是NVIDIA还是ATi来说，对于AIC/AIB并非都是一视同仁的。我们以NVIDIA为例：从核心AIC至AIC，再到通路商，主要表现在对于AIC往往能够比传统的通路厂商享受到更多的支持，如市场基金、活动方案、显示芯片与显存的捆绑优惠等等。另外，核心的AIC得到的支持则会更多，这就直接影响到品牌推广以及消费者的购买取向。信息介绍播报编辑为了获得更大的产能，并提高利润率，世界上两大显示技术厂商Nvidia和AMD都采用了自主设计GPU芯片，外包给晶圆厂制造，并将芯片成品出售给授权的显卡生产商加工成显卡成品的商业模式。Nvidia将其认可的有权生产采用Nvidia显示芯片显卡的厂商称为Add-In Card厂商，简称AIC。与之相对的，AMD授权进行显卡生产的厂商称为Add-In Board厂商，简称AIB。AIC是一个准入性标准，即只有AIC才具备生产Nvidia显卡的权利。是Nvidia对显卡厂商技术实力和产品品质的认可，但并不直接代表厂商与Nvidia的关系是否紧密。值得一提的是，Nvidia在世界各地的AIC名单不完全相同。下表列出了Nvidia在美国范围内的AIC（名存实亡者以示亡号标记）：英文名称中文名称总部地址备注ABIT Computer (USA) Co.升技电脑（美国）中国台湾已被母公司环隆电气解散。 [1]Albatron青云中国台湾现已不自产显卡。在台湾地区代理销售技嘉显卡。AOpen, Inc.建碁中国台湾已退出显卡市场。ASL (Cheer Ascent Technology Ltd.)翔升中国大陆-ASUS Computer International华硕电脑国际中国台湾-BIOSTAR U.S.A. BMA INDUSTRIAL INC.美国映泰中国台湾-Chaintech承启科技中国台湾该公司于2014年被七彩虹控股46.2%，现主要与七彩虹进行合作。Colorful七彩虹中国大陆-ECS精英中国台湾已退出显卡市场。EVGA CorporationEVGA美国已退出显卡市场。 [6]FORSA (Geniman International Ltd.)富彩中国香港-Foxconn富士康中国台湾已基本退出显卡市场。（目前官网公布的最新产品为GeForce 9800系列）Gainward耕升中国台湾于2005年被同德收购。 [2]Galaxy Microsystems Ltd.影驰中国香港于2008年被同德收购。 [3]Gigabyte Technology Co., Ltd.技嘉科技中国台湾-InnoVISION Multimedia Ltd.映众中国香港-Jaton捷登美国创立于台湾。产品未在中国大陆上市。现仅存澳洲官网，且官网已长时间未更新。J&W (Shenzhen J&W Electronics Co., Ltd.)杰微中国大陆已基本退出显卡市场。（目前官网公布的最新产品为GeForce GTX 750Ti）Leadtek Research, Inc.丽台科技中国台湾Nvidia指定的亚洲地区唯一制造Quadro图形专业卡的生产商。MSI Computer微星电脑中国台湾微星国际旗下公司Palit Microsystems, Ltd同德微系统中国台湾最大的显卡代工企业，为许多非AIC厂商代工显卡。PNY Technologies必恩威科技美国Nvidia指定的欧美地区唯一制造Quadro图形专业卡的生产商。Point of View-荷兰产品未在中国大陆上市。2016年11月宣告破产。 [4]Prolink Computer, Inc.宝联电脑中国台湾已退出显卡市场。XFX Technologies, Inc.讯景科技美国香港松景集团旗下公司。2009年起转投AMD阵营，但仍然在AIC列表中。ZOTAC Int'l (MCO) , Ltd.索泰中国香港柏能科技集团旗下公司。此外，在中国大陆地区，还有三家厂商也被认可为AIC：英文名称中文名称总部地址备注Elsa艾尔莎中国台湾原为德资企业，2002年德国总部破产。台湾分公司被技嘉收购后，继续生产显卡至2007年左右，之后转投光电行业。曾于2010年作为AMD阵营的一员短暂重回显卡市场 [5]。HaoStar德众中国大陆-Sparkle斯博科中国台湾旗下显卡品牌为旌宇。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号京公网安备110000020000

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）_赤池信息准则-CSDN博客

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）

最新推荐文章于 2023-02-15 11:42:53 发布

生信研究猿

最新推荐文章于 2023-02-15 11:42:53 发布

阅读量8.2k

点赞数

分类专栏：

机器学习

文章标签：

算法

开发语言

本文链接：https://blog.csdn.net/m0_65188455/article/details/128619096

版权

机器学习

专栏收录该内容

14 篇文章

0 订阅

订阅专栏

一 AIC

赤池信息量准则（Akaike information criterion，AIC）是评估统计模型的复杂度和衡量统计模型“拟合”资料之优良性(Goodness of fit)的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基础上。

在一般的情况下，AIC可以表示为：

AIC=2k−2ln(L)

其中：k是参数的数量，L是似然函数。

假设条件是模型的误差服从独立正态分布。设n为观察数，RSS为残差平方和，那么AIC变为：

AIC=2k+nln(RSS/n)

残差平方和（Residual Sum of Squares，即RSS），又称剩余平方和。统计学上，数据点与它在回归直线上相应位置的差异称为残差，把每个残差平方之后加起来称为残差平方和，它表示随机误差的效应。

二 BIC

BIC越小，模型越好。

贝叶斯信息准则，（Bayesian Information Criterion，BIC）。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。公式为：

BIC=ln(n)k–2ln(L)

其中，k为模型参数个数，n为样本数量，L为似然函数

ln(n)k惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。

与AIC相似，训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

参考链接：

最优模型选择准则：AIC和BIC - 知乎 (zhihu.com)

贝叶斯信息准则_哔哩哔哩_bilibili

优惠劵

生信研究猿

关注

踩

觉得还不错?

一键收藏

知道了

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）

复制链接

扫一扫

专栏目录

AIC和BIC用于宇宙交互场景

04-24

通过将Akaike信息标准（AIC）和贝叶斯信息标准（BIC）与SnIa（Union 2.1和bind JLA），H（z），BAO和CMB的数据一起使用，我们比较了它们之间的交互模型，并分析了是否存在更复杂的交互这些标准支持模型。...

赤池信息准则AIC，BIC

tokenpocket|aic

tokenpocket|aic

模型选择方法：AIC和BIC - 知乎

AIC（赤池信息准则）_百度百科

最优模型选择准则：AIC和BIC - 知乎

赤池信息量准则 ( Akaike information criterion) - 知乎

赤池信息量准则（AIC）有什么合理的解释吗？如何能推导出其中神奇的系数2？ - 知乎

AIC智能校园系统20230420

AIC和BIC准则详解_aic,bic-CSDN博客

赤池信息量准则 ( Akaike information criterion)-统计学术语_akaike鈥檚 information criterion (aic)-CSDN博客

AIC（Nvidia显卡授权生产厂商）_百度百科

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）_赤池信息准则-CSDN博客

推荐新闻