统计学

2024/4/11 16:09:54

学习模式上的记录之统计篇四 关于excel里添加趋势线和回归统计的R square数值不一致的情况

嫌长不想看:先看自己有没有设置强制截距为0,若实际应用时确实需要强制截距为0,Excel的算法跟Sigmaplot的算法此时不一样,建议使用LINEST函数的结果。 1. 利用Excel计算 R2 的方法 有以下几种方法: 1.1 做散点图添加趋…

数据类型分类

一般我们都知道数据可以基本分为两类,定性和定量数据。 今天在整理相关系数的时候,看到一篇分析说,数据可以分为定距、定类、定比和定序四类,不同种类的数据适用不同的相关系数。在这里做个总结。 1.定类变量 Nominal Variable 这…

概率公理及其基础

先引入σ-代数 的概念。 在数学中,某个集合X上的σ代数又叫σ域,是X的所有子集的集合(也就是幂集)的一个子集。这个子集满足对于差集运算和可数个并集运算的封闭性(因此对于可数个交集运算也是封闭的)。 σ…

《统计学简易速速上手小册》第6章:多变量数据分析(2024 最新版)

文章目录 6.1 主成分分析(PCA)6.1.1 基础知识6.1.2 主要案例:客户细分6.1.3 拓展案例 1:面部识别6.1.4 拓展案例 2:基因数据分析 6.2 聚类分析6.2.1 基础知识6.2.2 主要案例:市场细分6.2.3 拓展案例 1&…

《统计学简易速速上手小册》第10章:案例研究和未来趋势(2024 最新版)

文章目录 10.1 统计学成功案例分析10.1.1 基础知识10.1.2 主要案例:药物临床试验10.1.3 拓展案例 1:市场趋势分析10.1.4 拓展案例 2:社会行为研究 10.2 统计学的伦理考量10.2.1 基础知识10.2.2 主要案例:个性化医疗研究10.2.3 拓展…

《统计学简易速速上手小册》第9章:统计学在现代科技中的应用(2024 最新版)

文章目录 9.1 统计学与大数据9.1.1 基础知识9.1.2 主要案例:社交媒体情感分析9.1.3 拓展案例 1:电商销售预测9.1.4 拓展案例 2:实时交通流量分析 9.2 统计学在机器学习和人工智能中的应用9.2.1 基础知识9.2.2 主要案例:预测客户流…

【读书笔记->统计学】09-01 将正态分布运用到其他概率分布-正态分布的相加、线性变换与独立观察结果概念简介

将正态分布运用到其他概率分布 正态分布的相加 假设一个情境:德克想到了“爱情过山车”的创意,让新婚夫妇在过山车上办婚礼。在这之前,需要确保他所设想的特别座驾能够承载新郎和新娘的重量。他设想的座驾最多承载380磅的重量,求…

【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介

用正态分布近似代替二项分布 假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4。求答对30题及以上的概率。 这个是典型的二项分布,具体介绍见:【读书笔记->统计学】07-02 离散型概率分布-二项分…

【读书笔记->统计学】10-01 样本与抽样-总体与样本、抽样方法、设计与选择样本概念简介

样本与抽样 总体与样本 假设一个情境:曼帝糖果公司生产超长效口香糖球,这种产品具有多种颜色,可以满足多种口味。为了宣传口香糖球的口味持续时间,公司决定招聘试吃者进行口味检验。 我们当然不能让试吃者吃完所有的糖球。因此…

【读书笔记->统计学】08-01 连续型概率分布与正态分布-连续数据、概率密度函数、连续概率概念简介

连续型概率分布与正态分布 连续数据 前面讲到的概率分布涉及的都是离散数据,即数据由一个个单独的数值组成,其中的每一个数值都有对应概率。例如,在分析老虎机收益概率分布时,每一局赌局出现的收益数额是确定的,我们…

蒙特卡洛法求积分

问题一:我们如何用蒙特卡洛方法求积分?问题二:如何近似求一个随机变量的数学期望?问题三:估计的误差是多少?问题四:如何从理论上对蒙特卡洛估计做分析?结论import numpy as np impor…

《统计学习方法》 第一章 统计学习及监督学习概论

统计学习的对象,目的,方法: 统计学习对象 : 数据统计学习目的 : 对数据进行分析,预测统计学习方法 : 基于数据构建概率统计模型而对数据进行预测分析统计学习方法的实现步骤: 1 得…

11月总结-写在粉丝数5672

哈喽大家好,我是可乐每月一篇小总结,每月一个随便写写的机会其他闲聊:10月小总结一件小事这个月完成了人生中的一件大事儿,婚姻中的一件小事儿,嗯,终于把婚纱照拍了。我和家属小茗同学(对&#…

终于搞清楚正态分布、指数分布到底是啥了!

↑ 点击上方 “可乐的数据分析之路” 关注 星标 ~ 大概率每天早8点25更新 哈喽,大家好,我是可乐今天这篇文章接2个月以前的那篇文章 离散型随机变量的概率分布,继续来聊聊连续型随机变量的概率分布,以及用Python如何实现。并非所…

连续性变量的概率分布

前一篇文章写的是离散型随机变量的概率分布,今天我们来聊聊连续型随机变量的概率分布。 并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一个特定…

能把统计学的原理和应用说明白,这本书不简单!

↑ 点击上方 “可乐的数据分析之路” 关注 星标 ~ 大概率每天早8点25更新 哈喽,大家好,我是可乐今天给大家推荐这本《深入浅出统计学》,文末有我总结的知识图谱。《深入浅出统计学》这本书我看了好几遍,一直没法下笔写它的总结&…

SQL今日一题(12):去重后计数

这是SQL今日一题的第12篇文章今天有两道题目,因为很相似所以放在一起说。题目描述1从titles表获取按照title进行分组,每组个数大于等于2,给出title以及对应的数目t。用到titles表,这个表是一个新表,之前的题目没有遇到…

学习模式上的记录之统计篇二 Sigmaplot 非线性回归报告分析

先说下线性回归的前提假设(LINE): L:Linearity 线性 因变量和每个自变量都是线性关系 I:Independence 独立性 对于所有的观测值,他们的误差项相互之间是独立的 N:Normality 正态性 误差项服从正…

深入浅出统计学读后感

哈喽,大家好,我是可乐 今天给大家推荐这本《深入浅出统计学》,文末有我总结的知识图谱。 《深入浅出统计学》这本书我看了好几遍,一直没法下笔写它的总结,因为感觉还没有征服它,每次感觉懂了的时候&#…

统计学假设检验和建模

1.经典t检验 让我们在两个不同的场合下对一个赛车对的表现进行衡量,在第一次比赛中,团队的成员的得分为[79,100,93,75,84,107,66,86,103,81,89,105,84,86,86,112,112,100,94],在第二次比赛中,他们的得分为[92, 100, 76, 97, 72, …

没学好统计学的下场

刚才看了一篇文章:Huimin, Zhang, Lingfei, et al. The Cinderella Complex: Word embeddings reveal gender stereotypes in movies and books.[J]. PloS one, 2019, 14(11):e0225385. 这篇文章是说神魔的呢?我们来看看摘要: 我们对数千部电…

如何做好描述统计分析

写在前面什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。1、集中趋势 集中趋势就是指一组数据向某一中…

数据特征分析

分布分析对比分析统计分析帕累托分析正态性检验相关性分析分布分析分布分析 → 研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量极差 / 频率分布情况 / 分组组距及组数import numpy as np import pandas as pd import matplotlib.pyplot as plt p…

统计方法基础

(1)数据的类型 按照测量尺度分类 名义变量(Normal Variable) 举例:性别,人种 无大小顺序等级之分 顺序变量(Oridinal) 举例:教育程度,喜好程度 有大小顺序之…

5328笔记 Advanced ML Chapter8-Domain Adaptation and Transfer Learning

5328始终要记住全局和样本是不同的。这是关键。 当我们说2个任务不同时,其实是说它们的全局数据分布不同。如果2个任务有相同的全局数据分布,那么我们可以使用相同的算法去解决它们。 数据的概率分布就是domain。 机器要想做相同知识的学习&…

用Scipy求解单个正态总体的置信区间

区间估计简介Python求解单个正态总体参数的置信区间参考区间估计简介假定参数是射击靶上 10 环的位置,作一次射击,打在靶心 10 环的位置上的可能性很小,但打在靶子上的可能性就很大,用打在靶上的这个点画出一个区间,这…

抽样估计:点估计、区间估计

点估计 区间估计:置信区间 摘录自:深入浅出统计学

正态分布(近似正态分布)

摘录自:《深入浅出统计学》

一、统计与数据

统计 统计学:收集、处理、分析、解释数据并从数据中得到结论的科学 统计分析数据分为:描述统计、推断统计   描述统计:研究数据收集、处理和描述的统计学方法 描述统计如何获取所需数据,如何用图形展示数据,得出所关…

据说假设检验是个很难的题

不知道大家有没有注意到我每次文章最顶部的内容: 我提出的假设是:每天早上8点25更新,然后有人不相信,于是我们提出了一个方案来验证我的假设,连续10天看实验的结果是否每天早上8:25更新,这就是一个假设检验…

有哪些你看了以后大呼过瘾的数据分析书?

书不在多,而在于精。 数据分析类的书有很多,可以按数据分析的流程分类,每个流程应该看哪些书籍。 也可以按照通识类和工具类进行分类,通识类可以理解为入门读物类,工具类就是针对不同的工具必读的书籍了。 还可以按照…

【读书笔记->统计学】12-02 置信区间的构建-t分布概念简介

t分布 假设一个情境:我们想知道糖球的典型重量。但由于只有一家糖果店提出要求,因此只抽取了包含10颗具有代表性的样本,然后称了每一粒糖球的重量。这个样本的x‾0.5盎司,s20.09\overline{x}0.5盎司, s^20.09x0.5盎司,s20.09。 老样子&…

【读书笔记->统计学】12-01 置信区间的构建-置信区间概念简介

置信区间的构建 引言 上一章帮助我们利用样本估计总体均值、方差或一定比例的精确值。但是你认为的样本就一定准确(或者说无偏)吗?这一章,另一种估计总体统计量的方法——置信区间,有其作用。 曼帝糖果公司用一个包含1…

【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)

辛普森悖论 辛普森悖论(Simpson’s paradox),也有其他名称,是概率和统计中的一种现象,即一种趋势出现在几组数据中,但当这些组组合在一起时,趋势就会消失或逆转。 这个结果在社会科学和医学科学统计中经常遇到&#x…

统计学笔记

1、卡方检验 两个用途: (1)检验拟合优度,检验一组给定的数据与指定分布的吻合程度。例如,检验老虎机收益的观察频率与我们所期望的分布的吻合程度; (2)检验两个变量的独立性&…

《赤裸裸的统计学》读后感

《赤裸裸的统计学》,作者[美]查尔斯韦兰,2013年出版,豆瓣评分8.1分,可以作为统计学入门读物很好的一本书,知识点浅显易懂,对小白非常友好,有统计专业知识的人可能会觉得干货略少。总的来说&…

方差分析python实现

单因素方差分析 在此之间我们先导入数据, 案例:我们探究施肥与否是否对植物的生长有影响,试验为: - 对照组:清水 - 实验组: 某肥料四个浓度梯度,分别是A,B,C,D,施肥一段时间之后测…

《统计学习方法》 第二章 感知机

感知机是二类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取1和-1二值,感知机对应与输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。 感知机模型 感知机…

有偏估计 and 无偏估计

本篇为《深度学习》系列博客的第六篇,该系列博客主要记录深度学习相关知识的学习过程和自己的理解,方便以后查阅。 看PCA时遇到方差计算公式分母是n-1而不是n,于是查阅资料就发现有偏估计和无偏估计,并且可以把有偏估计转换为无偏…

t检验,单因素方差和相似非参数检验-IBM SPSS 第六版第9章译文

本部分译文目的是尽量避免在使用SPSS时,知其然不知其所以然,或者甚至是不尽知其然的情况,在分析时经常会被问到该用什么哪种检验,就自行翻译一下这本书的第9章。 声明:此翻译非正式翻译,仅为个人翻译供大家…

SPSS-估计

分布的类型:卡方分布、t分布、F分布…… 分布的参数估计:根据样本估计总体分布的参数(均值,方差……) 点估计:均值、方差……区间估计:在要求的置信区间下估计其他参数的区间。 1. 分布估计 …

点估计和区间估计——统计学概念

概念简介: 点估计和区间估计是通过样本统计量估计总体参数的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样指标直接代替全体指标&…

12.3 组会(基础知识,稀疏表达+采样)

12.3 稀疏表达 稀疏矩阵,(稠密$\rightarrow $稀疏) L1L_1L1​稀疏性,L2L_2L2​没有稀疏性 证明详见Lasso论文(实际上产生原因来自于James-Stein统计量,意图降低参数的MSE) 用α\alphaα表达…

描述性统计分析

本小节介绍什么是描述性统计分析,以及常用的指标一、什么是描述统计分析(Descriptive Analysis)概念:使用几个关键数据来描述整体的情况描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析…

6月小复盘

6月小复盘写在前面又到月底了,每月必将进行的一个复盘活动,来总结一下学习、生活和工作。关于发文6月共发了20篇文章(包括明天即将要发的两篇),比5月增加了8篇文章,得益于【SQL今日一题】这个专项&#xff…

aov()函数lm()函数区别,(I型、Ⅲ型平方和)

R:aov和lm方差分析的区别 在R中经常会用aov()和lm()两个函数进行方差分析,aov 函数的内核使用了lm算法,但二者有一定的区别。 aov() 默认(summary) 结果是基于Type I 平方和,而 lm() 默认(summary&#xf…

半方差函数详解

1 引言 托布勒的地理第一定律指出,“一切都与其他事物有关,但近处的事物比远处的事物更相关。 在半变异函数的情况下,更接近的事物更可预测,变异性更小,而遥远的事物则难以预测,相关性也较低。 例如&…

检验样本是否服从泊松分布

一、数据预处理二、变量分析三、总体分布估计四、结论与分析本文以一个订单数据为例,研究顾客购买次数的分布规律,尝试从中估计总体的分布,以对后续的订单数据进行预测或进行业绩的对比# 环境准备 import numpy as np import pandas as pd im…

单因素方差分析及其相关检验

ANOVA单因子方差分析(1)问题与数据 设某因子有r个水平,记为,在每一水平下各做m次独立重复试 验,若记第i个水平下第j次重复的试验结果为,所有试验的结果可列表如下:对这个试验要研究的问题是 个水平 间有无显著差异.(2) 基本假定A1 : 第 个水平下的数据 是来自正态总体 的一个样…

一元回归分析

理论部分给出样本数据计算相应指标可视化理论部分问题 考察两个变量 与 之间是否存在线性相关关系,其中 是一般 ( 可控) 变量, 是随机变量,其线性相关关系可表示如下 ( 可用散点图显示) :其中 为截距, 为斜率 为随机误差,常假设 这里 是三个待估参数. 上式表明, 与 之间有线性关…

卡方检验及其Python实现

分类数据的拟合优度检验独立性检验分类数据的拟合优度检验前面我已经写了关于几种常见的假设检验内容,而检验主要是测试样本分类数据的分布是否符合预期分布。相信大家如果学过高中生物,都知道孟德尔——遗传学之父,当时他根据颜色和形状把豌…

假设检验在数据分析中的应用

前言Z检验T检验独立样本t检验配对样本t检验单样本t检验前言在这篇文章中,我不会具体去推导检验统计量和相应拒绝域的得出,这对于大部分非统计学专业的人士来说是晦涩的,我只想通过一个案例告诉大部分初学者假设检验怎么在数据挖掘中使用。%ma…

Scipy使用简介

物理常量常用单位special函数库非线性方程组求解最小二乘拟合计算函数局域最小值计算全域最小值解线性方程组最小二乘解特征值和特征向量连续概率分布离散概率分布核密度函数二项分布,泊松分布,伽马分布二项分布泊松分布伽马分布学生分布(t-分…

初学R入门(一):数据矩阵及R表示:c()、length()、mode()、“:”、matrix()、t()、“+”、“-”、“%* %“、diag()、eigen()、svd()等的使用

一、创建一个向量 1、在R中可以使用函数c()来创建一个向量 x1c(171,175,159,155,152,160) y1c(57,64,41,38,35,40) 2、在R中可以使用函数length()来查看向量长度 length(x1) 3、在R中可以使用函数mode()来查看数据类型 mode(x1) 4、R语言用“:”来快速生成等差数…

初学R入门(二):数据框及R表示:data.frame()、rbind()、cbind()、head()、tail()、apply()等函数的使用

一、 数据框的构成 数据框是一种矩阵形式的数据,但是数据框中的各列可以是不同类型的数据。 数据框每一列是一个变量,每一行是一个观测。 1、R中使用data.frame()函数构建数据框 (1)由x1、x2构建数据框 x1c(171,175,159,155,…

Stein估计

文章目录什么是Stein估计Stein估计的定义Stein估计的性质压缩系数的选择参考文献什么是Stein估计 岭估计都是对LS估计β^\hat{\beta}β^​向远点作压缩。一般来说,它们是对β^\hat{\beta}β^​各分量的不均匀压缩。Stein估计是一种均匀压缩估计,它是由S…

方差分析的SPSS实现

单因素方差分析 1、首先打开我们的SPSS软件,将数据导入进去 我们看到因子是group,我们研究的是不同的组别之间的均值是否有显著性差异,换句话说,假设我们的组别是不同的职业,1,2,3代表不同的职…

方差分析

方差分析基本术语 方差分析(analysis of variance):缩写为ANOVA,分析分类自变量对数值因变量影响的一种统计方法。 单因素方差分析(one-way analsis of variance):研究一个分类自变量对数值因变量影响的方差分析。 …

假设检验中错误的类型

I类错误 I类错误是指在无效假设是真的时候,结果是显著的,第一类错误的可能性经常用a表示,并且该值的数据分析前就确定,在质量控制中,第一类错误被叫作生产者风险,因为你在一个产品符合规范要求的情况拒绝了…

【读书笔记->统计学】11-01 总体和样本的估计-总体均值、样本均值、点估计量、总体方差、估计总体方差概念简介

总体和样本的估计 总体均值、样本均值与点估计量 假设一个情境:曼帝糖果公司得到了超长效口香糖球的无偏样本,他们对样本中的每一粒糖球进行测试,得到了关于样本糖球口味持续时间的大量数据。 61.9 62.6 63.3 64.8 65.1 66.4 67.1 67.2 68…

【读书笔记->统计学】08-02 连续型概率分布与正态分布-正态分布概念简介

正态分布 另一个情境:朱莉喜欢穿高跟鞋,她坚持自己的男伴在她穿最高的高跟鞋时也比她高,目前她身边没有合适的人。她想知道这些约会对象中有几个比她高,以及约会者身高够得上她的标准的概率是多少?这一次我们该怎么计…

【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

总体比例与样本比例 假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人“可能偏爱曼帝公司的糖球”。 结果发现,在40个人中有32个人偏爱他们的口香糖球,其余8个人则偏爱竞争对手…

学习模式上的记录之统计篇一 秩和检验

学了快三年模式了,为了说服自己模式的结果是可信的,以及对数据做更好的处理,中间补习了很多统计方面的知识,现在想想不如都放在这里,中间有很多借鉴和参考他人的博客和理解,都记录下来了,方便自…

学习模式上的记录之统计篇三 置换检验 Permutation Test

偶然间看到有人用置换检验,上午看了下基础的讲解,先记录下来以便于自己理解。 讲解内容最初看的是这个网站 置换检验可视化讲解 置换检验是一种非参数检验,也就是对数据的分布、方差等没有要求。 复习 可能有些小同志看到这里不太清楚什么是…

统计杂碎记录

统计杂碎记录 PS: 记录一些自己平时遇到的数理统计概念,持续更新中,后续补充学习 1. nested random intercept effects 建议参考:Visualizing Nested and Cross Random Effects 2. 方差膨胀因子Variance Inflation Factor (VIF) 这个概念呢…

有关方差分析的所有

不是所有也会慢慢补充 方差分析,又称 F检验。 借助于方差,对数据误差来源进行分析,从而检验多个母体平均数是否相等,也就是判断均值之间是否有差异。 单因素方差分析 (ANOVA):众多因素中只有一…

记录有关假设检验方面的学习。

什么是零假设(Null hypothesis)? 零假设是做统计检验时的一类假说,一般零假设的内容是希望能证明为错误的假设。比如,在相关性的检验中,一般会取”两者之间无关联“作为零假设,而在独立检验中&a…

两组之间的非参数检验:Mann-Whitney检验

Mann-Whitney检验 曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。 可以看作是对两均值之差的参数检验…

偏度系数与偏态系数的简要阐述

偏度系数:描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0;当偏度系数大于0时,即重尾在右侧时,称该分布为右偏(正偏态);当偏度系数小于0,即重尾在左侧…

2021的第一篇文章,开个好头先

↑ 点击上方 “可乐的数据分析之路” 关注 星标 ~ 大概率每天早8点25更新 2020年真是魔幻的一年,在2021年的开头还是要例行总结一下,今天总结的有两个人,一个是可乐我自己,一个是公众号读者:先生与狗。先生与狗的202…

【计量经济学】多元回归分析

多元回归分析–潘登同学的计量经济学笔记 文章目录多元回归分析--潘登同学的计量经济学笔记多元线性回归模型普通最小二乘法得到OLS估计值对OLS回归方程的解释多元线性回归中"保持其他因素不变”的含义OLS的拟合值和残差的性质(由单变量推广)对多元…

假设检验:以样本服从二项分布举例

目录 假设检验一、假设检验的思想二、假设检验的基本步骤1. 确定要进行检验的假设2. 选择检验统计量3. 确定用于做决策的拒绝域4. 求出检验统计量的值5. 查看样本结果是否位于拒绝域内6. 做出决策 三、举例说明例子1——某公司治疗打鼾例子2——女士品茶的故事 假设检验 一、假…

python绘制散点图时将整个区域分为10乘10个网格

#绘制散点图时将整个区域分为10乘10个网格 from matplotlib import pyplot as plt import matplotlib as mpl import pandas as pd import numpy as np mpl.rcParams["font.sans-serif"]["LiSu"] mpl.rcParams["axes.unicode_minus"]False datap…

5003笔记 Statistic Chapter9-Tree and Ensemble methods

R1,R2,R3就是leaf node页节点。internal node内节点,就是判断的条件。 决策树的评价指标是RSS,对于决策树来说,我们如何找他的预测值呢?对于回归树而言,我们会通过recursive binary splitting和greedy algorithm 树…

Acceptance-Rejection Sampling

Acceptance-Rejection Sampling 文章目录 Acceptance-Rejection Sampling[toc]1 接受拒绝采样2 Acceptance-Rejection 采样实现 1 接受拒绝采样 给定随机变量 X X X服从pdf为 f ( x ) f(x) f(x)的分布,例如 f ( x ) f(x) f(x)为正态概率密度函数,我们可…

5003笔记 Statistic Chapter7-Missing data and class imbalance

Deterministic imputation就是回归预测,可以看出预测的点其实都在回归线上。 Random imputation也不是完全随机,而是符合原始数据的分布,或者可以理解成在回归线上加了一个error。 p0是accuracy,pe是随机分类器出的随机正…

频率派VS贝叶斯派

Introduction 对概率的诠释有两大学派,一种是贝叶斯派,一种是概率派。对于观测到的样本,我们以后均采用下面的标记: X(x1,x2,...xn)T(x11x12...x1px21x22...x2p...xN1xN2...xNps)N∗pX (x_1,x_2, ...x_n)^{T}\begin{pmatrix} x_…

5003笔记 Statistic Chapter4-High dimentional visulization and analytics

常见的聚类算法: Hierarchical, K-means, Gaussian mixture, Density 5003的K-means和5318的不同。 1)选取cluster个数K 2)给所有点随机分配不同的Kth 3)计算每个Kth中心点的位置 4)计算所有点和K个中心点的距离&am…

统计学习基础——第五章 重抽样

目录 一、重抽样 1、概念 2、用途 3、缺点 4、方法 二、交叉验证法(CV) 1、验证集方法 (1)原理 (2)评价指标:均方误差 (3)缺陷 2、留一交叉验证法&#xff08…

智能运维 | 异常检测:百度是这样做的

自动异常检测旨在发现复杂业务指标(流量、收入等)的异常波动,是百度云Noah智能监控系统中的重要环节。百度的业务种类繁多,各业务的监控需求迥异,参数配置成本繁重,给异常检测带来了巨大的挑战。本文整理了…

如何做好描述统计分析?

写在前面 什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。 要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。 1、集中趋势 集中趋势就是指一组数据…

期望值、方差、协方差、相关系数,numpy 计算均值、方差、协方差,相关系数

文章目录期望值、方差、协方差、相关系数一、期望值二、方差1. 概念:2. 示例:三、协方差1. 概念:2. 示例:四、协方差矩阵1. 概念:2. 示例:五、协方差的相关系数1. 概念:2. 示例:六、…

回归分析扫盲:为什么非线性模型不能直接用最优子集选择法

最近有人给我发了篇文章: 一个问题有一堆变量,我们要选取哪些变量来建模呢?我们来看看这篇文章是怎么做的: 这个方法简单来说就是:对于这一堆变量,我们每次尝试剔除其中一个变量,然后用剩下的变…

回溯统计史

\;\;\;\;\;\;成形、系统的统计学发源于欧洲,一如其他的学科,统计学的发展离不开社会、国家的现实需求的推动,最初的国势学中杂糅着地理游记的色彩,刨去著者的主观色彩,初时的书的重要用途是展现一个国家的基本的民俗风…

Struggle to 搞懂统计学——点估计 区间估计 置信区间

文章目录点估计区间估计置信区间理解操作(重中之重)总体方差已知总体方差未知假设检验在统计学的应用过程中,总有那么几个重要的基础概念似懂非懂,就像雾里看花,你对它有一个总体的印象,但说道具体细节又似…

5328笔记 Advanced ML Chapter6-Sparse Coding and Regularisation

D是Overcompleteness过度完备的 R是Sparsity稀疏的 为什么要稀疏编码,我个人认识是让D尽可能的汇聚更多的信息,它就是一本字典,所以它的信息的超完备的,R是一种检索方式,越稀疏,检索的越快,就好…

利用python实现Diebold-Mariano检验

文章目录DM检验的原理代码实现函数说明实例本文参考DM检验的原理 给定两个预测的预测结果,我们希望比较他们的预测结果,以用于模型预测精度的比较。 Diebold-Mariano检验本质是一个t检验,用于检验产生预测的两个损失序列的平均值是否相等。…

统计学知识补充

1.k阶中心动差: 原点动差:mean0 一阶动差:恒等于0 二阶动差:即方差 2.偏度:反映随机分布的对称程度,计算方式:三阶动差/标准差的3次方; 当偏度大于0时,整体数据分布…

统计学学习日记:L1-样本、总体和变量

一、统计数据类型 1.1 按计量尺度划分 1.1.1 分类数据 能归于某一类别的非数字型数据,是对事物进行分类的结果,,数据表现为类别,是用文字来描述。 如人口按照性别划分为男,女;企业按行业属性划分为医药…

统计学学习日记:L7-离散趋势分析之偏态和峰态

一、偏态&#xff08;SK&#xff09; 1.数据偏斜程度的测度 偏态系数0为对称分布 偏态系数>0为右偏分布 偏态系数<0为左偏分布 偏态系数>1或<-1&#xff0c;被称为高度偏态分布&#xff1b;偏态系数在0.5~1或-1~-0.5之间&#xff0c;被认为是中等偏态分布&#xf…

数据统计入门之一

当我们拿到一组数据之后&#xff0c;我们如何来了解数据的基本信息呢&#xff0c;在统计学上&#xff0c;除了使用图表的方式外&#xff0c;还可以通过找到能反应数据分布的特征值来做这件事请。数据的分布特征&#xff0c;大致可以从一下三个方面进行度量&#xff1a;集中趋势…

T 检验和 Z 检验之间的区别

在统计学领域&#xff0c;假设检验在从数据中得出有意义的结论方面发挥着至关重要的作用。两种常用的统计检验是 T 检验和 Z 检验。虽然这两种检验都用于评估假设&#xff0c;但它们的应用和假设有所不同。 t 检验和 z 检验都假设数据呈正态分布&#xff08;或近似正态分布&…

机器学习-白板推导系列(十四)-隐马尔科夫(HMM,Hidden Markov Model)

14. 隐马尔科夫(HMM&#xff0c;Hidden Markov Model) 14.1 背景 14.1.1 概念回顾 机器学习派别 机器学习大致可分两派别&#xff1a;频率派和贝叶斯派的方法。 频率派 频率派的思想就衍生出了统计学习方法&#xff0c;统计学习方法的重点在于优化&#xff0c;找loss functi…

SPSS相关统计学知识精要回顾-大家都来做做

很多学生问我&#xff0c;学SPSS如果想深入学&#xff0c;那么统计学原理应该掌握到什么样的水准&#xff0c;我想说的是&#xff0c;如果真的想融会贯通&#xff0c;而不是短暂过关&#xff0c;那么应该具备一定的统计学基础&#xff0c;但是统计学知识也不是面面俱到都要去学…

《SPSS统计学基础与实证研究应用精解》视频讲解:在线分析处理报告

《SPSS统计学基础与实证研究应用精解》5.1 视频讲解 视频为《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解5.1节内容。本书已正式出版上市&#xff0c;当当、京东、淘宝等平台热销中&#xff0c;搜索书名即可。本书旨在手把手教会使…

从最大似然到EM算法浅解

转自&#xff1a;http://blog.csdn.net/zouxy09/article/details/8537620 从最大似然到EM算法浅解 zouxy09qq.com http://blog.csdn.net/zouxy09 机器学习十大算法之一&#xff1a;EM算法。能评得上十大之一&#xff0c;让人听起来觉得挺NB的。什么是NB啊&#xff0c;我们一般…

第4章 参数估计

4.1 数理统计学的基本概念 数理统计学是这样一门学科&#xff1a;它使用概率论和数学的方法&#xff0c;研究怎样收集&#xff08;通过试验或观察&#xff09;带有随机误差的数据&#xff0c;并在设定的模型&#xff08;称为统计模型&#xff09;之下&#xff0c;对这种数据进…

集中趋势

统计学分类 统计学可以分成两类&#xff1a; 描述性统计学 有一堆数据, 希望在不告诉别人所有数据的情况下介绍这些数据的情况&#xff0c;可以通过找到一些指示性的数字来代表所有的数据。 推断统计学 运用数据来对事物做结论&#xff0c;例如从总体中得到一个样本&#xff…

Excel如何分组排序

之前有同学发了一个这个问题&#xff0c;如下图所示&#xff0c;左边是原始数据表&#xff0c;标有底色的B/G/H列是要按照右表中的要求进行公式计算的。如要求所示&#xff0c;B列排名是按照某片区下某等级之间的5月业绩环比分组排名&#xff0c;G列“是否各片区等级前两名”要…

100篇原创文章,可乐de数据分析之路

↑ 点击上方 “可乐的数据分析之路” 关注 星标 ~ 大概率每天早8点25更新 哈喽&#xff0c;大家好&#xff0c;我是可乐今天整理了一下一年多来写的这100篇原创文章&#xff0c;内容涵盖Excel、SQL、Python、统计学、数据分析思维方法、读书笔记、笔试面试等内容&#xff0c;…

Python统计分析

描述性统计偏度和峰度累计值假设检验和区间估计示例1假设检验置信区间示例2假设检验置信区间描述性统计# 导入相关的包 import pandas as pd import numpy as np import matplotlib.pyplot as plt均值&#xff0c;标准差&#xff0c;分位数&#xff0c;最大&#xff0c;最小值d…

统计学习基础——第六章 线性模型选择与正则化

目录 一、子集选择 1、原理 2、最优子集选择 &#xff08;1&#xff09;原理 &#xff08;2&#xff09;不足&#xff1a;计算效率不高。 &#xff08;3&#xff09;改进&#xff1a;分支定界法。 3、逐步选择 &#xff08;1&#xff09;作用 &#xff08;2&#xff0…

线性回归、logit回归、probit回归

回归 文章目录回归线性回归古典线性回归模型的假定:OLS的推导与性质notation系数求解标准误小样本性质对应检验拟合优度检验T 检验F检验从似然比角度看F统计量大样本情况假定:性质:Probit&Logisticmodel公式边际效应(marginal effect)对logit模型:几率比(odds ratio)检验拟…

统计学习基础——第七章 非线性模型

目录 一、多项式回归 1、定义 &#xff08;1&#xff09;特点 &#xff08;2&#xff09;与线性回归模型的异同 二、阶梯函数 1、定义 2、作用 3、与分段函数区别 4、步骤 三、基函数 1、原理 四、回归样条 1、分段多项式 &#xff08;1&#xff09; 定义 &#…

【读书笔记->统计学】11-03 总体和样本的估计-样本均值的概率、中心极限定理概念简介

样本均值的概率 假设一个情境&#xff1a;曼帝糖果公司也生产小袋装糖球&#xff0c;每一个小包装袋里的糖球数目均值为10&#xff0c;方差为1。然而&#xff0c;有一个顾客买了30袋糖球&#xff0c;结果发现每袋糖球中的糖球平均数目只有8.5。求这种事情发生概率有多大&#…

统计分析__卡方分布

卡方分布 卡方分布是以一种很简单的方式和正态分布产生关联&#xff1a;如果一个随机变量X服从标准正态分布&#xff0c;那么X^2服从卡方分布&#xff0c;其自由度是1&#xff0c;n个独立的标准正态随机变量的平方和有n个自由度 在这里插入图片描述 举例 一个药品制造商接…

为什么随机误差服从正态分布?

前言正态分布的导出python绘制图像前言正态分布分布在概率论与数理统计中处于核心地位。它最初作为二项分布计算的渐近公式由棣莫弗引进&#xff0c;后被拉普拉斯发展成系统的理论&#xff0c;但把它作为一个分布来进行研究则归功于高斯&#xff0c;他在19世纪初的测量误差研究…

Advanced ML Chapter12-Multi-Task Learning

下面的要训练m次。 假设所有任务之间&#xff0c;有共同的一个参数ω0. ωi ω0 Δωi的意思是ωi在ω0的基础上&#xff0c;有一个变化量 Δωi λ Δ||ω||2加了正则想&#xff0c;如果多任务的相关性比较强&#xff0c;那么loss就比较低&#xff0c;训练的比较好。但是…

蒲丰投针问题

问题描述数学解法Python模拟18世纪法国科学家Buffon提出的一种计算圆周率π的方法——随机投针法&#xff0c;就是用一枚普普通通的针就可以计算出圆周率 &#xff0c;是不是很神奇&#xff0c;现在带着你的疑惑和我一探究竟吧。问题描述 平面上画着一些平行线&#xff0c;它们…

非参数检验方法,核密度估计简介

在20世纪&#xff0c;统计学还处于起步阶段计算机还不是那么流行的时候&#xff0c;假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代&#xff0c;正态分布可以使计算不那么繁琐。 但在这个大数据时代&#xff0c;随着计算能力的提高&#xff0c;数…

数据分析方法论(一)

数据分析方法论主要有两大块&#xff1a;1&#xff09;统计分析方法论&#xff1a;描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等&#xff1b; 2&#xff09;营销管理分析方法论&#xff1a; SWOT、4P、P…

统计学习笔记一—统计学习三要素

统计学习的三要素为&#xff1a;模型、策略、算法。 一、模型 &#xff08;1&#xff09;在监督学习当中&#xff0c;我们的目的是学习一个由输入到输出的映射&#xff0c;这个映射就是模型。一般来说&#xff0c;模型有两种形式&#xff0c;一种是概率模型&#xff08;条件概…

数据分析报告的陷阱!

【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群&#xff0c;加微信号frank61822701 为好友后入群。新开招聘交流群&#xff0c;请关注【与数据同行】公众号&#xff0c;后台回复“招聘”后获得入群方法。正文开始作为一个出生销售而又…

什么是外生变量和内生变量

python的计量经济学包statsmodels中使用endog和exog作为数据参数的变量名&#xff0c;即在估计问题中使用的观测变量。在不同的统计软件包或教科书中经常使用的其他名称&#xff0c;例如endog/exog被叫做因变量(dependent variable)/自变量(independent variable)、y/x、left h…

国庆荐书 | 2020年3季度我读过的十本好书!

这是傅一平的第355篇原创【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群&#xff0c;加微信号frank61822702 为好友后入群。新开招聘交流群&#xff0c;请关注【与数据同行】公众号&#xff0c;后台回复“招聘”后获得入群方法。正文开…

5个步骤,掌握单样本z检验 / t检验

提出问题&#xff1a;想知道北京大学所有男生的平均身高是否等于1.8米。 1、抽样&#xff08;比如抽取100人作为样本&#xff09;。 2、做出假设&#xff0c;假设北京大学男生总体的平均身高等于1.8米。&#xff08;零假设&#xff0c;null hypothesis&#xff09;。 这里用假…

统计学——第一章导论

什么是统计学&#xff1f; 统计学是一门收集、整理、显示和分析解释数据并从数据中得出结论的科学。 通俗的讲&#xff0c;统计就是利用数据&#xff0c;让数据本身说话&#xff0c;根据数据建立模型从而得出结论。 学统计有什么用&#xff1f; 这次疫情期间&#xff0c;我们可…

heavy-tailed distribution(重尾分布)

概念 在概率论中&#xff0c;重尾分布&#xff08;Heavy-tailed distribution&#xff09;是一种概率分布模型&#xff0c;它的概率分布的“尾巴”不是收敛于指数形式的。它的尾部比指数分布还要厚。在许多情况下&#xff0c;右边尾部的部分比较受到重视&#xff0c;但左边尾部…

关于F检验的读书笔记

置信区间与置信水平 置信水平越高&#xff0c;置信区间就越宽。那么置信水平越高&#xff0c;原假设是否就越可信呢&#xff1f; 并不是。置信水平越高&#xff0c;拒绝域就越窄&#xff0c;原假设就越难被拒绝&#xff0c;难以被拒绝的假设被接受了是理所当然&#xff0c;难以…

【统计学】推断统计分析——根据样本统计量推断总体参数

本文总结了数据分析中用到的推断统计分析知识点&#xff0c;是自己学习参数估计和假设检验的学习笔记。 目录一、参数估计1. 点估计2. 区间估计2.1 中心极限定理2.2 程序模拟中心极限定理2.3 正态分布的特性2.4 程序检验正态分布的特性2.5 行业应用二、 假设检验1. 相关概念2.假…

KS,KL,JS 如何判断两组数据是否同分布 python实现

文章目录KS(不需要两组数据相同shape)JS散度&#xff08;需要两组数据同shape&#xff09;喜欢的话请关注我们的微信公众号~《 你好世界炼丹师》。公众号主要讲统计学&#xff0c;数据科学&#xff0c;机器学习&#xff0c;深度学习&#xff0c;以及一些参加Kaggle竞赛的经验。…

【计量经济学】简单回归模型

简单回归模型–潘登同学的计量经济学笔记 文章目录简单回归模型--潘登同学的计量经济学笔记方程及名称由两条基本假设推导最小二乘法矩估计求得β0\beta_0β0​与β1\beta_1β1​为什么叫普通最小二乘法OLS统计量的代数性质SST、SSE、SSR拟合优度在简单回归中加入非线性因素常弹…

Python数据分析实战:缺失值处理

写在前面上周我们读取完了数据&#xff08;Python数据分析实战&#xff1a;获取数据&#xff09;&#xff0c;下面就要对数据进行清洗了&#xff0c;首先是对缺失值的处理。缺失值也就是空值&#xff0c;先找出来再处理。查看缺失值可以使用isnull方法来查看空值&#xff0c;得…

统计学习基础--第一、二章 导论

一、data的理解 我们把data分为训练集和测试集&#xff0c;其中训练集用于建立模型&#xff0c;通常要占data的80%&#xff1b;而测试集则是用于预测分析&#xff0c;观察拟合出的模型的效果。 二、数据预处理 1、处理数据文件格式&#xff1b; 2、观察数据是否有缺失值或异…

112篇数据分析原创内容合辑

↑ 点击上方 “可乐的数据分析之路” 关注 星标 ~ 大概率每天早8点25更新 哈喽&#xff0c;大家好&#xff0c;我是可乐这是 可乐的数据分析之路 公众号112篇原创文章&#xff0c;内容涵盖Excel、SQL、Python、统计学、数据分析思维方法、读书笔记、笔试面试等内容&#xff0…

假设检验的P值

假设检验的P值 统计学中的假设检验P值相信很多人很困惑 真正的大师 话说的都很简单&#xff0c;不容易理解。还有的正话反说&#xff0c;感觉故意给人造成麻烦。 像上边的拒绝为真错误的实际概率 其实是 拒绝为真导致犯错的实际概率。 在我理解就是 P值就是 原假设正确的概…

R语言和医学统计学(10):正态性和方差齐性检验

本文首发于公众号&#xff1a;医学和生信笔记&#xff0c;完美观看体验请至公众号查看本文。 医学和生信笔记&#xff0c;专注R语言在临床医学中的使用&#xff0c;R语言数据分析和可视化。 文章目录前言正态性检验shapiro wilk检验kolmogorov smimov检验方差齐性检验两样本方差…

简单地聊聊统计学

写在前面 这个系列会写一下有关统计学的知识和实际中的运用&#xff0c;今天这篇文章先从最基本的开始。 1、什么是统计学&#xff1f; 统计学&#xff0c;就是收集、处理、分析、解释数据并从中得出结论的一个学科。不管你是做什么行业&#xff0c;只要接触到数据&#xff…

如何进行数据图形化?

上一小节内容 简单地聊聊统计学 里提到了数据类型&#xff0c;那么这一节就要针对不同类型的数据说一说数据图形化的展示&#xff0c;对定性数据主要做分类&#xff0c;对定量数据则主要在分组。1、定性数据的图示方法 不管是定性数据还是定量数据&#xff0c;最好的整理方法都…

【青书学堂】作业-统计学(高起专)

【青书学堂】作业-统计学(高起专) 第1题 单选题 下列关于标准差的说法中错误的是( )。 选项: A: 标准差一定大于0 B: 标准差和方差属于描述变异程度的同类指标 C: 同一资料和标准差一定小于均数 D: 标准差常用于描述正态公布资料的变异程度 答案:B 第2题 单选题 以…

《统计学习方法》 第四章 朴素贝叶斯

这一章节需要一些概率论的学习基础&#xff0c;学过概率论的朋友会很容易理解。 朴素贝叶斯法是基于贝叶斯定理 与特征条件独立假设的分类方法&#xff0c;是一种典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后球的后验概率分布P(Y|X)。具体来说&#xf…

《统计学习方法》 第五章 决策树

前言 决策树是一种基本的分类与回归方法。以下主要讨论用于分类的决策树。决策树模型呈树形结构&#xff0c;在分类问题中&#xff0c;表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合&#xff0c;也可以认为是定义在特征空间与类空间上的条件概率分布。 …

二、数据分布特征的测度

数据分布的特征 &#xff11;、集中趋势&#xff1a;各数据向中心值靠拢或聚集的程度&#xff1b;【平均数、中位数、四分位数、众数】  2、离散程度&#xff1a;各数据远离其中心值的趋势&#xff1b;【极差、四分位差、方差、标准差、离散系数】  &#xff13;、分布形状&…

初识假设检验

1. 什么是假设检验 (Hypothesis test) 假设检验是先对总体参数提出某种假设&#xff0c;然后利用样本信息判断假设是否成立的过程。 它采用逻辑上的反证法和依据统计上的小概率原理。小概率思想认为小概率事件在一次实验中基本不可能发生&#xff0c;所以我们假设检验的逻辑是…

机器学习算法基础:硬核高斯分布

提前放狠话&#xff1a;看不懂打si我吧&#xff0c;真的很细节了。 提前了解&#xff1a; 1、极大似然估计&#xff08;MLE&#xff09;、最大后验概率估计&#xff08;MAP&#xff09;、贝叶斯估计区别 2、正定矩阵与半正定矩阵定义性质与理解 3、马氏距离和欧式距离详解 4、参…

数据科学知识库

​ 我的博客是一个技术分享平台&#xff0c;涵盖了机器学习、数据可视化、大数据分析、数学统计学、推荐算法、Linux命令及环境搭建&#xff0c;以及Kafka、Flask、FastAPI、Docker等组件的使用教程。 在这个信息时代&#xff0c;数据已经成为了一种新的资源&#xff0c;而机…

概率和似然

在日常生活中&#xff0c;我们经常使用这些术语。但是在统计学和机器学习上下文中使用时&#xff0c;有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。 概率与似然 假设在一场棒球比赛中&#xff0c;两队的队长都被召集到场上掷硬币。获胜的队长将根据掷…

基金2021第一季度持仓数据发布!还不赶紧来抄作业!

最新2021第一季度基金持仓明细已经发布。我们已经整理了本季度数据和上季度的数据&#xff0c;一同上传至知识星球。个股视角的统计数据内容中包括了这些选项&#xff1a;报告日期基金家数及与上期相比增减基金持股数&#xff08;万股&#xff09;及与上期相比增减基金持股市值…

协方差、相关系数、样本方差的分母是 n-1、协方差矩阵(covariance matrix)

1.协方差 可以通俗的理解为&#xff1a;两个变量在变化过程中是同方向变化&#xff1f;还是反方向变化&#xff1f;同向或反向程度如何&#xff1f; 你变大&#xff0c;同时我也变大&#xff0c;说明两个变量是同向变化的&#xff0c;这时协方差就是正的。 你变大&#xff0…

My Note of Maximum Entropy

Note for Maximum Entropy Notations P P P: model distr. P ~ \tilde{P} P~: empirical/sample distr. (Dirac distr.) { x i } \{x_i\} {xi​}: sample f j f_j fj​: features E P f E_Pf EP​f: expectation under the distr. P P P Maximum Entropy Def. Max Entropy(…

数据分析之Logistic回归分析(二元逻辑回归、多元有序逻辑回归、多元无序逻辑回归)

1、Logistic回归分类 在研究X对于Y的影响时&#xff1a; 如果Y为定量数据&#xff0c;那么使用多元线性回归分析&#xff1b;如果Y为定类数据&#xff0c;那么使用Logistic回归分析。 结合实际情况&#xff0c;可以将Logistic回归分析分为3类&#xff1a; 二元Logistic回归…

和机器学习和计算机视觉相关的数学(from LinDahua)

From: http://dahua.spaces.live.com/default.aspx1. 线性代数 (Linear Algebra)&#xff1a;我想国内的大学生都会学过这门课程&#xff0c;但是&#xff0c;未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础&#xff0c;对它的透彻掌握是必不可少的。我在科…

2024年(第十届)全国大学生统计建模大赛选题参考(二)

1. 《智能化转型对中小企业成长影响的实证分析——基于长期面板数据》 研究背景 在数字化时代背景下&#xff0c;智能化转型成为推动中小企业&#xff08;SMEs&#xff09;持续成长的关键因素之一。本研究旨在探索智能化转型对中小企业成长的影响&#xff0c;并分析不同成长阶…

斯坦福 Stats60:21 世纪的统计学:第十五章到第十八章

第十五章&#xff1a;比较均值 原文&#xff1a;statsthinking21.github.io/statsthinking21-core-site/comparing-means.html 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 我们已经遇到了许多情况&#xff0c;我们想要询问样本均值的问题。在本章中&#xff0c;我们…

大学统计学基础知识笔记

本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间序列分析及指数是金融方面的应用,也一并略去,如有需要请查…

辨析:方差 和 均方误差 的联系和区别

在学习回归问题评价指标时&#xff0c;一会遇到 方差 一会遇到均方误差&#xff08;Mean Squared Error&#xff0c;MSE&#xff09;&#xff0c;感觉这两长得很像&#xff0c;所以总是搞混&#xff0c;所以进行一下对比&#xff1a; 公式&#xff1a; 方差&#xff1a; 、 …

数据挖掘与数据分析之统计知识篇

1、自由度是什么&#xff1f;怎么确定&#xff1f; 统计学上&#xff0c;自由度是指当以样本的统计量估计总体的参数时&#xff0c;样本中独立或能自由变化的数据个数叫自由度。一般来说&#xff0c;自由度等于独立变量减掉其衍生量数。举例来说&#xff0c;变异数的定义是样本…

概率统计Python计算:假设检验应用——多个总体同分布检验

设有vvv个总体X1,X2,⋯,XvX_1,X_2,\cdots,X_vX1​,X2​,⋯,Xv​&#xff0c;从每个总体XjX_jXj​中取得样本X1j,X2j,⋯,XnjjX_{1j},X_{2j},\cdots,X_{n_jj}X1j​,X2j​,⋯,Xnj​j​&#xff0c;j1,2,⋯,vj1,2,\cdots,vj1,2,⋯,v。将实数区间(−∞,∞)(-\infty,\infty)(−∞,∞)…

数据分析 | 全距和四分位距分别是什么

大家好&#xff0c;我是翔宇&#xff01; 不知道全距这个最基本的含义你是否知道&#xff0c;那么它能给我们提供什么信息呢&#xff1f;我们知道&#xff0c;在描述数据时&#xff0c;我们通常会采用均值或众数又或中位数来简单描述一组数据&#xff0c;但是&#xff0c;我们发…

R语言极值统计

详情点击链接&#xff1a;基于R语言的极值统计学 前言 受到气候变化、温室效应以及人类活动等因素的影响&#xff0c;自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁&#xff1b;在人类社会中&#xff0c;股市崩溃、金融危机等极端情况也时有发生&#…

统计学习基础--第三章 线性回归

目录 一、简单线性回归 1、表达式 2、估计系数 &#xff08;1&#xff09;方法&#xff1a;最小二乘法 &#xff08;2&#xff09;实质&#xff1a;​ &#xff08;3&#xff09;结果 &#xff08;4&#xff09;评估系数估计的准确性 3、评估模型的准确性 二、多元线性回…