基于Matlab检测多元数据集中的异常值
基于Matlab检测多元数据集中的异常值
TT_Matlab
博主简介:擅长智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、路径规划、无人机等多种领域的Matlab仿真,完整matlab代码或者程序定制加qq1575304183。
✅作者简介:热爱科研的Matlab仿真开发者,修心和技 术同步精进,
代码获取、论文复现及科研仿真合作可私信。
个人主页: Matlab科研工作室
个人信条:格物致知。
更多Matlab完整代码及仿真定制内容点击
智能优化算法 神经网络预测 雷达通信 无线传感器 电力系统
信号处理 图像处理 路径规划 元胞自动机 无人机
内容介绍
在数据分析和统计学中,检测异常值是一个非常重要的步骤。异常值是指与其他观测值相比具有显著不同特征的观测值。在多元数据集中,异常值可能会对分析结果产生严重影响,因此及早发现和处理异常值是至关重要的。
要检测多元数据集中的异常值,首先需要对数据集进行可视化和描述性统计分析。通过绘制散点图、箱线图和直方图等图表,可以直观地发现数据中的异常值。同时,通过计算均值、标准差、中位数等统计指标,也可以初步了解数据的分布情况。
除了可视化和描述性统计分析,还可以利用一些统计方法来检测异常值。其中,最常用的方法包括Z得分法、箱线图法和距离法。Z得分法是通过计算观测值与均值的标准差之差来判断是否为异常值;箱线图法则是通过观察数据的四分位数范围来判断异常值;距离法则是通过计算观测值与其他观测值之间的距离来判断异常值。
除了统计方法,还可以利用机器学习算法来检测异常值。一些常用的机器学习算法,如孤立森林算法和LOF(局部异常因子)算法,都可以用来识别多元数据集中的异常值。
在检测到异常值之后,需要及时对异常值进行处理。处理异常值的方法包括删除异常值、替换异常值和将异常值作为特殊情况进行处理等。根据具体的数据情况和分析目的,选择合适的处理方法是非常重要的。
总之,检测多元数据集中的异常值是数据分析和统计学中的重要环节。通过可视化、描述性统计分析、统计方法和机器学习算法等多种手段,可以有效地发现和处理数据中的异常值,从而保证分析结果的准确性和可靠性。希望本文对大家有所帮助,谢谢阅读!
部分代码
%
%
INPUT
:
% -
X
:
N
-by-d array of d-dimensional data points/vectors,
where
N
is
% the total number of samples.
% -
Co
:
optional
input argument specifying the starting point
for
the
% optimization.
Co
=(
W’
*
X
)/sum(
W
)
is
the
default
setting; see
% definition of
W
below.
% - opt :
optional
input argument specifying converge criteria;
% opt=[
Nmax
tol],
where
Nmax
is
maximum number of iterations
% and tol
is
maximum change
in
position of the median
% between two successive iterations. opt=[
50
1E-
6
]
is
the
%
default
setting.
Optimization
terminates when either one
% of the above criteria
is
met.
% -
W
:
optional
input argument.
W
is
a
N
-by-
1
vector of (positive)
% weights assigned to the points
in
X
.
W
=ones(
N
,
1
)/
N
is
the
%
default
setting.
%
%
OUTPUT
:
% -
C
:
1
-by-d vector specifying geometric median of
X
.
% -
E
:
1
-by-(
K
+
1
) vector containing values of the total (weighted)
% absolute
distance
from
X
to
C_k
where
C_k
is
the estimate of
%
C
at iteration k;
K
is
the total number of iterations.
%
E
(
1
) corresponds to initialization.
%
%
REFERENCES
:
% [
1
] http:
//en.wikipedia.org/wiki/Geometric_median
%
%
AUTHOR
:
Anton
Semechko
()
%
if
nargin<
3
|| isempty(opt), opt=[
50
1E-
6
]; end
opt=
abs
(opt);
if
~isnumeric(
X
) || ~ismatrix(
X
)
error(’1st input argument (
X
) must be a 2D array, with observations along the rows’)
end
if
numel(opt)~=
2
|| ~isnumeric(opt)
error(’
Converge
criteria must be specified
as
a
1
-by-
2
array; [
Nmax
tol].
See
function description
for
more info.’);
end
E
=[];
if
isempty(
X
),
C
=[];
return
; end
d=size(
X
,
2
);
if
nargin<
4
|| isempty(
W
)
W
=ones(size(
X
,
1
),
1
);
elseif numel(
W
)~=size(
X
,
1
) || sum(
W
<
0
)>
1
error(’
Invalid
format
for
4th input argument (
W
)’)
end
W
=
abs
(
W
(:));
W
=
W
/sum(
W
);
if
nargin<
2
|| isempty(
Co
)
Co
=
W’
*
X
;
end
if
numel(
Co
)~=d
error(’
Dimensionality
of the starting point does not match dimensionality of the data’)
end
Co
=
Co
(:)’;
if
d==
1
,
Co
=median(
X
); end
%
Sum
of distances
if
nargout>
1
E
=
W’
*sqrt(sum(bsxfun(@minus,
X
,
Co
).^
2
,
2
));
end
%
Compute
geometric median
C
=
Co
; dC=
Inf
; opt(
2
)=
max
(opt(
2
).^
2
,1E-
16
);
a=1E-
1
;
n=
1
;
while
n<=opt(
1
) && dC>opt(
2
)
n=n+
1
;
w=sqrt(sum(bsxfun(@minus,
X
,
C
).^
2
,
2
))./
W
;
if
nargout>
1
,
E
(
1
,n)=sum(w); end %#ok<*
AGROW
>
w=
1
./(w+a); % a
is
added
for
2
reasons:
1
) to avoid potential division by
0
, and
2
) to help overcome local minima when
C
is
close to one of the sample points
Cn
=sum(bsxfun(@times,
X
,w),
1
)/sum(w);
dC=sum((
C
-
Cn
).^
2
);
C
=
Cn
;
a=
max
(a/
10
,eps); % relax regularization parameter a
%fprintf(’%3u %.3E
’,n,sqrt(dC/opt(
2
)))
end
⛳️ 运行结果
参考文献
[1]潘丽静.基于Matlab语言的统计数据异常值检验[J].赤峰学院学报:自然科学版, 2012(21):2.DOI:10.3969/j.issn.1673-260X.2012.21.004.
部分理论引用网络文献,若有侵权联系博主删除
关注我领取海量matlab电子书和数学建模资料
私信完整代码、论文复现、期刊合作、论文辅导及科研仿真定制
1 各类智能优化算法改进及应用
生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化
2 机器学习和深度学习方面
卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断
2.图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知
3 路径规划方面
旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化
4 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配、无人机安全通信轨迹在线优化
5 无线传感器定位及布局方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化
6 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化
7 电力系统方面
微电网优化、无功优化、配电网重构、储能配置
8 元胞自动机方面
交通流 人群疏散 病毒扩散 晶体生长
9 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
