「一起学」Udaicty 数据分析(入门)P1 项目总结

失踪人口回归了~
是的~你没看错,迟早会更新专栏终于更新了,经历了搬家、业务线调整,上完李叫兽的课后,又顺手去 Udacity 修了数据分析(入门)课程和机器学习(进阶)。真心没有时间啊~ 顺利三个月完成了 Udacity 的数据分析课程~ 学完后开始撸机器学习了~不过因为学习的过程比较快,所以想通过写文章的方式重新过一下所学的东西,夯实下~ 如果有任何疑问也欢迎留言~ 最后,最重要的就是如果你也想在 Udacity 学习数据分析或者机器学习的话,可以输入这个优惠码哦:28716825 ,便宜300块~

Udacity 有何不同?

言归正传,首先说下 Udacity 与一般网课有何不同,我总结出了以下几点:
不只是上课:一般网课视频+练习,而 Udacity 则是网课+练习+项目的方式,每个阶段会有一个小项目,完成了这个项目就可以继续往后学习。
不只是写项目:像 Coursera 这类平台上的课程,也有一些是采用网课+练习+项目这种方式,但是 Udacity 和他们另一个不同是有导师修改,像我之前在 Coursera 上修过几门课,一般都是学生互改,学生可以通过跑一遍代码,看结果对不对。但是代码写对了,也不一定写得好啊~而 Udacity 的导师则会判断你写没写对的同时,告诉你写没写好~
不只是单纯地叫知识点:各知识点还会推荐各种辅助阅读。
学费有点小贵:别忘了这个优惠码 28716825

P1 项目背景

数据分析第一部分主要教统计学的知识,所以要求学生使用统计学的方法分析 Stroop (斯特鲁普)任务。

在 Stroop 任务中,参与者得到了一列文字,每个文字都用一种油墨颜色展示。参与者的任务是将文字的打印颜色大声说出来。这项任务有两个条件:一致文字条件,和不一致文字条件。

在一致文字条件中,显示的文字是与它们的打印颜色匹配的颜色词,如“红色”、“蓝色”。在不一致文字条件中,显示的文字是与它们的打印颜色不匹配的颜色词,如“紫色”、“橙色”。

在每个情况中,我们将记录说出同等大小的列表中的墨色名称的时间。每位参与者必须全部完成并记录每种条件下使用的时间。

项目问题

我们的自变量是什么?因变量是什么?
此任务的适当假设集是什么?你需要以文字和数学符号方式对假设集中的零假设和对立假设加以说明,并对数学符号进行定义。你想执行什么类型的统计检验?为你的选择提供正当理由(比如,为何该实验满足你所选统计检验的前置条件)。
报告关于此数据集的一些描述性统计。包含至少一个集中趋势测量和至少一个变异测量。
提供显示样本数据分布的一个或两个可视化。用一两句话说明你从图中观察到的结果。
现在,执行统计测试并报告你的结果。你的置信水平和关键统计值是多少?你是否成功拒绝零假设?对试验任务得出一个结论。结果是否与你的期望一致?

我的答案

一、自变量 & 应变量

自变量:文字条件(颜色与文字一致或不一致)
应变量:说出同等大小列表中的墨色名称时间

二、适当假设集是什么?对于此假设,你想要执行什么类型的 统计检验 ?

2.1 假设集

假设「颜色与文字一致」情况的总体均值为 ;「颜色与文字不一致」情况的总体均值为 。

  • H0 = 文字条件对说出同等大小列表中的墨色名称时间没有影响
  • Ha = 文字条件对说出同等大小列表中的墨色名称时间有影响

数学表达式:
H0:$\mu_{con}=\mu_{incon}$
Ha:$\mu_{con}\ne\mu_{incon}$

2.2 执行何种假设

因为:

  • 实验是通过重复实验的到不同的结果
  • 总体均值、标准差未知
  • 样本量只有两组,样本量偏少

同时比对 T 检验的前提条件:

  • 受试者是从独立总体中随机挑选出来的随机样本
  • 总体的分布应该是正态分布
  • 因为同一实验员参与两组条件不同的实验,所以样本数据可以估算出总体方差
  • 同时总体方差应该大概相等

所以采用 T 检验。

因为否定原假设,需要证明两种情况:

  • 时间减少
  • 时间变长

所以采取双尾检验。综上所述,本次检验采取双尾T 检验(alpha水平为0.05)

三、描述性统计(至少一个集中趋势测量,变异测量)

四、可视化

通过以下柱状图可得,红色的柱子(incongruent)基本上都高于蓝色的柱子(congruent)。

五、置信水平和关键统计值,是否成功拒绝零假设?结果是否与你期望一致?

第一步:查表得出 t critical
因为:

  1. alpha = 0.05
  2. 自由度为 23
  3. 双尾 t 检验

所以经查表可得 $t_{critical} = \pm2.069$

第二步:计算 t 统计值
$t = \frac{\mu_{d}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\sum_{i=1}^{n}{(y_{i}-x_{i})}-\mu}{\frac{S}{\sqrt{n}}} = 8.020707$

第三步:比较 P 值
0.001 < 0.05
第四步:得出结论
根据以上推算可得:

  1. t 统计值大于 t 临界值
  2. P 值远远小于0.05

所以我们成功拒绝原假设。即:文字条件对说出同等大小列表中的墨色名称时间有影响。

六、参考内容

  1. 双尾检验和单位检验的区别
  2. 《统计学(第六版)》贾俊平著
  3. Assumptions for the t-test
Comments
Write a Comment