中国股民股票投资状况问卷调查与分析
案例01
中国股民股票投资状况问卷调查与分析
一,教学目的
编入案例教材中的这个案例,是属于社会调查或市场调查的一个案例.通过
这个现实的案例,旨在使学生理解和掌握两个方面的知识:一是市场调查知识,
包括调查方案的制定,问卷的设计,抽样框的确定,数据的具体搜集过程,问卷
的汇总,审核,编码,数据录入和数据汇总这一市场调查的全过程,通过这个案
例体会市场调查各个工作环节的重要意义及其具体组织过程;二是通过本案例提
供的数据库,让学生把所学过的各种统计分析方法结合案例数据进行分析,领会
各种统计数量分析方法的分析过程和在应用中的意义,合理的解释各种分析结
果,并在各种方法的应用中,学会选择较优良的较适用的方法.
在理解上述案例的调查过程和案例数据的分析结果的基础上,教师可组织学
生对这一调查案例的各个环节的工作进行讨论,对各种计算和分析的结果进行讨
论.最后,要求学生自己拟定一个调查题目,设计调查方案和抽样框,自己动手
设计问卷,并亲自进行调查,搜集数据(不一定要求样本很大),然后对问卷进
行审核,汇总,编码和数据录入,最后对调查的数据进行统计处理和分析,写出
综合分析报告,提出相应的建议.这也是编辑本案例的最终目的.
二,本案例所采用的分析方法
本案例数据属截面数据,就本案例的数据库本身来说,可以运用许多统计方
法对样本(Q分析)和变量(R分析)进行统计计算和统计分析,也可以对各个
样本群(地区)进行统计比较分析.根据这个样本数据,可以进行基本的描述统
计分析,也可以进行推断统计分析;可以进行单变量统计计算与分析,还可以进
行双变量和多变量的统计分析;可以就各个样本群(地区)进行聚类比较分析,
还可以就变量进行组成分分析和因子分析.运用哪些方法进行分析,首先要看这
个案例主要想解决哪些问题,对于解决这些问题哪些方法最使用;其次要看学生
已经学过了哪些方法,老师正在给学生讲解哪些方法,以及学生和老师对哪些方
法感兴趣.
对于"中国股民股票投资状况问卷调查与分析"这个案例来说,其主要目的
是想了解当前中国股民的总体投资结果如何,股民基本的自然特征和社会特征是
什么,主要采用什么方法进行投资,赚钱的主要原因和赔钱的主要原因等问题.
在选择统计方法和运用统计分析软件进行分析时,我们主要关注股民的投资结果
与自然特征(如性别和年龄)之间是否存在高队和显著的相关关系,股民的投资
结果与其社会特征(如学历,职业,职务,风险意识,投资经历长短,采用的方
法等之间是否存在高度和显著的相关关系,股民的某些自然特征和社会特征之间
(如性别,年龄与风险意识,学历,风险意识和投资结果)是否存在显著的相关
关系,影响投资结果的最主要因素是什么,等等.相关性分析与检验,特别是其
中的列联表分析技术(CROSSTABLE ANALYSIS)是本案例中应用最主要的方
法.
比如,以RESULT(投资结果)为因变量,以SEX(性别),AGE(年龄),
EDU(学历水平),RANK(职务级别),TIME(出入市时间间隔),RISK(风
险意识),HOWLONG(买卖股票时间经历)等为自变量,运用列联表技术进行
相关分析和检验,并对分析结果进行讨论和评价.
三,案例教材中讨论的解答要点
1.根据所学过的文件调查和问卷设计方面的知识,请对本次调查设计的问
卷及调查操作的程序做出评价,指出存在哪些问题,如何改进.
任何问卷设计和调查程序都不可能是完美无缺的,总是要存在这样和那样的
问题.但总的指导思想是:问卷中的问题应围绕调查的目的来设计.问卷中的问
题是有限的,不能定的过多,否则被调查者会产生厌倦情绪,从而影响回答问题
的准确性;问题也不能定的太少,这样机会和资源没能得到充分的利用.一般以
二十个左右的问题为宜.各个问题应进行科学严谨的设计.问卷中的第十八个问
题"您无业原因",似乎与研究的主题关系不大.
另外,对问题的分组,如学历分为"文盲","小学","中学"等,资金规模
分为"1万元以下","1万~3万元","3万~5万元"等,分组的粗细也要根据需
要来确定.
这次问卷调查的操作程序,从提出研究的问题,制定调查方案,到最后问卷
的回收,问卷编码,数据录入和数据的处理,基本上是严格按照调查的里捆程序
进行操作的.按要求,调查组织的各个环节,各个工作步骤都应该有专家指导,
以保证调查工作按方案中规定的程序完成,尽量减少和避免误差的产生.不足的
是,由于调查样本地域分布太大,无法到各个调查点进行指导和监督,所以这个
环节最可能产生较大的调查误差.
2.根据所学过的知识,对这次调查的样本选取方法,数据取得方法及可能
对数据质量产生的影响做出评价,指出存在哪些问题,如何改进.
样本的取得方法是否遵循随机原则,是否有代表性,直接影响数据的质量.
本案例中样本的取得方法存在比较明显的问题,即没有完全遵循随机原则,样本
选取的多少与地区人口之间不成比例,通过样本数据分布图可以清晰看出这一点
(见下面分析的第一个问题).尽管样本覆盖了全国20个省,自治区,和直辖市
的56个城市,但各个省区和城市以及证券公司营业部的选取并不是按照随机原
则进行的,这在一定程度上会影响数据的质量,我们在根据样本指标值推断总体
特征值时,应注意这一点.
另外,在数据的取得方面,由于地域分散,尽管我们对访员调查做了严格的
培训和组织安排,但仍然无法对访员的调查过程进行监督,从而也很难保证每个
访员都按严格的操作程序取得数据,这也是可能产生数据误差的一个原因.还有,
按要求被调查对象即包括"散户",也包括"大户",但往往大户们身居"大户室",
访员们很容易更多地调查散户,于是很可能导致股民平均投资资金规模的低估.
3.关于分析方法,我们建议先对数据进行逻辑性检验,以对数据的有效性
有个基本的把握.SPSS中的EXPLORE(数据探索性分析)就是一种很有效的
方法.其次计算主要的单变量的统计特征值及频数分布,然后对有意义的变量间
进行双变量的列表,如投资结算与学历水平间的关系分析,与股票买卖时间经历
长短的关系的分析等.最后运用列联表方法对有意义的两两变量间的相关关系进
行检验与分析.
关于采用什么样的分析方法,运用什么样的统计分析软件,可以更为灵活一
些.就本案例的数据来说,可以用SPSS 和SAS软件进行检验与分析.对同一
问题,不妨采用几种方法进行分析,或运用不同的统计分析软件进行分析,并对
分析结果进行比较和评价.
我们建议,根据这个调查数据库,让学生们做一个全面深入的分析报告.分
析什么问题,采用什么方法,完全由学生自己决定.让学生主动地思考问题,在
分析比较中选择方法,通过自己动手和动脑分析体会各种统计方法的意义.最后
老师做总结,并组织学生进行案例研讨.这也是本案例的初衷所在.关于绘制统
计图形,可根据研究的需要和学生的兴趣自己确定.
四,需要进一步讨论的问题
1.根据以上案例,进一步说明如何准备一项市场调查,如何组织一项市场
调查抽样误差可能产生在调查过程的哪些环节
2.什么是问卷的设计 怎样进行科学的问卷设计 设计问卷时应考虑哪些
问题
3.什么是问卷的编码 编码在问卷的计算机数据处理过程中起什么样的作
用 问卷编码应遵循什么样的原则
4.根据上述问卷表提供的数据信息,你认为用什么样的统计分析方法最能
有力地说明所要研究的问题 用统计列联表分析技术研究上例中的数据关系,你
认为是否是最为合适的方法 如果不是,应该用什么方法进行分析更好
5.根据上述问卷表的问题结构和变量数据特征,你认为可以用哪些统计方
法进行分析而且分析的结论又有时间意义 请一一列出这些方法.
6.根据本案例数据库,你认为应该如果做进一步的数据开发,做哪些方面
反而数据开发,才能最大限度地发挥出该数据库的应有效益
7.通过学习这个案例,你是否可以独立地组织一项社会调查 如果能,请
对某一个有意义的问题进行调查(校内或校外),最终些出分析报告,如果不能,
问题出在哪里,请一一提出.理论上弄清楚以后,再做时间调查.
五,数据描述
数据问卷位置和文件名:a:\case01\data1.txt
用SPSS FOR WIN7.5软件读取该案例数据的基本步骤是:
第一,拷贝a:盘中case01\data1.txt到硬盘c: ;
第二,用SPSS中的OPEN命令,打开数据文件,观察数据文件的格式,变
量个数和变量名.
第三,用READ ASCII FILE命令读入本案例的文本数据文件.在给变量命
名时,最好用原来的变量名.因为变量很多,重新起名引起混乱.
六,对本案例数据的实际分析
(一)数据的逻辑性检验
逻辑性检验,即运用SPSS中的探索性数据分析方法(EXPLORE命令),对
数据文件样本及各个变量逐个进行检验,以检查其有效数据及无效数据的比重,
在分析前做到心中有数.
下面是对变量CASE(样本)所进行的探索性数据分析,主要是对样本数及其在
各个城市间的分布进行检验.包括以下几个结果:Case Processing Summary(样
本处理汇总表),Descriptives(描述统计量),Test of Normality(正态分布检验),
Histogram(直方图),Normal Q-Q Plot of the Number of Samples in Each City(各城
市样本数分布的正态概率分布图,Detrended Normal Q-Q Plot of the Number of
Samples(样本数分布无趋势正态概率图,又称离查图).结果如下:
Explore(数据探索和检验)
表(1-1) 样本处理汇总表(Case Processing Summary)
Case
Valid Missing Total
N Precent N Precent N Percent
The Number of
Sample in Each
City
5641 100.0 0 0 5641 100.0
从表1-1可以看出,数据文件中总样本5 641个,有效样本5 641个.在表
1-2中,每个城市中的样本平均分布是133.30个.最小个数是1个,最大个数是
794个.偏度(Skewness)值为1.954,表明样本数在各个城市间的分布是正态
的,即图形呈右偏态.峰度(Kurtosis)值为3.381,表明样本分布呈尖顶分布.
表1-3正态检验表(Test of Normality)中的Kolmogorov-Smirnov(柯尔莫歌洛夫—
斯米诺夫)统计量为0.213,显著性水平为0.000,查表得临界值为0.050.076Tα==,
拒绝零假设,表明样本在各个城市间不遵循正态分布.
表1-2 样本数在各城市分布的描述统计量表(Descriptives)
Statistic Std.error
Case Mean 133.3031 2.2154
95% confidence lower bound 128.9600
Interval for mean upper bound 137.6462
5%trimmed mean 111.6424
Median 65.0000
Variance 27868.893
Std.deviation 166.3938
Minimum 1.00
Maximum 794.00
Range 793.00
Interquartile range 137.0000
Skewness 1.954 0.033
kurtosis 3.381 0.065
表1-3 样本数据在各城市分布的正态检验表(tests of normality)
Kolmogorov - simirnov
Statistic df Sig
The number of samples in each city 0.213 5641 0.000
说明: a.lilliefors significance correction
样本在各个城市间的分布状态也可以从分布直方图和正态概率曲线图及正
态曲线离差中看出来,见图1-1.
(') ) G Ne)[ ×E G iC4§p(result)E G _E > d
运用spss 中的 frequency 命令.结果包括两个表一个图.即投资结果变量
result 统计表,投资结果result 频率分布表和投资结果饼形图.
表1-4 投资结果变量(result) 统计表(statistics)
N
Vilid Missing
Mean median mode
Std.
deviation
skewnessn Kurtosis
Stiatistic Statistic Statistic statistic statistic statistic
statisti
c
Std.
error
statistic Std.error
The Result
of
investment
5606 35 2.08 2.00 3 0.82 -0.143 0.033 -1.508 0.065
表1-5 股民投资结果频率分布表(the result of investment)
frequency percent Valid percent Cumulative percent
Valid Gain 1697 30.1 30.3 30.0
Break even 1780 31.6 31.8 62.0
Lose 2129 37.7 38.0 100.0
Total 5606 99.4 100.0
Missing 9 35 0.6
Total 35 0.6
Total 5641 100.0
Ne)[><1-5 , ¨iC4§pE G k D5606 ¨J
×"#~
6u/ ,X / A¨"'¨6u/< ,XA× 4§p
:C.J 5 !¤G 30.3%¨C(J 5 !¤G 38.0%¨AEC(AEC.,X!¤G 31.8%¨ 5
·" 41/3¨ C(J 5 ~
E 4§p,X dh"… K Nl: 1 , '; ,X 8 ) ,C(J !¤G
,ü"y ,·!8 E~C(J !¤G Ax^6 #";1',6u ü(/ ó
F… F C.J ^6 C.J ,5à'^ ó F… íF C(J ^6 C(J ,5à ,XA×
ó1997H8 ,!7 6u d.
( ) G d:iC4§p iC5 HUXK¨G2ˇ d
E G , U5× iC5 HUX ×( ,iC5 HUX ,$4§pK¨,XG2ˇ.
M6,XHUX ×,¨ ( 1-5)'HUX iC4§pG2ˇ><1-6DB^ , ,6u/<~
ü+ iC5 ¨88.0%,X _ 6u/ AxA ,X+ iC5 JC.J ,X!¤)[19.0%¨G34.0%~^ ¨6u/C! iC · AxA ¨ 6u/<,XiC4§p :+E ,X~" M6¨
再看女性投资者的情形.女性投资者对风险有充分认识的占83.1%,无充分认识
的占16.9%.对风险有充分认识的女性赚钱比率为27.1%,对风险无充分认识的
女性赚钱比率为15.6%,总平均为24.1%.可见在女性投资者中,对风险有无充
分认识与投资结果也是有显著影响的.同时,我们还可以看到男女投资者在对风
险意识和投资结果上的差别.
表1-15(Symmetric Mesure)是队列联表的对称性检验.包括表中分男女变
量间的列联系数和其他类型的线性相关系数.从结果看出,相关系数并不高.这
也是截面数据的一个共同的特征.
图1-7和图1-8分别给出了男女投资者的风险态度及其对投资结果的影响图
示.
(十一)需要进一步说明和研究的问题
本案例的数据库包括非常丰富的信息,老师可以根据学生学过的统计分析方
法有选择地指导学生尝试多种分析方法去分析这些数据.上面所提供的方法只是
提出了一些解决问题的思路,而并不是问题的全部.特别是,运用列联表分析技
术还只是开个头.关于探索数据分析方法,定类变量,定序变量,定距变量的相
关和回归分析方法及其检验等,这里还没有涉及.希望老师运用本案例数据组织
学生进行专门的讨论.
(东北财经大学统计系 王庆石)