+1 (208) 254-6996 [email protected]

Evidence Based Library and Information Practice 2007, 2:1


Don't use plagiarized sources. Get Your Custom Essay on
Evidence Based Library and Information Practice 2007, 2:1
Just from $13/Page
Order Essay

Evidence Based Library and Information Practice     Feature Article    A Statistical Primer: Understanding Descriptive and Inferential Statistics      Gillian Byrne  Information Services Librarian  Queen Elizabeth II Library  Memorial University of Newfoundland  St. John’s, NL , Canada  Email: [email protected]      Received: 13 December 2006    Accepted: 08 February 2007      © 2007 Byrne. This is an Open Access article distributed under the terms of the Creative Commons  Attribution License (http://creativecommons.org/licenses/by/2.0), which permits unrestricted use,  distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract    As libraries and librarians move more towards evidence‐based decision making, the data  being generated in libraries is growing. Understanding the basics of statistical analysis is  crucial for evidence‐based practice (EBP), in order to correctly design and analyze research  as well as to evaluate the research of others. This article covers the fundamentals of  descriptive and inferential statistics, from hypothesis construction to sampling to common  statistical techniques including chi‐square, correlation, and analysis of variance (ANOVA).


Introduction  Much of the research done by librarians,  from bibliometrics to surveys to usability  testing, requires the measurement of certain  factors.  This measurement results in  numbers, or data, being collected, which  must then be analyzed using quantitative  research methods. A basic understanding of  statistical techniques is essential to properly  designing research, as well as accurately  evaluating the research of others.

This paper will introduce basic statistical  principles, such as hypothesis construction  and sampling, as well as descriptive and  inferential statistical techniques. Descriptive  statistics describe, or summarize, data, while  inferential statistics use methods to infer  conclusions about a population from a  sample.    In order to illustrate the techniques being



Evidence Based Library and Information Practice 2007, 2:1


Great Job         Lousy Job                            If you accept the job    Have a great experience  Waste time & effort

If you decline the job  Waste an opportunity  Avoid wasting time & effort

Figure 1. Illustration of Type I & II errors.      described here, an example of a fictional  article will be used.  Entitled Perceptions of  Evidence‐Based Practice: A Survey of Canadian  Librarians, this article uses various  quantitative methods to determine how  Canadian librarians feel about Evidence‐ based Practice (EBP).  It is important to note  that this article, and the statistics derived  from it, is entirely fictional.     Hypothesis  Hypotheses can be defined as “untested  statements that specify a relationship  between two or more variables” (Nardi 36).  In social sciences research, hypotheses are  often phrased as research questions. In plain  language, hypotheses are statements of  what you want to prove (or disprove) in  your study.  Many hypotheses can be  constructed for a single research study, as  you can see from the example in Fig. 1.    In research, two hypotheses are constructed  for each research question. The first is the  null hypothesis.  The null hypothesis  (represented as H0) assumes no relationship  between variables; thus it is usually phrased  as “this has no affect on this”.  The  alternative hypothesis (represented as H1) is  simply stating the opposite, that “this has an  affect on this.” The null hypothesis is  generally the one constructed for scientific  research.    Type I & II Errors  Anytime you make a decision in life, there is  a possibility of two things going wrong.   Take the example of a job offer. If you

decide to take the job and it turned out to be  lousy, you would have wasted a lot of time  and energy. However, if you decided to pass  on the job and it was great, you would have  wasted an opportunity.  It’s best illustrated  by a two by two box (Fig. 1).     It is obvious that, despite thorough research  about the position (speaking to people that  work there, interview process, etc.), it is  possible to come to the wrong conclusion  about the job.  The same possibility occurs in  research. If your research concludes that  there is a relationship between variables  when in fact there is no relationship (i.e.,  you’ve incorrectly assumed the alterative  hypothesis is proven), this is a Type I error.  If your research concludes that there is no  relationship between the variables when in  fact there is (i.e., you’ve incorrectly assumed  the null hypothesis is proven), this is a Type   II error. Another way to think of Type I & II  errors is as false positives and false  negatives. Type I error is a false positive,  like concluding the job is great when it’s  lousy.  A Type II error is a false negative;  concluding the job is lousy when it’s great.     Type I errors are considered by researchers  to be more dangerous.  This is because  concluding there is a relationship between  variables when there is not can lead to more  extreme consequences.  A drug trial  illustrates this well.  Concluding falsely that  a drug can help could lead to the drug being  put on the market without being beneficial  to the public.  A Type II error would lead to  a promising drug being left off the market,



Evidence Based Library and Information Practice 2007, 2:1


which while serious, isn’t considered as dire.  To help remember this, think of the  conservative nature of science. Inaction (and  possibly more testing) is less dangerous  than action.  Thus, disproving the null  hypothesis, which supposes no relationship,  is preferred to proving the alternative  hypnosis.    There are many safety features built in to  research methodology which help minimize  the possibility of committing both errors,  including sampling techniques and  statistical significance, both of which you  will learn about later.    Dependent and Independent Variables  Understanding hypotheses help you  determine which variables are dependent  and which are independent (why this is  important will be revealed a bit later).   Essentially it works like this:  the dependent  variable (DV) is what you are measuring,  while the independent variable (IV) is the  cause, or predictor, of what is being  measured.    In experimental research (research done in  controlled conditions like a lab), there is  usually only one hypothesis, and  determining the variables are relatively  simple. For example, in drug trials, the  dosage is the independent variable (what  the researcher is manipulating) while the  effects are dependent variables (what the  researcher is measuring).    In non‐experimental research (research  which takes place in the ‘real world’, such as  survey research), determining your  dependent variable(s) is less straightforward.   The same variable can be considered  independent for one hypothesis while  dependent for another. An example – you  might hypothesize that hours spent in the  library (independent variable) are a  predictor of grade point average (dependent  variable). You might also hypothesize that

major (independent variable) affects how  much time students spend in the library  (dependent variable). Thus, your hypothesis  construction dictates your dependent and  independent variables.    A final variable to be aware of in  quantitative research is the confounding  variable (CV).  Also know as lurking  variables, a confounding variable is an  unacknowledged factor in an experiment  which might affect the relationship between  the other variables.  The classic example of a  confounding example affecting an  assumption of a relationship is that murder  rates and ice cream purchased are highly  correlated (when murder rates go up, so  does the purchase of ice cream?). What is  the relationship?  There isn’t one; both  variables are affected by a third,  unacknowledged variable: hot weather.     Population, Samples & Sampling  Although it is possible to study an entire  population (censuses are examples of this),  in research samples are normally drawn  from the population to make experiments  feasible. The results of the study are then  generalized to the population.  Obviously, it  is important to choose your sample wisely!    Population  This might seem obvious, but the first step is  to carefully determine the characteristics of  the population about which you wish to  learn.  For example, if your research  involves your university, it is worthwhile to  investigate the basic demographic features  of the institution; i.e., what is the percentage  of undergraduate students vs. graduate  students?  Males vs. females?  If you think  these are groups you would like to compare  in your study, you must ensure they are  properly represented in your sample.    Sampling Techniques  Probability Sampling



Evidence Based Library and Information Practice 2007, 2:1


Probability sampling means that each  member of the population has an equal  chance of being selected for the survey.   There are several flavors of probability  sampling; the common characteristic being  that in order to perform probability  sampling you must be able to identify all  members of your population     Random sampling is the most basic form of  probability sampling. It involves identifying  every member of a population (often by  assigning each a number), and then  selecting sample subjects by randomly  choosing numbers. This is often done by  computer programs.    Stratified random sampling ensures the  sample matches the population on  characteristics important to a study. Using  the example of a university, you might  separate your population into graduate  students and undergraduate students, and  then randomly sample each group  separately. This will ensure that if your  university has 70% undergraduates and 30%  graduates, your sample will have a similar  ratio.    Cluster sampling is used when a population  is spread over a large geographic region.   For example, if you are studying librarians  who work at public libraries in Canada, you  might randomly sample 50 libraries, and  then randomly sample the librarians within  those libraries.    Non‐probability Sampling  Simply put, this is any sampling technique  that does not involve random sampling.   Often samples are not random because in  some research it is easier to perform  convenience sampling (surveying those who  volunteer, for example). Also, sometimes the  population from which the sample is to be  taken cannot be easily identified.  A  common strategy employed by libraries is to

use patron records to derive random  samples. This is probability sampling only if  the population is library users; if the  population is an entire institution or city, it  is no longer random. With non‐probability  samples, you can only generalize to those  who participated, not to a population.    Sample Size  Sample size is also extremely important to  be able to accurately generalize to a  population. Generally, the bigger the sample,  the better. The Central Limit Theorem states  that the larger the sample, the more likely  the distribution of the means will be normal,  and therefore population characteristics can  more accurately be predicted.  Some other  things to keep in mind:

• If you want to compare groups with  each other (for example, majors),  you will need at least 5 subjects in  each group to do many statistical  analyses.

• Poor response rate can severely

compromise a study, if surveys are  involved.  Depending on the

Order your essay today and save 10% with the discount code ESSAYHELP