Xác xuất thống kê sử dụng, thu thập, phân tích data để đưa ra kết luận, giải quyết vấn đề...
- descriptive statistics (thống kê mô tả): tóm tắt, trình bày dữ liệu
- inferential statistics (thống kê suy luận): mô tả, suy đoán tính chất một tổng thể dựa trên 1 mẫu
- Data: Bao gồm thông tin đến từ các quan sát, đếm, đo lường hoặc phản hồi.
- Population: Là tổng thể (về lĩnh vực của bài toán).
- Parameter: Phép đo(số), mô tả đặc tính của Population.
- Sample: Sub-collection được lấy từ Population.
- Statistic: Phép đo(số), mô tả đặc tính của Sample.
=> Chúng ta sử dụng Statistic để suy luận Parameter, nên chú ý nhầm lẫn giữa thông số của Population(Parameter) và của Sample(Statistic)
Ví dụ: Muốn tính lương trung bình của những người đã đi làm, ta khảo sát 2000 người. Từ đây ta thấy tất cả những người đã đi làm là Population, 2000 người kia là Sample.
- Qualitative data (định tính): Không thể đếm, như video, document, ... .
- Quantitative data (định lượng): Số thực, như chiều cao cân nặng, khoảng cách, ... .
- Discrete data (dời dạc): đếm được hoặc vô hạn đếm được, như là số người, lượng chó, ... .
- Continuous data (liên tục): có thể là bất kì số nào, như chiều cao, tốc độ, ... (nói chung các phép
đo).
- Retrospective study: sử dụng những dữ liệu từ trước đó, vd: hỏi người bệnh về tiền sử bệnh của họ để
nghiên
cứu .
- Observational study: Nghiên cứu, quan sát một phần của tổng thể, vd: nghiên cứu 500 người mắc bệnh lao
để
đưa ra kết luận gì đó về người mắc bệnh
- Experiment: Thực nghiệm trên một phần của tổng thể, sau đó quan sát kết quá, vd: cho cún ăn bả, rồi
lấy số
liệu sau khi săn để nghiên cứu .
chapter này không khó, nên cố gắng học hiểu hơn là cố học thuộc công thức, chỉ cần hiểu biến rời rạc, biến liên tục, xác suất có điều kiện với hiểu qua định lý bayes là khá ổn
Random experiment: là một thực nghiệm để dẫn tới những kết quả khả
thi
Ví dụ:
Ramdom experiment: tung 1 đồng xu
Outcomes (kết quả): xấp hoặc ngửa
Sample space: Không gian mẫu, chứa tất cả những kết quả có khả năng
xảy
ra, kí hiệu là S.
Ví dụ: tung đồng xu 2 lần
S = {xấp xấp, xấp ngửa, ngửa ngửa, ngửa xấp}
Không gian mẫu có thể được biểu diễn dạng biểu đồ cây
Ví dụ: tung 1 đồng xu sau đó tung tiếp 1 cái xúc xắc, tất cả trường hợp khả dĩ:
Event (biến cố): tập con của không gian mẫu
Ví dụ: tung 1 đồng xu 3 lần, biến cố là đúng 2 lần ra mặt sấp, tính xác suất
Union (hợp) của A và B: A ∪ B, đúng khi nằm trong A hoặc B hoặc cả
hai
Intersection (giao) của A và B: A ∩ B, đúng khi nằm trong cả hai
Complement (đối) của A: A', ngược lại với A
Multiplication Rule (quy tắc nhân):
Nếu quá trình cần k bước, bước 1 có n1 cách, bước 2 có n2 cách, ... thì số cách để đi đến kết thúc:
n1 x n2 x ... x nk
Permutations (hoán vị):
Số lượng hoán vị là chính là chỉnh hợp, số cách chọn r phần tử từ n phần tử và có sắp xếp, ví dụ
như
chọn từ 3 người A, B, C sẽ có các cách là:
ABC, ACB, BAC, BCA, CAB, CBA. Công thức số cách: nPr (casio).
Combination (tổ hợp):
Rất quen thuộc, số cách chọn r phần tử từ n phần tử và không theo thứ tự, ví dụ như chọn 2 người từ
3
người A, B, C là: A và B, B và C, C và A. Công thức số cách: nCr (casio).
Trong một không gian mẫu có n khả năng xảy xa, xác xuất để xảy ra biến cố trong một phép thử là như
nhau
thì xác xuất mỗi cái đều là 1/n. Ví dụ
như tung xúc xắc 1 lần thì khả năng xảy ra mặt 1, 2, 3, 4, 5, 6 là như nhau xác xuất đều là 1/6.
Mutually Exclusive Events (biến cố xung khắc):
Là các biến cố không thể đồng thời xảy ra, A ∩ B = ∅. Ví dụ như tung xúc xắc, không thể đồng thời ra
mặt
1 hoặc 2.
P/S: không nên cố nhớ những công thức này, tự vẽ sơ đồ ven sẽ dễ hiểu hơn rất nhiều, tự vẽ ra đi?
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C)
Nếu A và B xung khắc: P(A ∪ B) = P(A) + P(B)
note: P(A') = 1 - P(A)
Xác suất để xảy ra B với điều kiện A, tức là xác suất xảy ra B khi mà A đã thỏa mãn. Kí hiệu P(B|A) :
Ví dụ xác suất 1 người béo phì(A) là 30%, 1 người tiểu đường(B) là 3%, 1 người béo phì hoặc tiểu
đường(A
∪ B) là 31%.
Tính xác xuất người bị tiểu đường khi đã béo phì.
Ta thấy P(A U B) = 31% = 0.31.
=> P(A ∩ B) = 0.02 (công thức bên trên, nhưng vẽ biểu đồ ven là thấy ngay)
=> P(B|A) = P(A ∩ B)/P(A) = 0.02/0.3
Multiplication Rule (quy tắc nhân) :
P(A ∩ B) = P(A)P(B|A) = P(B)P(A|B)
note: cái này cũng vẽ biểu đồ ven ra, không thì nhiều người dễ lú
Total Probability Rule (quy tắc tổng xác suất, hình 1)
P(B) = P(A)P(B|A) + P(A')P(B|A')
Các biến cố E1, E2, . . . , Ek gọi là exhaustive nếu:
E1 ∪ E2 ∪ . . . ∪ Ek = S
Total Probability Rule (quy tắc tổng xác suất)
E1, E2, ... Ek là xung khắc và exhaustive (hình 2) thì:
P(B) = P(E1)P(B|E1) + P(E2)P(B|E2) + . . . + P(Ek )P(B|Ek)
2 biến cố A và B độc lập nếu 1 trong các điều sau đúng:
(1) P(A|B) = P(A)
(2) P(B|A) = P(B)
(3) P(A ∩ B) = P(A)P(B)
note: nếu test 2 biến cố có độc lập hay không thường dùng cách 3.
E1, E2, ... Ek là xung khắc và exhaustive, B là một biến cố bất kì:
Note:
Thực ra trông loằng ngoằng nhưng nó chính chính là chỗ quy tắc tổng xác suất phần 2.5 .
Discrete random variable là biến rời rạc, hữu hạn hoặc vô hạn đếm được, như số lượng, ... .
Continuous random variable là biến liên tục, không đếm được, như số đo, ... .
Chapter này nói về các thể loại bài toán xác suất liên quan đến biến rời rạc. Mỗi bài toán đều có đặc trưng riêng, cần chút chút tư duy, không học được hết thì chỉ cố học vài dạng dễ không lại lú.
Định nghĩa:
Biến rời rạc là biến hữu hạn hoặc vô hạn đếm được. vd: số lượng người, lượng trộm chó, ... .
Định nghĩa:
Probability distributions (phân bố xác suất) là bảng, công thức hay biểu đồ, nó biểu diễn xác xuất
theo các giá trị của biến cố.
VD: tung 1 đồng xu 4 lần, X biểu diễn cho số mặt chẵn xuất hiện, vậy nên X có thể nhận các giá trị
là 0,
1, 2, 3, 4, sẽ được điền vào hàng X,
còn hàng P tự tính.
Note:
+, pi= P(X=x), có nghĩa là p1= P(X=1): xác suất để x=1, ...
+, p1 + p2 + p3 + ... pn = 1
Probability Mass Function (hàm khối lượng xác suất)
f(xi) = P(X=xi) với mọi i = 1, 2, ... n
+, f(xi) >= 0 với mọi i = 1, 2, ... n.
+, f(x1) + f(x2) + ... + f(xn) = 1
Đây là f(x), tổng xác suất của tất cả các trường hợp xảy ra phải = 1, và không có chuyện xác
suất của 1 biến cố < 0 bởi vì nó không thể xảy ra thì = 0, không thì > 0.
Còn cái này là F(x), nhiều người đôi lúc nhầm giữa 2 cái F này. Hàm F(x):
Ta thấy nó gọi là tích lũy, bởi vì nó là tổng của tất cả xác suất từ giá trị nhỏ nhất đến giá trị
của x
mà ta đang tính.
Về mặt toán học, nó giống như tích phân từ hàm nhỏ vậy. Sau này học sang biến liên tục ta sẽ thấy rõ
nét
hơn về điều này.
Từ đây, ta sẽ được tiếp cận với một số khái niệm mới sẽ đi suốt từ đây đến hết môn.
Ta có : Cho X là biến ngẫu nhiên rời rạc với các giá trị khả dĩ x1, x2, x3, ... xn. Sau đây sẽ là
các
giá trị của X :
- Đầu tiên, Mean, còn gọi là Expected
value, là giá trị kỳ vọng của dữ liệu. Ký hiệu là μ hoặc E(X) :
- Tiếp theo, Variance, gọi là phương sai, chúng ta có thể ngầm hiều
đó
là giá trị trung bình của tổng bình phương sai số của dữ liệu.
Ký hiệu là σ² hoặc V(X) :
(Tính tay thì dùng công thức cuối)
- Cuối cùng, Standard deviation, gọi là độ lệch chuẩn, lệch tức là
sai
số, chúng ta hiểu rằng trên kia là tổng của bình phương, vậy cái này sẽ là căn của cái trên kia là
xong
- Ngoài ra, nếu áp dụng cho 1 hàm của X, thì mean của hàm đó sẽ là:
Phần này khá dễ, nên học hiểu, không hiểu được thì tạch môn.
Một biến ngẫu nhiên X có phân phối đều rời rạc nếu mỗi n giá trị trong khoảng của nó, chẳng hạn,
x1,
x2, . . . , xn , có xác suất bằng nhau.
Nếu biến rời rạc phân bố đồng đều và là các số nguyên liên tiếp : a, a+1, a+2, ... b. Ta có mean và variance :
Bài này bao gồm n phép thử, mỗi phép thử đều độc lập và không liên quan đến nhau. Mỗi phép thử
có 2
khả năng là “success” và “failure”. Và xác suất vào “success” trong mỗi phép thử
là p.
VD: Mỗi ngày bạn đều đánh đề, mỗi lần đánh bạn sẽ có cơ hội là thắng(“success”) hoặc
thua(“failure”). Như bạn thấy, mỗi hôm đánh đề chả liên quan gì đến nhau nên người ta gọi đó là độc lập.
Bạn nợ môn và về nhà 30 ngày để đánh đề, vậy n = 30, Và mỗi lần đánh, bạn có xác suất thắng là
p = 1/100. Như bạn thấy dạng này sẽ có 2 thông số là n và p.
Công thức xác suất cho x lần bạn có được “success” trong n lần thử là :
Hơi dài dòng, nhưng thực ra nó đơn giản và nếu hiểu thì không cần nhớ công thức. Nó có nghĩa
là
trong n phép thử, ta có thể chọn ra x lần để “success” là nCx (tổ hợp), và vì
mỗi lần “success” thì có xác suất là p nên ta có p^x, còn lại n-x lần “failure” thì là (1-p)^(n-x).
Mean và variance của Binomial
Distribution:
Dạng bài này cũng như dạng trên, nhưng chỉ có thông số p và tính chất bài toán nó hơi khác 1 chút.
Geometric Distribution:
Lấy ví dụ đánh đề lúc nãy: mỗi ngày bạn đều đánh đề, mỗi lần đánh bạn sẽ có cơ hội là
thắng(“success”)
hoặc thua(“failure”). bạn thấy rằng mỗi hôm đánh đề chả liên quan gì đến nhau, người ta gọi đó là độc lập.
Mỗi lần đánh, bạn có xác suất thắng là p = 1/100. Bài toán sẽ là bạn đánh đến bao giờ thắng(lần đầu)
thì thôi. Như bạn thấy dạng này sẽ chỉ có 1 thông số p. Bài toán mà thử đến khi đạt được “success” lần đầu
thì nó sẽ là phân bố geometric.
Xác suất để thử đến lần thứ x ta sẽ thu được “success” đầu tiên:
Giải thích công thức như sau: đến lần thứ x bạn sẽ được “success”, vậy thì ta sẽ có x-1 những lần trước
đều ra “failure”, mà mỗi lần “failure” sẽ có xác suất 1-p, suy ra ta có (1-p)^(x-1), sau đó nhân thêm p là xác suất ra
“success” tại lần thứ x là xong.
Mean và variance của Geometric
Distribution:
Negative Binomial Distribution:
Khá giống như bài trên, nhưng mà bài toán sẽ là bạn cần x phép thử để thu được r “success” . Tất
nhiên là
phép thử cuối sẽ là “success” vì khi thu được
r “success” thì ta sẽ dừng luôn, và r phải nhỏ hơn hoặc bằng x.
Xác suất để cần x phép thử ta thu được r “success”:
Giải thích công thức: Trong x phép thử, sẽ có r lần là “success”, nhưng vì phép thử cuối chắc chắn
“success” nên ta chỉ xét x-1 phép thử trước đó và trong x-1 phép thử đó có r-1 lần “success”, vậy ta sẽ có (x-1)C(r-1) (tổ hợp chập r-1 của x-1),
rồi nhân với (1-p)^(x-r) vì có tổng cộng x-r lần là “failure”, cuối cùng nhân với p^r vì tổng cộng r lần “success”.
Mean và variance của Negative
Binormial Distribution:
Cho N cái, trong đó có K là “success”, N-K cái là “failure”. Bài toán là lấy n cái từ trong
đó, và trong n chứa x “success”., Xác suất để có điều đó là:
Giải thích: Tử số sẽ là số cách chọn ra n cái, trong đó có chứa x “success”
từ K cái “success” là KCx (tổ hợp chập x của K), và lấy n-x trong N-K cái
là “failure” là (N-K)C(n-x) (tổ hợp chập n-x của N-K), nhân 2 thứ đó ta được số cách chọn thỏa mãn. Mẫu số là tổng số cách
chọn ra n cái từ N cái ban đầu. Vậy số cách chọn thỏa mãn chia cho tổng tố cách chọn ta có xác suất.
Mean và variance của
Hypergeometric
Distribution:
Đây là loại phân bố trên không gian hay thời gian, có một thông số duy nhất là λ. Thể hiện cho λ
cái gì đấy trên một khoảng không gian hay thời gian nào đó. Ví dụ như trung bình bạn có 5 cuộc gọi trên 1 ngày thì tức
là λ = 5.
Chú ý một điều là đơn vị của khoảng không gian/ thời gian kia giữa đề với câu hỏi phải bằng nhau, nếu không thì ta phải
tự quy đổi. Ví dụ như đề cho 5 cuộc gọi / 1 ngày, mà câu hỏi là tính xác suất để có 8 cuộc gọi/ 2 ngày thì lúc này
λ = 10, bởi ta phải đổi sang là có trung bình 10 cuộc gọi / 2 ngày
Xác suất để có x cái / 1 khoảng là:
Mean và variance của Poisson
Distribution:
Riêng Poisson thì 2 cái này bằng nhau nhé!
Chapter 3 là biến ngẫu nhiên rời rạc thì chapter này nói về loại biến còn lại: biến liên tục. Nó sẽ hơi khó hơn 1 chút so với biến rời rạc, nặng về toán hơn và cũng yêu cầu tư duy tốt hơn. Chúng cũng có các loại tham số và loại hàm như biến rời rạc: hàm phân bố(density function), hàm tích lũy (Cumulative), kỳ vọng(mean), phương sai (variance), độ lệch chuẩn (standard deviation) . Và sau đó ta sẽ được tiếp cận với loại khái niệm mới sẽ đi cùng xuyên suốt đến hết môn học: phân bố chuẩn (normal distributions).
Just a definition:
Biến ngẫu nhiên liên tục (Continuous Random Variables) là biến ngẫu nhiên có một khoảng các số thực cho các khả năng của nó.
VD: tốc độ, xe bạn có thể đi trong khoảng 0-50km/h, vậy bạn có thể đạt bất kì giá trị nào, 40.00001, 25, 36.9999, ... .
f(x) là hàm phân bố xác suất của biến ngẫu nhiên X nếu :
Đây là hàm phân bố, nó liên tục chứ không giống với biến rời rạc. Đối với biến rời rạc, mỗi giá trị
của
X nó sẽ có
giá trị cụ thể của X kèm theo nó. Nhưng với biến liên tục, nó sẽ có vô hạn giá trị nên xác suất để
xảy
ra giá trị cụ thể sẽ = 0.
Vậy nên ta thường tính xác suất theo 1 khoảng, nó sẽ bằng tích phân (hay diện tích) trong khoảng đó.
Như hình trên ta thấy xác suất của X để nó nằm trong khoảng a và b là tích phân từ a đến b, hay diện
tích trong khoảng đó.
Chú ý 1 điều rằng dấu "<" và "≤" tương đương nhau trong biến liên tục, bởi xác suất để xảy ra giá
trị cụ thể luôn = 0.
Bạn thử tưởng tượng khi đi xe, bạn không thể nào đi đúng 40Km/h được, bởi có thể bạn đang đi
39.99999
km/h hay 40.0001km/h. Chẳng có gì là tuyệt đối cả.
Hàm phân bố tích lũy:
Cũng giống như bên phần rời rạc thì phần liên tục cũng có concept tương tự, là tại giá trị x thì F(x) sẽ có
giá trị là xác suất để ≤ x. ta thấy nó sẽ là tích phân từ −∞, nhưng nếu đề cho khoảng giá trị ban
đầu là a≤X≤b thì ta có thể thay −∞ bằng a để tính F(x).
Công thức trên khá dễ để hiểu và cũng hay dùng, giá trị của F(b) bằng xác suất để X≤b, F(a) là xác
suất
để X≤a,
vậy thì xác suất để a≤X≤b sẽ là F(b)-F(a).
f(x) là density function (hàm phân bố), ta có:
mean (kỳ vọng) :
variance (phương sai) :
standard deviation (độ lệch chuẩn) :
Cũng tương tự như biến rời rạc, biến liên tục cũng có phần đồng đều, khá dễ và chúng có dạng:
Đồ thị:
mean (kỳ vọng) : và variance (phương sai)
:
Cumulative function (Hàm tích lũy) của biến liên tục phân bố đồng
đều:
Phần này quan trọng, nó sẽ liên quan đến nhiều thứ về sau. Nó sẽ sử dụng cho các bài toán mang tính chất có lượng dữ liệu rất lớn.
Sau này ta sẽ thấy họ sử dụng cái này để ước lượng các thông số của tổng thể (Population) thông qua một phần dữ liệu (Sample).
VD: nghiên cứu lương 1000 người dân để đánh giá lương trung bình của toàn dân số.
Biến ngẫu nhiên X sẽ được coi là có phân bố chuẩn (normal distribution) với tham số μ và σ², ký
hiệu X
∼ N(μ, σ²),
nếu như hàm phân bố xác suất của nó là:
Tin vui là cái hàm trên bạn không phải nhớ, chỉ là giới thiệu qua thôi.
Để dễ hình dung hơn về mean μ và variance
σ²
, ta quan sát biểu đồ sau:
Ta thấy rằng μ chính là kỳ vọng, giá trị trung bình của Population(tổng thể), các giá trị sẽ tập
trung
nhiều về đó, còn σ² biểu diễn cho sai số nên dễ dàng thấy rằng
phương sai càng lớn thì đồ thì sẽ thoải hơn, không tập trung nhiều gần μ bằng khi σ² nhỏ. Và cái này
sẽ
giúp
bạn hiểu bản chất hơn thôi, chứ thi thì không có phần đồ thị này.
mean (kỳ vọng) : và variance (phương sai)
:
Standard Normal Distribution :
Từ đây, chúng ta sẽ không dùng biểu đồ như bên trên nữa, mà mọi bài toán liên quan đến phân bố
chuẩn
sẽ được quy về Z.
với các tham số μ = 0, σ = 1, nó kiểu như đồ thị phân bố của các độ lệch chia cho standard deviation (độ lệch chuẩn). Đồ thị nó sẽ như này:
Còn hàm Cumulative (tích lũy) của nó sẽ như sau:
Cái này dùng nhiều, nó là diện tích từ z trở về trước, là xác suất để Z ≤ z, VD:
Khi ta có giá trị μ , σ của X, thì ta sẽ chuyển sang Z bằng
cách:
Ta sẽ tính xác suất khi X nhỏ hơn a bằng cách quy đổi sang giá trị của z, và đồ thị của Z luôn
cố
định cho mọi bài toán:
Binomial and Poisson là 2 loại phân bố ta đã học ở chapter 3. Nhưng mà khi đó ta chỉ làm với những
thông
số nhỏ, bạn thử tưởng tượng
với binomial, khi ta có rất nhiều phép thử thì ta không thể tính bằng các con số có số mũ vài chục vài
trăm
được, vì vậy họ sẽ sử dụng phân
bố xấp xỉ chuẩn cho những trường hợp này.
Binomial Distribution:
Như đã học, Binomial Distribution sẽ có 2 thông số là n và p, lần lượt biểu thị cho số phép thử và xác suất ra "success" ở mỗi lần thử.
Ở dạng đó ta có mean μ = np và variance σ² = np(1 − p).
Poisson Distribution:
Poisson cũng vậy, đôi khi ra sẽ gặp phải trường hợp có thông số rất lớn ta cũng sẽ phải sử dụng phân
bố
xấp xỉ chuẩn. Các thông số của Poisson sẽ là
μ = λ và σ² = λ.
Các công thức xác suất cho 2 trường hợp này:
Nó sẽ được áp dụng hiệu quả nếu μ lớn hơn 5.
Với Poisson, ta có λ là số lượng trung bình/ 1 khoảng thời gian
hoặc
không gian. Thì với phân bố mũ,
nó sẽ tính về khoảng thời gian hay không gian giữa 2 lần suất hiện liên tiếp.
VD: Với Poisson, ta có λ = 5 cuộc gọi/ ngày, thì với phân bố mũ, ta sẽ quan tâm tới khoảng cách
trung
bình giữa 2 lần suất hiện liên tiếp, tức trung bình mean = 1/λ = 4.8 giờ.
Hàm phân bố xác suất (Probability density function) :
Cái hàm này là f nhỏ, phân bố chứ không phải là hàm tính xác suất nhé. Nên nhớ là phần biến
liên
tục thì ta sẽ tính xác suất
bằng cách tích phân trong 1 khoảng nếu muốn tính xác suất để X nó rơi vào khoảng đó.
mean (kỳ vọng) : và variance (phương
sai) cho exponential distribution:
Chapter này khá đơn lẻ bởi nó ít liên kết nhất với các chapter khác. Bạn có một tập dữ liệu, cái tập đấy gọi là sample.
Ta có n observations(quan sát) trong sample là x1, x2, x3, ... xn.
Sample mean:
Kỳ vọng của sample đơn giản là trung bình của các giá trị.
Sample variance:
Phương sai là tổng bình phương sai số chia cho n-1. Nhưng ấn được máy tính nên không cần nhớ cái
cồng
kềnh này nhé.
Sample standard deviation ký hiệu là s.
Sample range :
Khi có nhiều dữ liệu, họ sẽ chia thành cài bảng này cho dễ nhìn hơn. VD:
Giải: Dữ liệu mà ta có sẽ là : 101, 105, 110, 115, 118, .... . Nói chung là cột 'leaf' thì là 1 chữ
số,
sau đó
nối với bên 'stem'.
- sample median (khác với sample
mean)
là giá trị nằm giữa của các dữ liệu này.
Nếu dữ liệu có n số thì sample median sẽ là số thứ (n+1)/2. nếu
(n+1)/2
mà ra dạng x,5 thì sample median
sẽ = trung bình số thứ x và số thứ x+1.
VD1: cho sample: 1, 3, 5, 6, 8, 9, 10.
Giải: Số số hạng là n=7, vậy thì (n+1)/2 = 4 suy ra sample median = số thứ 4 là 6.
VD2: cho sample: 2, 3, 4, 6, 7, 8.
Giải: Số số hạng là n=6, vậy thì (n+1)/2 = 3.5 suy ra sample median = trung bình số thứ 3 và thứ 4
là
(4+6)/2
= 5.
- sample mode là giá trị xuất hiện nhiều nhất, nếu tất cả các số đều
có
số lượng như nhau thì không có sample mode
- Quartiles:
Ta chia data thành 4 phần bằng nhau thì đó gọi là Quartiles, có 3 điểm là q1, q2 (chính là median),
q3.
Xấp xỉ 25% số lượng observations ở dưới q1,
50% dưới q2 và 75% dưới q3.
Cách tính q1: số thứ (1+n)/4 , nếu ra .5 thì lấy 2 số gần đó nhất chia trung bình
Cách tính q2: là median.
Cách tính q3: số thứ (1+n) x 3/4 , nếu ra .5 thì lấy 2 số gần đó nhất chia trung bình
- interquartile range: IQR = q3-q1.
Relative frequency distribution Ví dụ:
Cumulative frequency distribution ví dụ:
Nhớ lại: Cumulative là tích lũy, nó sẽ bằng tổng từ cái nhỏ nhất đến nó.
Histogram ví dụ:
Như phần 6.2, bạn đã biết được p1, p2, p3 là gì rồi. Và giờ ta dùng chúng để kiểu sàng lọc những
phần tử
quá khác biệt vậy.
Box plot có 2 đầu mút. Bây giờ tính q3 + 1.5IQR, rồi lấy số
lớn
nhất trong data mà nhỏ hơn giá trị đấy làm
đầu mút trên, sau đó tính q1-1.5IQR, lấy số nhỏ nhất trong data mà lớn hơn số đấy làm đầu mút
dưới,
vậy là đã có box plot, nếu trong data có số nào không nằm trong đó thì
gọi là outlier.
Ta chọn ra X1, X2, X3, ... , Xn và gọi tập này là random sample với
kích thước n.
VD: chọn 100 cái điện thoại từ nhà máy để test.
Sample mean và sample variance gọi là
Statistic(bởi nó là của sample):
Một Population có các tham số là μ và σ², và ta có sample mean ̅ x. Bạn nhớ lại phần 4.6 khi ta học standard normal
distribution, thì cách tính Z
sẽ là
.
Còn bây giờ ta chỉ tính cho sample, với n là số số hạng trong
sample ta
có:
- Nếu như Population có mean μ và variance σ² thì khi ta lấy ra 1 sample, nó sẽ có các
thông số
:
- Nếu Population là phân bố chuẩn, thì sample cũng là phân bố chuẩn.
- Nếu Population không phải phân bố chuẩn, thì sample sẽ là phân bố xấp xỉ chuẩn nếu như kích
thước(lượng dữ liệu) ≥ 30.
Cái này là khi ta so sánh 2 cái sample với nhau. Ví dụ so sánh độ chênh lệch tuổi thọ chó với mèo
chẳng
hạn, thì ta sẽ có:
Confidence interval (khoảng tin cậy) là khoảng mà ta tính ra từ các dữ
liệu của sample để dự đoán thông số của Population.
Ví dụ 1-α level of confidence của μ tức là:
Xác suất để μ nằm trong khoảng tin cậy đó là 1-α
L: Lower-confidence limit
U: Upper-confidence limit
- Trường hợp 1: variance σ² đã biết.
- Trường hợp 2: Đây là 1 phân bố bất kỳ, không nhất thiết phải là normal,
nhưng phải có size lớn (≥ 40).
- Trường hợp 3: variance σ² chưa biết.
Trường hợp 1: variance σ² đã biết
1–α confidence interval cho mean μ là:
Zα/2 là giá trị của Z để xác suất P(Z > zα/2) = α/2.
Để dễ hình dung, ta có α=5%, Zα/2= Z0.025 = 1.96, hay P(Z>1.96) = α/2 = 0.025
VD: Tuối thọ của bóng đèn được biết là có phân bố chuẩn và có σ = 25 giờ. Ta có một sample gồm 20 bóng
và
chúng có tuổi thọ trung bình là 1014 giờ.
Tìm 95% confidence interval cho mean μ của loại bóng đèn này .
Phân tích: Population Loại bóng đèn này phân bố chuẩn nên sample cũng có phân bố chuẩn, chúng ta đã biết
standard deviation σ = 25 giờ.
Giải: Ta có thêm một cái sample gồm 20 bóng có tuổi thọ trung bình là 1014 =>
= 1014, n=20. Ta phải tính độ tin cậy 95%,
tức α = 5%,
Zα/2 = 1.96. Thay vào tính đc 1003.04 ≤ μ ≤1024.96 .
Còn 1 dạng trong cái này, đó là bắt tính số lượng (n) để có thể đạt được một khoảng confidence
interval nhất định.Ta thấy rằng để dự đoán mean μ của tổng thể, thì càng nhiều dữ liệu càng tốt, điều đố
khá
dể hiểu và
bạn cũng có thể nhìn vào phương trình trên kia để thấy điều đó, khi n càng lớn thì confidence interval
càng
thu hẹp lại. Vì vậy để tự tin rằng ta có một khoảng confidence interval bằng bao nhiêu đó thì
ta cũng phải có số lượng dữ liệu nhất định. Công thức:
E ở đây là
VD: Lấy lại VD ở trên, thử tính lượng bóng đèn cần để ta có 95% confident để sai số khi ta ước tính mean
μ
của tổng thể < 5 giờ.
Giải: Ta có : α = 5%, => α/2 = 0.025. σ = 25 giờ, E = 5 giờ, thay vào công thức n = 96.05, tuy nhiên ta
luôn
phải làm tròn lên nên n=97.
Trường hợp 2: Đây là 1 phân bố bất kỳ, không nhất thiết phải là normal,
nhưng phải có size lớn (≥ 40).
1–α confidence interval cho mean μ:
Bời vì đây không phải phân bố chuẩn nên không có σ nhé. Chỉ có S cho cái sample đấy thôi, nhưng
cũng
chả khác nhau đâu.
Trường hợp 3: variance σ² chưa biết biết.
Vì σ chưa biết nên chỉ có S, hãy nhớ trường hợp σ chưa biết, đồng thời là phân bố chuẩn thì mới
dùng t,
còn không phải dùng z. Công thức:
là xác suất của sample, x là cái lượng thỏa mãn, còn n là kích thước
sample. Nếu để ý, bạn sẽ thấy pˆ(1-pˆ) trong công thức chính là σ² giống như phần binorminal, nên suy
cho
cùng,
công thức này y hệt phần trên.
Trong chap này ta mới chỉ đọc thấy confidence interval được giới hạn 2 đầu, nhưng trong bất kỳ dạng
nào
đề có các trường hợp confidence interval 1 phía, Ví dụ như Phần 8.1 trường hợp 1, ta sẽ có các bài
toán
bắt tính confidence interval cho 1 phía,
Mọi trường hợp 1 phía thì Zα/2 sẽ được thay bằng Zα.
Chapter 8 ta đã biết cách tính confidence interval, thì chapter này ta sẽ dùng nó để xem 1 cái kết luận nào đó có sai hay không. Ví dụ có 1 người nói số giờ làm trung bình trong 1 ngày của người Việt là 4.5 tiếng , thì để kiểm chứng câu nói này, ta sẽ đi thu thập dữ liệu 1000 người, sau đó ta sẽ tính confidence interval như trên chapter 8, rồi sau đó so sánh 2 dữ liệu để đưa ra kết luận.
Statistical hypothesis (giả thuyết) là 1 cái phát biểu về Parameter của
Population. Nhớ lại rằng Parameter là các thông số của Population, còn Statistic là của Sample, rõ ràng
là
các Parameter thì chúng ta
chưa thể biết, ta chỉ có thể ước chừng chúng bằng cách lấy 1 sample để tính confidence interval như ở
chapter 8.
Vì vậy ta sẽ lấy 1 cái sample để tính confidence interval, sau đó so sánh với cái giả thuyết để đưa ra
kết
luận (VD như cái đóng khung ở trên). Và với ví dự đó,
ta có :
Trong 1 vài trường hợp, có thể giả thuyết sẽ là 1 phía:
VD: 1 phát biểu rằng chiều cao trung bình người Việt lớn hơn 1m65. khi đó H1 : μ>1m65.
Như đã thấy ở trên, H0 là null
hypothesis, H1 là alternative
hypothesis.
- Nếu reject H0 thì có nghĩa là ta có
bằng chứng đủ mạnh để kết luận rằng H1 đã đúng.
- Còn nếu không reject H0, thì ta không có đủ bằng chứng là H0 đã đúng.
Note: Nhìn biết đồ trên, nó có ý nghĩa rằng ta có 1 cái sample và
ta
tính được rằng khoảng tin cậy confidence interval là [4.1, 4.9], tức là H0 cho μ bằng bất kỳ số nào từ 4.1
đến
4.9, ta đều phải fail to reject, còn H0 mà nằm ngoài khoảng đấy,
thì ta reject
.
Và nên nhớ 1 điều, H0 thì luôn luôn là dấu "=", và H1 thì ghi là
khác một giá trị cố định, nhưng thực chất ta chỉ reject H0 và chấp
nhận
H1 khi giá trị của H0 nằm ngoài khoảng tin cậy (confidence
interval).
VD: Có 1 người nghĩ rằng chiều cao trung bình của người Việt là 1m65, để ông đấy xem suy đoán
của
mình có đúng hay không, ông ta đi khảo sát 1000 người ở Hà Nội. Ông ta tính được khoảng tin cậy là
[1m55, 1m66], Vì vậy ông ta phải fail to reject H0, bởi vì H0: μ =
1m65, nằm trong khoảng tin cậy.
Tuy nhiên, các bạn phải hiểu rằng ta chỉ tính trên sample để kết luận, nên đôi khi kết luận của ta
có
thể sai do dữ liệu ta thu thập là toàn những trường hợp đặc biệt. Như khi ta tính khoảng tin cậy 95%
thì
ta có 95% khả năng là đúng,
rõ ràng ta vẫn có 5% khả năng kết luận sai. Và sự sai sót ấy chia thành 2 trường hợp:
- Type 1 error :
Reject H0 khi mà nó đúng. Để dễ hình dung hãy nhìn lại hình bên trên, nó có nghĩa rằng tiên đoán
trước
đó của mình về mean là đúng, nhưng do thu thập được toàn dữ liệu cùi mà ta tính được khoảng tin cậy
bị
lệch đi, dẫn đến mean μ của ta nằm ngoài khoảng tin cậy.
- Type 2 error :
Fail to reject H0, tức là mình không bác bỏ H0 trong khi nó sai, ngược lại với Type 1.
Trong phần 9.1 mình đã giải thích khá rõ về reject và fail to reject, các bạn cũng đã hiểu về confidence
interval. Và trong các bài toán cụ thể,
các bạn sẽ gặp 2 trường hợp để tính toán rồi đưa ra kết luận về H0:
- Case 1: Variance σ² của Population đã biết.
Test Statistic:
Trong bài toán cụ thể, ta sẽ tính Test Statistic, sau đó so sánh nó với các Z của giới hạn
của
khoảng tin cậy(confidence interval). Nếu nằm ngoài thì reject H0 thôi.
Như hình trên,
(a) là khoảng tin cậy có 2 phía với H1: μ ≠ μ0
(b) là khoảng tin cậy 1
phía
với H1: μ > μ0
(c) là khoảng tin cậy 1 phía với H1: μ < μ0.
- Case 2: Variance σ² của Population chưa biết.
Test Statistic:
Khi không biết σ thì dùng t, khi biết σ thì dùng z, rất dễ, không khác gì nhau.
Phần trên thì kiểm định trên mean, bây giờ thì kiểm định xác suất, cách tính thì không khác gì nhau.
Thay vì tiên đoán trước giá trị trung bình của cái gì đấy, thì H0 của phần này sẽ là tiên đoán trước xác
suất. Và ta cũng loại chúng nếu chúng nằm ngoài khoảng tin cậy thôi.
Ta sẽ có xác suất trong sample là p mũ, sau đó ta sẽ tính Test Statistic:
Rồi so sánh với Z của các giới hạn của khoảng tin cậy confidence interval:
Ví dụ: Một tạp chí nói rằng 1 nửa số tiến sĩ sẽ học tiếp sau khi tốt nghiệp. Dữ liệu từ một khảo sát
cho
thấy 117 người trong số 484 người ở trường X học tiếp
sau khi tốt nghiệp. Câu hỏi: với α = 0.05, đưa ra kết luận về phát biểu trước đó.
Giải:
H0: P0 = 0.5 (1 nửa)
Ta có P mũ = 117/484 = 0.24. Test Statistic Z0 = -11.44 .
α = 0.05 => Zα/2 = Z0.025 = 1.96. Mà |Z0| = 11.44 > 1.96, nằm ngoài khoảng tin cậy nên ta
reject H0.
Chapter 9 chúng ta đã làm quen với suy luận thống kê của 1 sample, về mean μ và xác suất p. Còn chapter 10 thì cũng sẽ làm về mean μ và xác suất p, chỉ khác là sẽ thực hiện trên 2 sample, 2 cái trừ cho nhau. Sẽ có 2 cái chính là tính confidence interval cho hiệu của 2 mean μ của 2 tổng thể khác nhau, và kiểm định H0 của nó.
Cũng như khi tính confidence interval cho 1 sample, thì phần này cũng chia thành 2 trường hợp: σ đã biết
và
chưa biết.
- Case 1: σ đã biết
Khi đó, hiệu 2 mean sẽ có :
Khi này bạn sẽ dễ dàng đoán được công thức của 1-α confidence interval của hiệu 2 mean:
- Case 2: σ chưa biết
Khi mà σ chưa biết thì ta chỉ tính được các variance s của sample thôi. Và khi này, sẽ có 1 cái variance chung được gọi là
pooled estimator của σ²
Công thức 1-α confidence interval của hiệu 2 mean, ghi nhớ là t sẽ có
n1+n2-2 bậc tự do:
Cho hypothesis:
Khi này H0 sẽ là một phát biểu về độ chênh lệch giữa mean của 2 tổng thể: ∆0.
VD: Một người cho rằng độ chênh lệch tuổi thọ trung bình giữa nam hơn nữ là 2 tuổi. Khi đó ta có H0:
μ1
− μ2 = 2 tuổi.
Trong các bài toán cụ thể, ta lại gặp 2 trường hợp : σ đã biết và chưa biết. Và chúng ta làm y hệt
các
bài toán về H0 trước đó: tính test Statistic và so sánh với các giới hạn của confidence interval,
nếu
nằm ngoài thì reject H0
- Case 1: σ đã biết
Test Statistic:
- Case 2: σ chưa biết
Test Statistic:
(Sp là pooled estimator)
1-α confidence interval của hiệu 2 xác suất:
p mũ là xác suất trong sample.
Nếu chỉ học qua môn thì gần như không cần học sâu chương này (Với điều kiện những chương trước đã khá vững :D).
Chúng ta sẽ có 2 cái dữ liệu khác nhau, và ta xem chúng ta xem chúng có mối liên hệ chặt chẽ với nhau không. Vậy ta sẽ
lập 1 phương trình tuyến tính giữa 2 cái dữ liệu này, xem có thể dự báo trước giá trị của biến này theo biến kia hay không. Biến cần dự đoán là
dependent variable và biến mà mình dùng nó để suy ra biến kia là independent variables.
Ví dụ: cho 1 tập các dữ liệu về nhiệt độ ban ngày ở HN, và 1 tập các dữ liệu về các mặt đường bị rạn nứt và tất nhiên 2 tập này phải liên kết từng cặp với nhau, rồi lập ra một phương trình tuyến tính giữa 2 thứ đó. Khi này nếu như
ta thấy nó có mối tương quan lớn thì sau đó ta có thể dự đoán về số vết nứt nhờ vào nhiệt độ. Và nhiệt độ ở HN là independent variable và số
vết nứt là dependent variable
Linear Regression function (hồi quy tuyến tính) là hàm khi xây dựng mối tương quan giữa 2 dữ liệu kia :
Thực ra công thức trên chả khác gì Y = a.X + b, nhưng viết khác bởi nó có các mục đích khác nhau.
Có n cặp dữ liệu:
Từ các cặp dữ liệu trên, ta vẽ ra hàm tuyến tính như ở phần 11.1 sao cho nó là "best fit" với các dữ liệu. Và chúng ta dùng phương pháp đó là method of least squares, tức là
tối thiểu hóa tổng bình phương các sai số(ε). Để dễ hiểu hơn, bạn thấy ta có phương trình hồi quy như ở 11.1, nhưng rõ ràng ta không thể tính giá trị của yi bằng cách gán xi như các bài toàn bình thường bởi vì
luôn có sai số:
Vì vậy, với sai số là ε, thì mỗi yi ta sẽ có :
Do đó, tổng bình phương sai số được nhắc ở trên là :
Note: Trên thực tế, ta không có hàm hồi quy cho toàn bộ dữ liệu được nên ta chỉ ước tính nó bằng những dữ liệu mà ta có sẵn,
Và từ trước đến giờ mình chỉ đang giới thiệu về lí thuyết, các bạn không cần nhớ các công thức ở trên nhưng phải hiểu. Và về sau các công thức cũng giống nhưng kí hiệu khác, bởi vì
trên là các công thức cho tổng thể, mà ta chỉ tính trên các dữ liệu có sẵn (sample) thôi.
Các tham số trong phương trình hồi quy tuyến tính đó là:
với :
Và từ đó, ta có estimated linear regression line:
Sai số residual (giống ε của tổng thể):
Tổng bình phương các residual ei là error sum of squares:
Từ đó, ta có công thức tính ước tính của σ² :
estimated standard error of the slope (ước tính sai số của slope) và estimated standard error of the intercept(ước tính sai số của intercept):
Hypotheses:
Nếu đã hiểu về phần kiểm định H0 rồi thì phần này cũng sẽ không xa lạ gì, cũng chỉ là kiểm định về một cái phát biểu bằng cách tính test statistic rồi so sánh với biên rồi kết luận.
Test statistic:
Reject H0 nếu :
(Nhớ là n − 2 degrees of freedom.)
Nếu Failure to reject H0, tức β1 = 0 thì sẽ không có mối quan hệ giữa X và Y.
Hypotheses:
Test statistic:
Reject H0 nếu :
(Nhớ là n − 2 degrees of freedom.)
Hệ số tương quan của X và Y là ρ, nhưng với sample, nó sẽ là:
Note:
.) −1 ≤ r ≤ 1.
.) Nó đặc trưng cho mối liên hệ giữa 2 dữ liệu đó
.) r và β1 có cùng dấu
.) r² gọi là coefficient of determination (hệ số xác định)
Như vậy, r càng tiến về 0 thì mối liên hệ giữa X và Y càng thấp, và ngược lại.
Hypotheses:
Test statistic:
Reject H0 nếu :