TEST 1: Chapter 1,2,3

Giới thiệu (Chapter 1)

Xác xuất thống kê sử dụng, thu thập, phân tích data để đưa ra kết luận, giải quyết vấn đề...

2 phương pháp thống kê chính:

- descriptive statistics (thống kê mô tả): tóm tắt, trình bày dữ liệu
- inferential statistics (thống kê suy luận): mô tả, suy đoán tính chất một tổng thể dựa trên 1 mẫu

Các keywords

- Data: Bao gồm thông tin đến từ các quan sát, đếm, đo lường hoặc phản hồi.
- Population: Là tổng thể (về lĩnh vực của bài toán).
- Parameter: Phép đo(số), mô tả đặc tính của Population.
- Sample: Sub-collection được lấy từ Population.
- Statistic: Phép đo(số), mô tả đặc tính của Sample.
=> Chúng ta sử dụng Statistic để suy luận Parameter, nên chú ý nhầm lẫn giữa thông số của Population(Parameter) và của Sample(Statistic)

Ví dụ: Muốn tính lương trung bình của những người đã đi làm, ta khảo sát 2000 người. Từ đây ta thấy tất cả những người đã đi làm là Population, 2000 người kia là Sample.

Phân loại dữ liệu

- Qualitative data (định tính): Không thể đếm, như video, document, ... .
- Quantitative data (định lượng): Số thực, như chiều cao cân nặng, khoảng cách, ... .
- Discrete data (dời dạc): đếm được hoặc vô hạn đếm được, như là số người, lượng chó, ... .
- Continuous data (liên tục): có thể là bất kì số nào, như chiều cao, tốc độ, ... (nói chung các phép đo).

Thu thập dữ liệu

- Retrospective study: sử dụng những dữ liệu từ trước đó, vd: hỏi người bệnh về tiền sử bệnh của họ để nghiên cứu .
- Observational study: Nghiên cứu, quan sát một phần của tổng thể, vd: nghiên cứu 500 người mắc bệnh lao để đưa ra kết luận gì đó về người mắc bệnh
- Experiment: Thực nghiệm trên một phần của tổng thể, sau đó quan sát kết quá, vd: cho cún ăn bả, rồi lấy số liệu sau khi săn để nghiên cứu .

chapter này không khó, nên cố gắng học hiểu hơn là cố học thuộc công thức, chỉ cần hiểu biến rời rạc, biến liên tục, xác suất có điều kiện với hiểu qua định lý bayes là khá ổn

Chapter 2

2.1 Sample spaces and events (Không gian mẫu và biến cố)

Random experiment: là một thực nghiệm để dẫn tới những kết quả khả thi
Ví dụ:
Ramdom experiment: tung 1 đồng xu
Outcomes (kết quả): xấp hoặc ngửa

Sample space: Không gian mẫu, chứa tất cả những kết quả có khả năng xảy ra, kí hiệu là S.
Ví dụ: tung đồng xu 2 lần
S = {xấp xấp, xấp ngửa, ngửa ngửa, ngửa xấp}

Tree diagram (biểu đồ cây)

Không gian mẫu có thể được biểu diễn dạng biểu đồ cây
Ví dụ: tung 1 đồng xu sau đó tung tiếp 1 cái xúc xắc, tất cả trường hợp khả dĩ:

Event (biến cố): tập con của không gian mẫu
Ví dụ: tung 1 đồng xu 3 lần, biến cố là đúng 2 lần ra mặt sấp, tính xác suất
Union (hợp) của A và B: A ∪ B, đúng khi nằm trong A hoặc B hoặc cả hai
Intersection (giao) của A và B: A ∩ B, đúng khi nằm trong cả hai
Complement (đối) của A: A', ngược lại với A

Counting techniques (Kĩ thuật đếm)

Multiplication Rule (quy tắc nhân):
Nếu quá trình cần k bước, bước 1 có n1 cách, bước 2 có n2 cách, ... thì số cách để đi đến kết thúc: n1 x n2 x ... x nk
Permutations (hoán vị):
Số lượng hoán vị là chính là chỉnh hợp, số cách chọn r phần tử từ n phần tử và có sắp xếp, ví dụ như chọn từ 3 người A, B, C sẽ có các cách là: ABC, ACB, BAC, BCA, CAB, CBA. Công thức số cách: nPr (casio).
Combination (tổ hợp):
Rất quen thuộc, số cách chọn r phần tử từ n phần tử và không theo thứ tự, ví dụ như chọn 2 người từ 3 người A, B, C là: A và B, B và C, C và A. Công thức số cách: nCr (casio).

2.2 Probability (xác xuất)

Trong một không gian mẫu có n khả năng xảy xa, xác xuất để xảy ra biến cố trong một phép thử là như nhau thì xác xuất mỗi cái đều là 1/n. Ví dụ như tung xúc xắc 1 lần thì khả năng xảy ra mặt 1, 2, 3, 4, 5, 6 là như nhau xác xuất đều là 1/6.
Mutually Exclusive Events (biến cố xung khắc): Là các biến cố không thể đồng thời xảy ra, A ∩ B = ∅. Ví dụ như tung xúc xắc, không thể đồng thời ra mặt 1 hoặc 2.

2.3 Addition Rules (quy tắc cộng)

P/S: không nên cố nhớ những công thức này, tự vẽ sơ đồ ven sẽ dễ hiểu hơn rất nhiều, tự vẽ ra đi?
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C)
Nếu A và B xung khắc: P(A ∪ B) = P(A) + P(B)
note: P(A') = 1 - P(A)

2.4 Conditional Probability (xác suất có điều kiện)

Xác suất để xảy ra B với điều kiện A, tức là xác suất xảy ra B khi mà A đã thỏa mãn. Kí hiệu P(B|A) :

Ví dụ xác suất 1 người béo phì(A) là 30%, 1 người tiểu đường(B) là 3%, 1 người béo phì hoặc tiểu đường(A ∪ B) là 31%. Tính xác xuất người bị tiểu đường khi đã béo phì.
Ta thấy P(A U B) = 31% = 0.31.
=> P(A ∩ B) = 0.02 (công thức bên trên, nhưng vẽ biểu đồ ven là thấy ngay)
=> P(B|A) = P(A ∩ B)/P(A) = 0.02/0.3

2.5 Multiplication and Total Probability Rules (xác suất tổng)

Multiplication Rule (quy tắc nhân) :
P(A ∩ B) = P(A)P(B|A) = P(B)P(A|B)
note: cái này cũng vẽ biểu đồ ven ra, không thì nhiều người dễ lú

Total Probability Rule (quy tắc tổng xác suất, hình 1)
P(B) = P(A)P(B|A) + P(A')P(B|A')

Các biến cố E1, E2, . . . , Ek gọi là exhaustive nếu:
E1 ∪ E2 ∪ . . . ∪ Ek = S
Total Probability Rule (quy tắc tổng xác suất)
E1, E2, ... Ek là xung khắc và exhaustive (hình 2) thì:
P(B) = P(E1)P(B|E1) + P(E2)P(B|E2) + . . . + P(Ek )P(B|Ek)

2.6 Independence (sự độc lập)

2 biến cố A và B độc lập nếu 1 trong các điều sau đúng:
(1) P(A|B) = P(A)
(2) P(B|A) = P(B)
(3) P(A ∩ B) = P(A)P(B)
note: nếu test 2 biến cố có độc lập hay không thường dùng cách 3.

2.7 Bayes’ Theorem (định lý Bayes)

E1, E2, ... Ek là xung khắc và exhaustive, B là một biến cố bất kì:

Note:

Thực ra trông loằng ngoằng nhưng nó chính chính là chỗ quy tắc tổng xác suất phần 2.5 .

2.7 Ramdom variable (biến ngẫu nhiên)

Discrete random variable là biến rời rạc, hữu hạn hoặc vô hạn đếm được, như số lượng, ... .
Continuous random variable là biến liên tục, không đếm được, như số đo, ... .

Chapter này nói về các thể loại bài toán xác suất liên quan đến biến rời rạc. Mỗi bài toán đều có đặc trưng riêng, cần chút chút tư duy, không học được hết thì chỉ cố học vài dạng dễ không lại lú.

Chapter 3. Discrete Random Variables and Probability Distributions

(Biến ngẫu nhiên rời rạc và phân bố xác suất)

3.1 Discrete Random Variables (biến ngẫu nhiên rời rạc)

Định nghĩa: Biến rời rạc là biến hữu hạn hoặc vô hạn đếm được. vd: số lượng người, lượng trộm chó, ... .

3.2 Probability distributions and Probability Mass Functions

(Phân bố xác suất và hàm khối lượng xác suất)

Định nghĩa: Probability distributions (phân bố xác suất) là bảng, công thức hay biểu đồ, nó biểu diễn xác xuất theo các giá trị của biến cố.

VD: tung 1 đồng xu 4 lần, X biểu diễn cho số mặt chẵn xuất hiện, vậy nên X có thể nhận các giá trị là 0, 1, 2, 3, 4, sẽ được điền vào hàng X, còn hàng P tự tính.
Note:
+, p_i= P(X=x), có nghĩa là p₁= P(X=1): xác suất để x=1, ...
+, p1 + p2 + p3 + ... pn = 1

Probability Mass Function (hàm khối lượng xác suất)
f(x_i) = P(X=x_i) với mọi i = 1, 2, ... n
+, f(x_i) >= 0 với mọi i = 1, 2, ... n.
+, f(x₁) + f(x₂) + ... + f(x_n) = 1

Đây là f(x), tổng xác suất của tất cả các trường hợp xảy ra phải = 1, và không có chuyện xác suất của 1 biến cố < 0 bởi vì nó không thể xảy ra thì = 0, không thì > 0.

3.3 Cumulative Distribution Function

(Hàm phân bố tích lũy)

Còn cái này là F(x), nhiều người đôi lúc nhầm giữa 2 cái F này. Hàm F(x):

Ta thấy nó gọi là tích lũy, bởi vì nó là tổng của tất cả xác suất từ giá trị nhỏ nhất đến giá trị của x mà ta đang tính. Về mặt toán học, nó giống như tích phân từ hàm nhỏ vậy. Sau này học sang biến liên tục ta sẽ thấy rõ nét hơn về điều này.

3.4 Mean and Variance of a Discrete Random Variable

(Kỳ vọng và phương sai trong biến ngẫu nhiên rời rạc)

Từ đây, ta sẽ được tiếp cận với một số khái niệm mới sẽ đi suốt từ đây đến hết môn.
Ta có : Cho X là biến ngẫu nhiên rời rạc với các giá trị khả dĩ x₁, x₂, x₃, ... x_n. Sau đây sẽ là các giá trị của X :

- Đầu tiên, Mean, còn gọi là Expected value, là giá trị kỳ vọng của dữ liệu. Ký hiệu là μ hoặc E(X) :

- Tiếp theo, Variance, gọi là phương sai, chúng ta có thể ngầm hiều đó là giá trị trung bình của tổng bình phương sai số của dữ liệu. Ký hiệu là σ² hoặc V(X) :
(Tính tay thì dùng công thức cuối)

- Cuối cùng, Standard deviation, gọi là độ lệch chuẩn, lệch tức là sai số, chúng ta hiểu rằng trên kia là tổng của bình phương, vậy cái này sẽ là căn của cái trên kia là xong

- Ngoài ra, nếu áp dụng cho 1 hàm của X, thì mean của hàm đó sẽ là:

3.5 Discrete Uniform Distribution

(Phân bố đồng đều rời rạc)

Phần này khá dễ, nên học hiểu, không hiểu được thì tạch môn.
Một biến ngẫu nhiên X có phân phối đều rời rạc nếu mỗi n giá trị trong khoảng của nó, chẳng hạn, x1, x2, . . . , xn , có xác suất bằng nhau.

Nếu biến rời rạc phân bố đồng đều và là các số nguyên liên tiếp : a, a+1, a+2, ... b. Ta có mean và variance :

3.6 Binomial Distribution

(Phân phối nhị thức)

Bài này bao gồm n phép thử, mỗi phép thử đều độc lập và không liên quan đến nhau. Mỗi phép thử có 2 khả năng là “success” và “failure”. Và xác suất vào “success” trong mỗi phép thử là p.

VD: Mỗi ngày bạn đều đánh đề, mỗi lần đánh bạn sẽ có cơ hội là thắng(“success”) hoặc thua(“failure”). Như bạn thấy, mỗi hôm đánh đề chả liên quan gì đến nhau nên người ta gọi đó là độc lập. Bạn nợ môn và về nhà 30 ngày để đánh đề, vậy n = 30, Và mỗi lần đánh, bạn có xác suất thắng là p = 1/100. Như bạn thấy dạng này sẽ có 2 thông số là n và p.

Công thức xác suất cho x lần bạn có được “success” trong n lần thử là :

Hơi dài dòng, nhưng thực ra nó đơn giản và nếu hiểu thì không cần nhớ công thức. Nó có nghĩa là trong n phép thử, ta có thể chọn ra x lần để “success” là nCx (tổ hợp), và vì mỗi lần “success” thì có xác suất là p nên ta có p^x, còn lại n-x lần “failure” thì là (1-p)^(n-x).

Mean và variance của Binomial Distribution:

3.7 Geometric and Negative Binomial Distribution

(Đ biết dịch như nào nên ace cố nhớ tên tiếng anh nhé)

Dạng bài này cũng như dạng trên, nhưng chỉ có thông số p và tính chất bài toán nó hơi khác 1 chút.

Geometric Distribution:

Lấy ví dụ đánh đề lúc nãy: mỗi ngày bạn đều đánh đề, mỗi lần đánh bạn sẽ có cơ hội là thắng(“success”) hoặc thua(“failure”). bạn thấy rằng mỗi hôm đánh đề chả liên quan gì đến nhau, người ta gọi đó là độc lập. Mỗi lần đánh, bạn có xác suất thắng là p = 1/100. Bài toán sẽ là bạn đánh đến bao giờ thắng(lần đầu) thì thôi. Như bạn thấy dạng này sẽ chỉ có 1 thông số p. Bài toán mà thử đến khi đạt được “success” lần đầu thì nó sẽ là phân bố geometric.

Xác suất để thử đến lần thứ x ta sẽ thu được “success” đầu tiên:

Giải thích công thức như sau: đến lần thứ x bạn sẽ được “success”, vậy thì ta sẽ có x-1 những lần trước đều ra “failure”, mà mỗi lần “failure” sẽ có xác suất 1-p, suy ra ta có (1-p)^(x-1), sau đó nhân thêm p là xác suất ra “success” tại lần thứ x là xong.

Mean và variance của Geometric Distribution:

Negative Binomial Distribution:

Khá giống như bài trên, nhưng mà bài toán sẽ là bạn cần x phép thử để thu được r “success” . Tất nhiên là phép thử cuối sẽ là “success” vì khi thu được r “success” thì ta sẽ dừng luôn, và r phải nhỏ hơn hoặc bằng x.
Xác suất để cần x phép thử ta thu được r “success”:

Giải thích công thức: Trong x phép thử, sẽ có r lần là “success”, nhưng vì phép thử cuối chắc chắn “success” nên ta chỉ xét x-1 phép thử trước đó và trong x-1 phép thử đó có r-1 lần “success”, vậy ta sẽ có (x-1)C(r-1) (tổ hợp chập r-1 của x-1), rồi nhân với (1-p)^(x-r) vì có tổng cộng x-r lần là “failure”, cuối cùng nhân với p^r vì tổng cộng r lần “success”.

Mean và variance của Negative Binormial Distribution:

3.8 Hypergeometric Distribution

Cho N cái, trong đó có K là “success”, N-K cái là “failure”. Bài toán là lấy n cái từ trong đó, và trong n chứa x “success”., Xác suất để có điều đó là:

Giải thích: Tử số sẽ là số cách chọn ra n cái, trong đó có chứa x “success” từ K cái “success” là KCx (tổ hợp chập x của K), và lấy n-x trong N-K cái là “failure” là (N-K)C(n-x) (tổ hợp chập n-x của N-K), nhân 2 thứ đó ta được số cách chọn thỏa mãn. Mẫu số là tổng số cách chọn ra n cái từ N cái ban đầu. Vậy số cách chọn thỏa mãn chia cho tổng tố cách chọn ta có xác suất.

Mean và variance của Hypergeometric Distribution:

3.9 Poisson Distribution

Đây là loại phân bố trên không gian hay thời gian, có một thông số duy nhất là λ. Thể hiện cho λ cái gì đấy trên một khoảng không gian hay thời gian nào đó. Ví dụ như trung bình bạn có 5 cuộc gọi trên 1 ngày thì tức là λ = 5.

Chú ý một điều là đơn vị của khoảng không gian/ thời gian kia giữa đề với câu hỏi phải bằng nhau, nếu không thì ta phải tự quy đổi. Ví dụ như đề cho 5 cuộc gọi / 1 ngày, mà câu hỏi là tính xác suất để có 8 cuộc gọi/ 2 ngày thì lúc này λ = 10, bởi ta phải đổi sang là có trung bình 10 cuộc gọi / 2 ngày

Xác suất để có x cái / 1 khoảng là:

Mean và variance của Poisson Distribution:

Riêng Poisson thì 2 cái này bằng nhau nhé!

TEST 2: Chapter 4,6,7

Chapter 3 là biến ngẫu nhiên rời rạc thì chapter này nói về loại biến còn lại: biến liên tục. Nó sẽ hơi khó hơn 1 chút so với biến rời rạc, nặng về toán hơn và cũng yêu cầu tư duy tốt hơn. Chúng cũng có các loại tham số và loại hàm như biến rời rạc: hàm phân bố(density function), hàm tích lũy (Cumulative), kỳ vọng(mean), phương sai (variance), độ lệch chuẩn (standard deviation) . Và sau đó ta sẽ được tiếp cận với loại khái niệm mới sẽ đi cùng xuyên suốt đến hết môn học: phân bố chuẩn (normal distributions).

Chapter 4: Continuous Random Variables and Probability Distribution

(Biến ngẫu nhiên liên tục và phân bố xác suất)

4.1 Continuous Random Variables (biến ngẫu nhiên liên tục)

Just a definition:
Biến ngẫu nhiên liên tục (Continuous Random Variables) là biến ngẫu nhiên có một khoảng các số thực cho các khả năng của nó.

VD: tốc độ, xe bạn có thể đi trong khoảng 0-50km/h, vậy bạn có thể đạt bất kì giá trị nào, 40.00001, 25, 36.9999, ... .

4.2 Probability Distributions and Probability Density Functions (phân bố xác suất và hàm mật độ xác suất)

f(x) là hàm phân bố xác suất của biến ngẫu nhiên X nếu :

Đây là hàm phân bố, nó liên tục chứ không giống với biến rời rạc. Đối với biến rời rạc, mỗi giá trị của X nó sẽ có giá trị cụ thể của X kèm theo nó. Nhưng với biến liên tục, nó sẽ có vô hạn giá trị nên xác suất để xảy ra giá trị cụ thể sẽ = 0. Vậy nên ta thường tính xác suất theo 1 khoảng, nó sẽ bằng tích phân (hay diện tích) trong khoảng đó.

Như hình trên ta thấy xác suất của X để nó nằm trong khoảng a và b là tích phân từ a đến b, hay diện tích trong khoảng đó.

Chú ý 1 điều rằng dấu "<" và "≤" tương đương nhau trong biến liên tục, bởi xác suất để xảy ra giá trị cụ thể luôn = 0. Bạn thử tưởng tượng khi đi xe, bạn không thể nào đi đúng 40Km/h được, bởi có thể bạn đang đi 39.99999 km/h hay 40.0001km/h. Chẳng có gì là tuyệt đối cả.

4.3 Cumulative Distribution Functions (Hàm phân bố tích lũy)

Hàm phân bố tích lũy:

Cũng giống như bên phần rời rạc thì phần liên tục cũng có concept tương tự, là tại giá trị x thì F(x) sẽ có giá trị là xác suất để ≤ x. ta thấy nó sẽ là tích phân từ −∞, nhưng nếu đề cho khoảng giá trị ban đầu là a≤X≤b thì ta có thể thay −∞ bằng a để tính F(x).

Công thức trên khá dễ để hiểu và cũng hay dùng, giá trị của F(b) bằng xác suất để X≤b, F(a) là xác suất để X≤a, vậy thì xác suất để a≤X≤b sẽ là F(b)-F(a).

4.4 Mean and Variance of a Continuous Random Variable (Kỳ vọng và phương sai của biến liên tục)

f(x) là density function (hàm phân bố), ta có:
mean (kỳ vọng) :

variance (phương sai) :

standard deviation (độ lệch chuẩn) :

4.5 Continuous Uniform Distribution (phân bố đồng đều liên tục)

Cũng tương tự như biến rời rạc, biến liên tục cũng có phần đồng đều, khá dễ và chúng có dạng:

Đồ thị:

mean (kỳ vọng) : và variance (phương sai) :

Cumulative function (Hàm tích lũy) của biến liên tục phân bố đồng đều:

4.6 Normal Distribution (Phân bố chuẩn)

Phần này quan trọng, nó sẽ liên quan đến nhiều thứ về sau. Nó sẽ sử dụng cho các bài toán mang tính chất có lượng dữ liệu rất lớn. Sau này ta sẽ thấy họ sử dụng cái này để ước lượng các thông số của tổng thể (Population) thông qua một phần dữ liệu (Sample).
VD: nghiên cứu lương 1000 người dân để đánh giá lương trung bình của toàn dân số.

Biến ngẫu nhiên X sẽ được coi là có phân bố chuẩn (normal distribution) với tham số μ và σ², ký hiệu X ∼ N(μ, σ²), nếu như hàm phân bố xác suất của nó là:

Tin vui là cái hàm trên bạn không phải nhớ, chỉ là giới thiệu qua thôi. Để dễ hình dung hơn về mean μ và variance σ² , ta quan sát biểu đồ sau:

Ta thấy rằng μ chính là kỳ vọng, giá trị trung bình của Population(tổng thể), các giá trị sẽ tập trung nhiều về đó, còn σ² biểu diễn cho sai số nên dễ dàng thấy rằng phương sai càng lớn thì đồ thì sẽ thoải hơn, không tập trung nhiều gần μ bằng khi σ² nhỏ. Và cái này sẽ giúp bạn hiểu bản chất hơn thôi, chứ thi thì không có phần đồ thị này.

mean (kỳ vọng) : và variance (phương sai) :

Standard Normal Distribution :
Từ đây, chúng ta sẽ không dùng biểu đồ như bên trên nữa, mà mọi bài toán liên quan đến phân bố chuẩn sẽ được quy về Z. với các tham số μ = 0, σ = 1, nó kiểu như đồ thị phân bố của các độ lệch chia cho standard deviation (độ lệch chuẩn). Đồ thị nó sẽ như này:

Còn hàm Cumulative (tích lũy) của nó sẽ như sau:

Cái này dùng nhiều, nó là diện tích từ z trở về trước, là xác suất để Z ≤ z, VD:

Khi ta có giá trị μ , σ của X, thì ta sẽ chuyển sang Z bằng cách:

Ta sẽ tính xác suất khi X nhỏ hơn a bằng cách quy đổi sang giá trị của z, và đồ thị của Z luôn cố định cho mọi bài toán:

4.7 Normal Approximation to the Binomial and Poisson Distributions

(Phân bố xấp xỉ chuẩn cho Binomial and Poisson)

Binomial and Poisson là 2 loại phân bố ta đã học ở chapter 3. Nhưng mà khi đó ta chỉ làm với những thông số nhỏ, bạn thử tưởng tượng với binomial, khi ta có rất nhiều phép thử thì ta không thể tính bằng các con số có số mũ vài chục vài trăm được, vì vậy họ sẽ sử dụng phân bố xấp xỉ chuẩn cho những trường hợp này.

Binomial Distribution:
Như đã học, Binomial Distribution sẽ có 2 thông số là n và p, lần lượt biểu thị cho số phép thử và xác suất ra "success" ở mỗi lần thử. Ở dạng đó ta có mean μ = np và variance σ² = np(1 − p).

Poisson Distribution: Poisson cũng vậy, đôi khi ra sẽ gặp phải trường hợp có thông số rất lớn ta cũng sẽ phải sử dụng phân bố xấp xỉ chuẩn. Các thông số của Poisson sẽ là μ = λ và σ² = λ.

Các công thức xác suất cho 2 trường hợp này:

Nó sẽ được áp dụng hiệu quả nếu μ lớn hơn 5.

4.8 Exponential Distribution (Phân bố mũ)

Với Poisson, ta có λ là số lượng trung bình/ 1 khoảng thời gian hoặc không gian. Thì với phân bố mũ, nó sẽ tính về khoảng thời gian hay không gian giữa 2 lần suất hiện liên tiếp.
VD: Với Poisson, ta có λ = 5 cuộc gọi/ ngày, thì với phân bố mũ, ta sẽ quan tâm tới khoảng cách trung bình giữa 2 lần suất hiện liên tiếp, tức trung bình mean = 1/λ = 4.8 giờ.

Hàm phân bố xác suất (Probability density function) :

Cái hàm này là f nhỏ, phân bố chứ không phải là hàm tính xác suất nhé. Nên nhớ là phần biến liên tục thì ta sẽ tính xác suất bằng cách tích phân trong 1 khoảng nếu muốn tính xác suất để X nó rơi vào khoảng đó.

mean (kỳ vọng) : và variance (phương sai) cho exponential distribution:

Chapter này khá đơn lẻ bởi nó ít liên kết nhất với các chapter khác. Bạn có một tập dữ liệu, cái tập đấy gọi là sample.

Chapter 6: Descriptive Statistics (thống kê mô tả)

6.1 Numerical Summaries of Data

Ta có n observations(quan sát) trong sample là x1, x2, x3, ... xn.

Sample mean:

Kỳ vọng của sample đơn giản là trung bình của các giá trị.

Sample variance:

Phương sai là tổng bình phương sai số chia cho n-1. Nhưng ấn được máy tính nên không cần nhớ cái cồng kềnh này nhé.

Sample standard deviation ký hiệu là s.
Sample range :

6.2 Stem-and-Leaf Diagrams

Khi có nhiều dữ liệu, họ sẽ chia thành cài bảng này cho dễ nhìn hơn. VD:

Giải: Dữ liệu mà ta có sẽ là : 101, 105, 110, 115, 118, .... . Nói chung là cột 'leaf' thì là 1 chữ số, sau đó nối với bên 'stem'.

- sample median (khác với sample mean) là giá trị nằm giữa của các dữ liệu này. Nếu dữ liệu có n số thì sample median sẽ là số thứ (n+1)/2. nếu (n+1)/2 mà ra dạng x,5 thì sample median sẽ = trung bình số thứ x và số thứ x+1.
VD1: cho sample: 1, 3, 5, 6, 8, 9, 10.
Giải: Số số hạng là n=7, vậy thì (n+1)/2 = 4 suy ra sample median = số thứ 4 là 6.
VD2: cho sample: 2, 3, 4, 6, 7, 8.
Giải: Số số hạng là n=6, vậy thì (n+1)/2 = 3.5 suy ra sample median = trung bình số thứ 3 và thứ 4 là (4+6)/2 = 5.

- sample mode là giá trị xuất hiện nhiều nhất, nếu tất cả các số đều có số lượng như nhau thì không có sample mode

- Quartiles:
Ta chia data thành 4 phần bằng nhau thì đó gọi là Quartiles, có 3 điểm là q1, q2 (chính là median), q3. Xấp xỉ 25% số lượng observations ở dưới q1, 50% dưới q2 và 75% dưới q3. Cách tính q1: số thứ (1+n)/4 , nếu ra .5 thì lấy 2 số gần đó nhất chia trung bình
Cách tính q2: là median.
Cách tính q3: số thứ (1+n) x 3/4 , nếu ra .5 thì lấy 2 số gần đó nhất chia trung bình

- interquartile range: IQR = q3-q1.

6.3 Frequency Distributions and Histograms (Kiểu theo tần số, số lần xuất hiện hay tỉ lệ ấy)

Relative frequency distribution Ví dụ:

Cumulative frequency distribution ví dụ:

Nhớ lại: Cumulative là tích lũy, nó sẽ bằng tổng từ cái nhỏ nhất đến nó.

Histogram ví dụ:

6.4 Box plot

Như phần 6.2, bạn đã biết được p1, p2, p3 là gì rồi. Và giờ ta dùng chúng để kiểu sàng lọc những phần tử quá khác biệt vậy. Box plot có 2 đầu mút. Bây giờ tính q3 + 1.5IQR, rồi lấy số lớn nhất trong data mà nhỏ hơn giá trị đấy làm đầu mút trên, sau đó tính q1-1.5IQR, lấy số nhỏ nhất trong data mà lớn hơn số đấy làm đầu mút dưới, vậy là đã có box plot, nếu trong data có số nào không nằm trong đó thì gọi là outlier.

Chapter 7: Sampling Distributions and Point Estimation of Parameters

7.1 Introduction

Ta chọn ra X1, X2, X3, ... , Xn và gọi tập này là random sample với kích thước n.
VD: chọn 100 cái điện thoại từ nhà máy để test.

Sample mean và sample variance gọi là Statistic(bởi nó là của sample):

Nên nhớ đây là của Sample nhé, và chúng gọi là Statistic được kí hiệu như trên. Chứ của Population thì gọi là Parameter được ký hiệu là μ và σ².

Point Estimation

- Các Sample mean và sample variance là Statistic, ta gọi chúng lần lượt là point estimator của mean μ và variance σ² của Population.

- Còn khi tính ra số cụ thể, ta gọi nó là point estimate

7.2 Sampling Distributions and the Central Limit Theorem

Central Limit Theorem

Một Population có các tham số là μ và σ², và ta có sample mean ̅ x. Bạn nhớ lại phần 4.6 khi ta học standard normal distribution, thì cách tính Z sẽ là
.
Còn bây giờ ta chỉ tính cho sample, với n là số số hạng trong sample ta có:

- Nếu như Population có mean μ và variance σ² thì khi ta lấy ra 1 sample, nó sẽ có các thông số :

- Nếu Population là phân bố chuẩn, thì sample cũng là phân bố chuẩn.
- Nếu Population không phải phân bố chuẩn, thì sample sẽ là phân bố xấp xỉ chuẩn nếu như kích thước(lượng dữ liệu) ≥ 30.

Sampling Distribution of a Difference in Sample Means

Cái này là khi ta so sánh 2 cái sample với nhau. Ví dụ so sánh độ chênh lệch tuổi thọ chó với mèo chẳng hạn, thì ta sẽ có:

TEST 3: Chapter 8, 9, 10, 11

Chapter 8: Statistical Intervals for a Single Sample

8.1 Introduction

Confidence interval (khoảng tin cậy) là khoảng mà ta tính ra từ các dữ liệu của sample để dự đoán thông số của Population. Ví dụ 1-α level of confidence của μ tức là:
Xác suất để μ nằm trong khoảng tin cậy đó là 1-α

L: Lower-confidence limit
U: Upper-confidence limit

Ví dụ: Ta không biết tuổi thọ của tất cả các con chó là bao nhiêu, ta sẽ thi thu thập dữ liệu của 100 con. Vậy ta sẽ có sample mean, ví dụ sample mean = 10 năm. Sau đó ta tính khoảng tin cậy 95%, tức α = 5%, ra [7.5, 12,5] chẳng hạn, thì tức là mean μ của Population sẽ có 95% khả năng nằm trong khoảng đó.

8.2 Confidence Interval for a Population Mean (Khoảng tin cậy cho mean)

Ta sẽ chia ra 3 trường hợp

- Trường hợp 1: variance σ² đã biết.
- Trường hợp 2: Đây là 1 phân bố bất kỳ, không nhất thiết phải là normal, nhưng phải có size lớn (≥ 40).
- Trường hợp 3: variance σ² chưa biết.

Trường hợp 1: variance σ² đã biết
1–α confidence interval cho mean μ là:

Zα/2 là giá trị của Z để xác suất P(Z > zα/2) = α/2.
Để dễ hình dung, ta có α=5%, Z_α/2= Z_0.025 = 1.96, hay P(Z>1.96) = α/2 = 0.025

VD: Tuối thọ của bóng đèn được biết là có phân bố chuẩn và có σ = 25 giờ. Ta có một sample gồm 20 bóng và chúng có tuổi thọ trung bình là 1014 giờ. Tìm 95% confidence interval cho mean μ của loại bóng đèn này .
Phân tích: Population Loại bóng đèn này phân bố chuẩn nên sample cũng có phân bố chuẩn, chúng ta đã biết standard deviation σ = 25 giờ. Giải: Ta có thêm một cái sample gồm 20 bóng có tuổi thọ trung bình là 1014 => = 1014, n=20. Ta phải tính độ tin cậy 95%, tức α = 5%, Zα/2 = 1.96. Thay vào tính đc 1003.04 ≤ μ ≤1024.96 .

Còn 1 dạng trong cái này, đó là bắt tính số lượng (n) để có thể đạt được một khoảng confidence interval nhất định.Ta thấy rằng để dự đoán mean μ của tổng thể, thì càng nhiều dữ liệu càng tốt, điều đố khá dể hiểu và bạn cũng có thể nhìn vào phương trình trên kia để thấy điều đó, khi n càng lớn thì confidence interval càng thu hẹp lại. Vì vậy để tự tin rằng ta có một khoảng confidence interval bằng bao nhiêu đó thì ta cũng phải có số lượng dữ liệu nhất định. Công thức:

E ở đây là
VD: Lấy lại VD ở trên, thử tính lượng bóng đèn cần để ta có 95% confident để sai số khi ta ước tính mean μ của tổng thể < 5 giờ.
Giải: Ta có : α = 5%, => α/2 = 0.025. σ = 25 giờ, E = 5 giờ, thay vào công thức n = 96.05, tuy nhiên ta luôn phải làm tròn lên nên n=97.

Trường hợp 2: Đây là 1 phân bố bất kỳ, không nhất thiết phải là normal, nhưng phải có size lớn (≥ 40).
1–α confidence interval cho mean μ:

Bời vì đây không phải phân bố chuẩn nên không có σ nhé. Chỉ có S cho cái sample đấy thôi, nhưng cũng chả khác nhau đâu.

Trường hợp 3: variance σ² chưa biết biết.
Vì σ chưa biết nên chỉ có S, hãy nhớ trường hợp σ chưa biết, đồng thời là phân bố chuẩn thì mới dùng t, còn không phải dùng z. Công thức:

8.3 Large-Sample Confidence Interval for a Population Proportion (Confidence Interval cho xác suất)

Nó cũng giống như mean thôi, mỗi tội là tìm Confidence Interval cho xác suất. Công thức:

Trong đó

là xác suất của sample, x là cái lượng thỏa mãn, còn n là kích thước sample. Nếu để ý, bạn sẽ thấy pˆ(1-pˆ) trong công thức chính là σ² giống như phần binorminal, nên suy cho cùng, công thức này y hệt phần trên.

VD: 1000 ca ung thư được lấy ngẫu nhiên, và 823 ca chết sớm. Tính 95% confidence interval cho tỉ lệ chết sớm.
Giải: Ta có x = 823, n = 1000 => pˆ = 0.823. α=5% = 0.05 => α/2 = 0.025 => Zα/2 = 1.96. Vậy ta tính được 0.799 ≤ p ≤ 0.847.

Trong chap này ta mới chỉ đọc thấy confidence interval được giới hạn 2 đầu, nhưng trong bất kỳ dạng nào đề có các trường hợp confidence interval 1 phía, Ví dụ như Phần 8.1 trường hợp 1, ta sẽ có các bài toán bắt tính confidence interval cho 1 phía,

Mọi trường hợp 1 phía thì Zα/2 sẽ được thay bằng Zα.

Chapter 9: Test of Hypotheses for a Single Sample (Kiểm chứng giả thuyết cho 1 cái sample)

Chapter 8 ta đã biết cách tính confidence interval, thì chapter này ta sẽ dùng nó để xem 1 cái kết luận nào đó có sai hay không. Ví dụ có 1 người nói số giờ làm trung bình trong 1 ngày của người Việt là 4.5 tiếng , thì để kiểm chứng câu nói này, ta sẽ đi thu thập dữ liệu 1000 người, sau đó ta sẽ tính confidence interval như trên chapter 8, rồi sau đó so sánh 2 dữ liệu để đưa ra kết luận.

9.1 Hypothesis Testing (kiểm chứng giả thuyết)

Statistical hypothesis (giả thuyết) là 1 cái phát biểu về Parameter của Population. Nhớ lại rằng Parameter là các thông số của Population, còn Statistic là của Sample, rõ ràng là các Parameter thì chúng ta chưa thể biết, ta chỉ có thể ước chừng chúng bằng cách lấy 1 sample để tính confidence interval như ở chapter 8.
Vì vậy ta sẽ lấy 1 cái sample để tính confidence interval, sau đó so sánh với cái giả thuyết để đưa ra kết luận (VD như cái đóng khung ở trên). Và với ví dự đó, ta có :

Trong 1 vài trường hợp, có thể giả thuyết sẽ là 1 phía:

VD: 1 phát biểu rằng chiều cao trung bình người Việt lớn hơn 1m65. khi đó H1 : μ>1m65.

Như đã thấy ở trên, H0 là null hypothesis, H1 là alternative hypothesis.
- Nếu reject H0 thì có nghĩa là ta có bằng chứng đủ mạnh để kết luận rằng H1 đã đúng.
- Còn nếu không reject H0, thì ta không có đủ bằng chứng là H0 đã đúng.

Note: Nhìn biết đồ trên, nó có ý nghĩa rằng ta có 1 cái sample và ta tính được rằng khoảng tin cậy confidence interval là [4.1, 4.9], tức là H0 cho μ bằng bất kỳ số nào từ 4.1 đến 4.9, ta đều phải fail to reject, còn H0 mà nằm ngoài khoảng đấy, thì ta reject . Và nên nhớ 1 điều, H0 thì luôn luôn là dấu "=", và H1 thì ghi là khác một giá trị cố định, nhưng thực chất ta chỉ reject H0 và chấp nhận H1 khi giá trị của H0 nằm ngoài khoảng tin cậy (confidence interval).

VD: Có 1 người nghĩ rằng chiều cao trung bình của người Việt là 1m65, để ông đấy xem suy đoán của mình có đúng hay không, ông ta đi khảo sát 1000 người ở Hà Nội. Ông ta tính được khoảng tin cậy là [1m55, 1m66], Vì vậy ông ta phải fail to reject H0, bởi vì H0: μ = 1m65, nằm trong khoảng tin cậy.

Tuy nhiên, các bạn phải hiểu rằng ta chỉ tính trên sample để kết luận, nên đôi khi kết luận của ta có thể sai do dữ liệu ta thu thập là toàn những trường hợp đặc biệt. Như khi ta tính khoảng tin cậy 95% thì ta có 95% khả năng là đúng, rõ ràng ta vẫn có 5% khả năng kết luận sai. Và sự sai sót ấy chia thành 2 trường hợp:
- Type 1 error : Reject H0 khi mà nó đúng. Để dễ hình dung hãy nhìn lại hình bên trên, nó có nghĩa rằng tiên đoán trước đó của mình về mean là đúng, nhưng do thu thập được toàn dữ liệu cùi mà ta tính được khoảng tin cậy bị lệch đi, dẫn đến mean μ của ta nằm ngoài khoảng tin cậy.
- Type 2 error : Fail to reject H0, tức là mình không bác bỏ H0 trong khi nó sai, ngược lại với Type 1.

9.2 Tests on the Mean of a Normal Distribution N(μ, σ²)

Trong phần 9.1 mình đã giải thích khá rõ về reject và fail to reject, các bạn cũng đã hiểu về confidence interval. Và trong các bài toán cụ thể, các bạn sẽ gặp 2 trường hợp để tính toán rồi đưa ra kết luận về H0:

- Case 1: Variance σ² của Population đã biết.
Test Statistic:

Trong bài toán cụ thể, ta sẽ tính Test Statistic, sau đó so sánh nó với các Z của giới hạn của khoảng tin cậy(confidence interval). Nếu nằm ngoài thì reject H0 thôi.

Như hình trên,
(a) là khoảng tin cậy có 2 phía với H1: μ ≠ μ0
(b) là khoảng tin cậy 1 phía với H1: μ > μ0
(c) là khoảng tin cậy 1 phía với H1: μ < μ0.

- Case 2: Variance σ² của Population chưa biết.
Test Statistic:

Khi không biết σ thì dùng t, khi biết σ thì dùng z, rất dễ, không khác gì nhau.

9.3 Tests on a population proportion (Kiểm định xác suất)

Phần trên thì kiểm định trên mean, bây giờ thì kiểm định xác suất, cách tính thì không khác gì nhau.

Thay vì tiên đoán trước giá trị trung bình của cái gì đấy, thì H0 của phần này sẽ là tiên đoán trước xác suất. Và ta cũng loại chúng nếu chúng nằm ngoài khoảng tin cậy thôi.

Ta sẽ có xác suất trong sample là p mũ, sau đó ta sẽ tính Test Statistic:

Rồi so sánh với Z của các giới hạn của khoảng tin cậy confidence interval:

Ví dụ: Một tạp chí nói rằng 1 nửa số tiến sĩ sẽ học tiếp sau khi tốt nghiệp. Dữ liệu từ một khảo sát cho thấy 117 người trong số 484 người ở trường X học tiếp sau khi tốt nghiệp. Câu hỏi: với α = 0.05, đưa ra kết luận về phát biểu trước đó.
Giải:
H0: P0 = 0.5 (1 nửa)
Ta có P mũ = 117/484 = 0.24. Test Statistic Z0 = -11.44 .
α = 0.05 => Zα/2 = Z_0.025 = 1.96. Mà |Z0| = 11.44 > 1.96, nằm ngoài khoảng tin cậy nên ta reject H0.

Chapter 10: Statistical Inference for Two Samples (Suy luận thống kê cho samples)

Chapter 9 chúng ta đã làm quen với suy luận thống kê của 1 sample, về mean μ và xác suất p. Còn chapter 10 thì cũng sẽ làm về mean μ và xác suất p, chỉ khác là sẽ thực hiện trên 2 sample, 2 cái trừ cho nhau. Sẽ có 2 cái chính là tính confidence interval cho hiệu của 2 mean μ của 2 tổng thể khác nhau, và kiểm định H0 của nó.

10.1 Inference on the Difference in Means of Two Normal Distributions (Hiệu 2 mean)

Cũng như khi tính confidence interval cho 1 sample, thì phần này cũng chia thành 2 trường hợp: σ đã biết và chưa biết.

- Case 1: σ đã biết
Khi đó, hiệu 2 mean sẽ có :

Khi này bạn sẽ dễ dàng đoán được công thức của 1-α confidence interval của hiệu 2 mean:

- Case 2: σ chưa biết
Khi mà σ chưa biết thì ta chỉ tính được các variance s của sample thôi. Và khi này, sẽ có 1 cái variance chung được gọi là pooled estimator của σ²

Công thức 1-α confidence interval của hiệu 2 mean, ghi nhớ là t sẽ có n1+n2-2 bậc tự do:

Note: Các trường hợp đều có những bài toán tính confidence interval 1 phía. Và ta chỉ cần thay α/2 bằng α với những bài toán ấy.

Hypothesis Tests on the Difference in Means

Cho hypothesis:

Khi này H0 sẽ là một phát biểu về độ chênh lệch giữa mean của 2 tổng thể: ∆0.

VD: Một người cho rằng độ chênh lệch tuổi thọ trung bình giữa nam hơn nữ là 2 tuổi. Khi đó ta có H0: μ1 − μ2 = 2 tuổi.

Trong các bài toán cụ thể, ta lại gặp 2 trường hợp : σ đã biết và chưa biết. Và chúng ta làm y hệt các bài toán về H0 trước đó: tính test Statistic và so sánh với các giới hạn của confidence interval, nếu nằm ngoài thì reject H0

- Case 1: σ đã biết
Test Statistic:

- Case 2: σ chưa biết
Test Statistic:

(Sp là pooled estimator)

10.6 Inference on the Two Proportions (Hiệu xác suất của 2 tổng thể)

1-α confidence interval của hiệu 2 xác suất:

p mũ là xác suất trong sample.

Tests on the Difference in Population Proportions

Tương tự như các bài toán trước đó, ta có test statistic:

Chapter 11: Simple Linear Regression and Correlation (Hồi quy tuyến tính)

Nếu chỉ học qua môn thì gần như không cần học sâu chương này (Với điều kiện những chương trước đã khá vững :D).

11.1 Empirical Models (Mô hình thực nghiệm)

Chúng ta sẽ có 2 cái dữ liệu khác nhau, và ta xem chúng ta xem chúng có mối liên hệ chặt chẽ với nhau không. Vậy ta sẽ lập 1 phương trình tuyến tính giữa 2 cái dữ liệu này, xem có thể dự báo trước giá trị của biến này theo biến kia hay không. Biến cần dự đoán là dependent variable và biến mà mình dùng nó để suy ra biến kia là independent variables.

Ví dụ: cho 1 tập các dữ liệu về nhiệt độ ban ngày ở HN, và 1 tập các dữ liệu về các mặt đường bị rạn nứt và tất nhiên 2 tập này phải liên kết từng cặp với nhau, rồi lập ra một phương trình tuyến tính giữa 2 thứ đó. Khi này nếu như ta thấy nó có mối tương quan lớn thì sau đó ta có thể dự đoán về số vết nứt nhờ vào nhiệt độ. Và nhiệt độ ở HN là independent variable và số vết nứt là dependent variable

Linear Regression function (hồi quy tuyến tính) là hàm khi xây dựng mối tương quan giữa 2 dữ liệu kia :

Thực ra công thức trên chả khác gì Y = a.X + b, nhưng viết khác bởi nó có các mục đích khác nhau.

11.2 Simple Linear Regression

Có n cặp dữ liệu:

Từ các cặp dữ liệu trên, ta vẽ ra hàm tuyến tính như ở phần 11.1 sao cho nó là "best fit" với các dữ liệu. Và chúng ta dùng phương pháp đó là method of least squares, tức là tối thiểu hóa tổng bình phương các sai số(ε). Để dễ hiểu hơn, bạn thấy ta có phương trình hồi quy như ở 11.1, nhưng rõ ràng ta không thể tính giá trị của y_i bằng cách gán x_i như các bài toàn bình thường bởi vì luôn có sai số:

Vì vậy, với sai số là ε, thì mỗi y_i ta sẽ có :

Do đó, tổng bình phương sai số được nhắc ở trên là :

Note: Trên thực tế, ta không có hàm hồi quy cho toàn bộ dữ liệu được nên ta chỉ ước tính nó bằng những dữ liệu mà ta có sẵn, Và từ trước đến giờ mình chỉ đang giới thiệu về lí thuyết, các bạn không cần nhớ các công thức ở trên nhưng phải hiểu. Và về sau các công thức cũng giống nhưng kí hiệu khác, bởi vì trên là các công thức cho tổng thể, mà ta chỉ tính trên các dữ liệu có sẵn (sample) thôi.
Các tham số trong phương trình hồi quy tuyến tính đó là:

với :

Và từ đó, ta có estimated linear regression line:

Sai số residual (giống ε của tổng thể):

Tổng bình phương các residual e_i là error sum of squares:

Từ đó, ta có công thức tính ước tính của σ² :

Sợ nhiều người lú, thì thực ra phần này chỉ gói gọn rằng:
- Hồi quy tuyến tính (Regression line):

- Residual (kiểu sai số, độ lệch):

- Phương sai, tổng bình phương các độ lệch:

Trên đó là các tham số mấu chốt, còn tính thế nào thì các bạn phải hiểu nó đặc trưng cho cái gì.

11.3 Properties of the Least Squares Estimators (Các ước tính)

estimated standard error of the slope (ước tính sai số của slope) và estimated standard error of the intercept(ước tính sai số của intercept):

11.4 Hypothesis Tests in Simple Linear Regression (Kiểm định H0 trên hồi quy tuyến tính)

Test trên Slope

Hypotheses:

Nếu đã hiểu về phần kiểm định H0 rồi thì phần này cũng sẽ không xa lạ gì, cũng chỉ là kiểm định về một cái phát biểu bằng cách tính test statistic rồi so sánh với biên rồi kết luận.

Test statistic:

Reject H0 nếu :

(Nhớ là n − 2 degrees of freedom.)

Trường hợp đặc biệt:

Nếu Failure to reject H0, tức β₁ = 0 thì sẽ không có mối quan hệ giữa X và Y.

Test trên Intercept

Hypotheses:

Test statistic:

Reject H0 nếu :

(Nhớ là n − 2 degrees of freedom.)

11.8 Correlation (Hệ số tương quan)

Hệ số tương quan của X và Y là ρ, nhưng với sample, nó sẽ là:

Note:
.) −1 ≤ r ≤ 1.
.) Nó đặc trưng cho mối liên hệ giữa 2 dữ liệu đó
.) r và β₁ có cùng dấu
.) r² gọi là coefficient of determination (hệ số xác định)

Như vậy, r càng tiến về 0 thì mối liên hệ giữa X và Y càng thấp, và ngược lại.

Test Hypotheses about the Correlation Coefficient

Hypotheses:

Test statistic:

Reject H0 nếu :