Thu thập và phân loại dữ liệu

Bài viết này sẽ giới thiệu về quá trình thu thập và biểu diễn dữ liệu, một trong những bước quan trọng trong quá trình phân tích dữ liệu. Thu thập và biểu diễn dữ liệu giúp chúng ta tìm hiểu và hiểu rõ hơn về một tập dữ liệu cụ thể, từ đó giúp chúng ta đưa ra các quyết định và khẳng định dựa trên dữ liệu thực tế. Bài viết này sẽ giải thích các phương pháp và công cụ phổ biến để thu thập và biểu diễn dữ liệu, cũng như cung cấp các lời khuyên và thủ thuật để làm việc với dữ liệu hiệu quả.

Thu thập và phân loại dữ liệu

Dữ liệu là một tập hợp các giá trị hoặc thông tin được thu thập, lưu trữ và sử dụng để thực hiện các hoạt động và quyết định. Dữ liệu có thể được biểu diễn dưới nhiều dạng khác nhau, bao gồm văn bản, hình ảnh, âm thanh, video và các loại dữ liệu số khác.

Dữ liệu có thể được thu thập từ nhiều nguồn, bao gồm các bảng thông tin, cuộc khảo sát, các báo cáo, hồ sơ bệnh án và các nguồn dữ liệu trực tuyến. Dữ liệu đóng vai trò quan trọng trong các lĩnh vực như khoa học, kinh tế, y tế, giáo dục và nhiều lĩnh vực khác, và nó được sử dụng để hỗ trợ quyết định và nghiên cứu.

Dữ liệu được phân loại theo sơ đồ sau:

Dữ liệu định lượng

Dữ liệu định lượng là dữ liệu có thể đo lường được bằng các đơn vị đo lường, có thể sắp xếp và tính toán được.

Dưới đây là một số ví dụ về dữ liệu định lượng:

  • Nhiệt độ: đo bằng độ C hoặc độ F
  • Khối lượng: đo bằng gram, kilogram hoặc pound
  • Thời gian: đo bằng giây, phút, giờ, ngày, tháng, năm
  • Chiều dài: đo bằng mét, feet, inch, centimet
  • Áp suất: đo bằng đơn vị áp suất như Pascal, bar, psi
  • Tốc độ: đo bằng đơn vị về khoảng cách trên đơn vị thời gian như kilômét trên giờ, mile trên giờ
  • Cường độ âm thanh: đo bằng đơn vị độ decibel (dB)
  • Độ dày: đo bằng đơn vị đo độ dày như milimet hoặc inch

Các loại dữ liệu định lượng này có thể được thu thập bằng cách đo lường hoặc đếm các giá trị số hoặc kích thước tương ứng. Sau đó, dữ liệu này có thể được biểu diễn dưới dạng bảng tính, đồ thị hoặc bản đồ để phân tích và sử dụng cho các mục đích khác nhau.

Dữ liệu định tính

Dữ liệu định tính là dữ liệu mà các giá trị không được đo lường bằng các đơn vị đo lường và không thể tính toán được. Thay vào đó, chúng được phân loại hoặc nhóm lại thành các danh mục.

Dưới đây là một số ví dụ về dữ liệu định tính:

  • Giới tính: Nam hoặc Nữ
  • Tình trạng hôn nhân: Độc thân, Kết hôn, Ly dị
  • Loại động vật: Có vú, Không vú, Côn trùng
  • Trạng thái: Đang hoạt động, Tạm ngừng hoạt động
  • Màu sắc: Đỏ, Xanh, Vàng
  • Khu vực: Bắc, Trung, Nam
  • Loại hình doanh nghiệp: Công ty TNHH, Công ty Cổ phần, Đơn vị hành chính sự nghiệp

Các giá trị của dữ liệu định tính có thể được biểu diễn bằng các chữ cái, chữ số hoặc các từ mô tả. Thông thường, dữ liệu định tính được sử dụng để phân loại và so sánh các nhóm, và có thể được biểu diễn dưới dạng biểu đồ tròn, biểu đồ cột hoặc bản đồ.

Chú ý:

Dữ liệu không thể sắp xếp theo thứ tự có thể là dữ liệu phân loại hoặc dữ liệu định lượng không đo được theo thang đo tuyến tính. Dưới đây là một số ví dụ:

  • Dữ liệu phân loại: Giới tính (nam, nữ), loại máy bay (chở khách, vận tải, quân sự), màu sắc (đỏ, xanh, vàng), loại thực vật (rau, củ, quả), loại động vật (có vú, không vú, côn trùng).

  • Dữ liệu định lượng không đo được theo thang đo tuyến tính: Thứ tự của một danh sách các yêu cầu, tình trạng hôn nhân (độc thân, kết hôn, ly dị), loại giấy phép lái xe (A1, A2, B1, B2), trình độ học vấn (tiểu học, trung học cơ sở, trung học phổ thông, đại học), mức độ hài lòng (rất hài lòng, hài lòng, bình thường, không hài lòng).

Dữ liệu định tính (dữ liệu không là số) có thể phân thành hai loại:

  • Có thể sắp xếp thứ tự (Ví dụ, xếp loại học sinh: trung bình, khá, tốt, giỏi...)
  • Không thể sắp xếp theo thứ tự (Ví dụ: dữ liệu về tên các loài động vật hoang dã...)

Tính đại diện của dữ liệu

Trong thống kê, tính đại diện của dữ liệu là việc sử dụng một giá trị đại diện để mô tả các giá trị của tập dữ liệu. Tính đại diện này cho phép ta có cái nhìn tổng quát và cụ thể hơn về dữ liệu mà không cần phải xem qua từng giá trị của nó. Các phép tính đại diện dữ liệu phổ biến bao gồm:

  1. Giá trị trung bình: là trung bình cộng của tất cả các giá trị trong tập dữ liệu. Nó được tính bằng cách chia tổng các giá trị cho số lượng các giá trị đó.

  2. Trung vị: là giá trị nằm ở giữa của tập dữ liệu sau khi sắp xếp theo thứ tự tăng dần hoặc giảm dần.

  3. Mode: là giá trị xuất hiện nhiều nhất trong tập dữ liệu.

  4. Giá trị lớn nhất và giá trị nhỏ nhất: là giá trị lớn nhất và nhỏ nhất trong tập dữ liệu.

Việc sử dụng tính đại diện dữ liệu tùy thuộc vào mục đích và loại dữ liệu cụ thể. Ví dụ, giá trị trung bình được sử dụng để tính toán các chỉ số kinh tế như GDP trung bình, trong khi trung vị được sử dụng trong các nghiên cứu về thu nhập để tránh bị ảnh hưởng bởi các giá trị bất thường.

Ví dụ:

Giả sử chúng ta có tập dữ liệu gồm số lượng xe hơi được bán ra mỗi ngày trong một tháng của một đại lý ô tô. Dưới đây là các giá trị của tập dữ liệu:

20, 25, 30, 35, 40, 45, 50, 55, 60, 65

Để tính toán các giá trị đại diện cho tập dữ liệu này, ta có thể áp dụng các phép tính đại diện sau:

  1. Giá trị trung bình: Tính tổng các giá trị và chia cho số lượng các giá trị

(20 + 25 + 30 + 35 + 40 + 45 + 50 + 55 + 60 + 65) / 10 = 40

Vậy giá trị trung bình của số lượng xe hơi được bán ra mỗi ngày trong tháng là 40.

  1. Trung vị: Sắp xếp các giá trị theo thứ tự tăng dần và chọn giá trị ở giữa

20, 25, 30, 35, 40, 45, 50, 55, 60, 65

Giá trị ở giữa là 40, vậy trung vị của tập dữ liệu là 40.

  1. Mode: Xác định giá trị xuất hiện nhiều nhất trong tập dữ liệu

Trong tập dữ liệu này, không có giá trị nào xuất hiện nhiều hơn 1 lần, vậy không có mode.

  1. Giá trị lớn nhất và giá trị nhỏ nhất

Giá trị nhỏ nhất là 20 và giá trị lớn nhất là 65.

Tóm lại, trong ví dụ này, giá trị trung bình và trung vị đều cho thấy rằng số lượng xe hơi được bán ra mỗi ngày trong tháng là khoảng 40, với giá trị nhỏ nhất là 20 và giá trị lớn nhất là 65.

Chú ý:

Để có thể đưa ra kết luận hợp lí, dữ liệu thu được phải đảm bảo tính đại diện cho toàn bộ đối tượng đang được quan tâm.

Bài tập

Bài 1: Bạn đang quan sát số lượng khách hàng đến một cửa hàng trong vòng 1 giờ. Hãy xác định xem dữ liệu bạn đang thu thập là dữ liệu định lượng hay dữ liệu định tính. Nếu đó là dữ liệu định lượng, hãy chỉ ra đại diện của dữ liệu đó.

Đáp án:

Trong bài toán này, dữ liệu thu thập là số lượng khách hàng đến một cửa hàng trong vòng 1 giờ, có thể được đo bằng số. Vì vậy, đây là dữ liệu định lượng.

Để xác định đại diện của dữ liệu định lượng này, chúng ta có thể tính trung bình số lượng khách hàng đến cửa hàng trong vòng 1 giờ. Chúng ta cần tính tổng số lượng khách hàng đến cửa hàng trong vòng 1 giờ và chia cho số lần quan sát được.

Ví dụ: Nếu trong vòng 1 giờ, ta quan sát được số lượng khách hàng đến cửa hàng như sau: 10, 5, 12, 8, 6, 11. Để tính trung bình số lượng khách hàng đến cửa hàng trong vòng 1 giờ, ta thực hiện tính tổng số lượng khách hàng và chia cho số lần quan sát được:

Trung bình số lượng khách hàng = (10 + 5 + 12 + 8 + 6 + 11) / 6 = 8,6

Vì vậy, đại diện cho dữ liệu định lượng này là 8.6, tức là trung bình số lượng khách hàng đến cửa hàng trong vòng 1 giờ là 8.6.

Bài 2: Bạn đang quan sát màu sắc của các chiếc ô tô đi qua một điểm giao thông trong vòng 1 giờ. Hãy xác định xem dữ liệu bạn đang thu thập là dữ liệu định lượng hay dữ liệu định tính. Nếu đó là dữ liệu định tính, hãy liệt kê các giá trị của dữ liệu đó.

Đáp án:

Trong bài toán này, dữ liệu thu thập là màu sắc của các chiếc ô tô đi qua một điểm giao thông trong vòng 1 giờ. Màu sắc không thể đo bằng số, mà chỉ có thể mô tả bằng từ ngữ hoặc hình ảnh. Vì vậy, đây là dữ liệu định tính.

Để liệt kê các giá trị của dữ liệu định tính này, chúng ta có thể liệt kê các màu sắc mà chúng ta quan sát được trong vòng 1 giờ. Ví dụ:

  • Trắng
  • Đen
  • Xám
  • Đỏ
  • Vàng
  • Xanh

Và còn nhiều màu sắc khác. Do đó, dữ liệu định tính trong bài toán này bao gồm các giá trị màu sắc của các chiếc ô tô đi qua điểm giao thông trong vòng 1 giờ.