Nguồn bài viết từ video khóa học Data Analysis với Python của freeCodeCamp, mình chỉ viết lại thành nội dung tiếng Việt cho bạn đọc dễ hiểu. Tuy nhiên, hãy vào trang khóa học Data Analysis with Python để tiếp thu kiến thức trực quan và kỹ năng tiếng Anh của mình.
1.Data Analysis là gì?
Theo nhiều trang bán khóa học định nghĩa thì Data Analysis là quá trình thu thập, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục đích khám phá những thông tin hữu ích, thông tin khách quan giúp hỗ trợ việc ra quyết định tốt hơn.
Những nhà phân tích tiếp thị, trưởng phòng kinh doanh hay giám đốc điều hành có thể sẽ cần xem dữ liệu phân tích của bạn để đưa ra quyết định đúng đắn hơn trong chiến lược của họ.
2.Những công cụ sử dụng trong Data Analysis
freeCodeCamp chia ra 2 loại chính khi nói về các công cụ: Công cụ quản lý tự động và Ngôn ngữ lập trình
Bảng so sánh ưu và nhược điểm của 2 loại này
Với những người đang đọc bài viết này thì ưu điểm lớn nhất của việc sử dụng các sản phẩm đóng gói là dễ sử dụng. Ngược lại, ngôn ngữ lập trình sẽ khó khăn hơn trong việc học nhưng nó mang lại khả năng xử lý công việc tuyệt vời hơn.
3.Tại sao phải sử dụng Python khi làm Data Analysis
- Ngôn ngữ Python dễ học hơn phần còn lại của thế giới ngôn ngữ lập trình
- Nó đơn giản và trực quan
- Python có hàng ngàn thư viện hỗ trợ trong các lĩnh vực như IoT, Game… chứ không riêng gì Data Analysis
- Nó miễn phí và là nguồn mở nên dễ tiếp cận
- Đặc biệt, Python có một cộng đồng các nhà phát triển tuyệt vời, có rất nhiều tài liệu và hội thảo về ngôn ngữ này
freeCodeCamp có giới thiệu qua ngôn ngữ R nhưng mình bài này nói về Python nên mình không đề cập đến.
4.Quy trình phân tích dữ liệu
Data Extraction (Trích xuất dữ liệu): Xác định nguồn dữ liệu bạn cần lấy ở đâu, định dạng dữ liệu và loại dữ liệu cần trích xuất
Data Cleaning (Làm sạch dữ liệu): Giai đoạn này sẽ loại bỏ những dữ liệu dư thừa không cần thiết
Data Wrangling (Sắp xếp dữ liệu): Sau khi được làm sạch, dữ liệu cần phải sắp xếp và định dạng lại để phân tích tốt hơn
Analysis (Phân tích dữ liệu): Bước này sẽ phân tích các thông tin từ dữ liệu, mô hình hóa các dữ liệu trực quan, xuất báo cáo…
Action (Ra quyết định): Từ dữ liệu được phân tích, nhà quản lý sẽ quyết định tùy mục tiêu kinh doanh hay tiếp thị trong lĩnh vực hoạt động của doanh nghiệp.
5.Sự khác biệt giữa Data Analysis và Data Science
Nhìn chung thì không có nhiều khác biệt làm giữa 2 vai trò này.
Đa phần Data Science thì cần kỹ năng lập trình và tư duy toán học nhiều hơn để áp dụng cho các hoạt động của máy học và ETL.
Những người làm Data Analysis thì cần kỹ năng giao tiếp hoặc thuyết trình để diễn giải các báo cáo tốt hơn.
6.Python và hệ sinh thái PyData
Trong hệ sinh thái này có các thư viện pandas, matplotlib, numpy, seaborn… dùng để phân tích, vẽ biểu đồ, làm báo cáo…
7.Các nhà phân tích dữ liệu bằng Python nghĩ thế nào?
Việc xử lý dữ liệu bằng các công cụ như Excel hay phần mềm của các hãng chuyên phân tích dữ liệu sẽ dễ dàng hơn cho người dùng. Tùy nhiên, với lượng dữ liệu nhỏ thì bạn có thể phân tích được nhưng với lượng dữ liệu hàng trăm nghìn bảng ghi thì việc xử lý khá là chậm.
Đối với các nhà phân tích dữ liệu bằng Python thì công việc đó không quá khó, dữ liệu được truy xuất và xử lý liên tục mà họ không cần phải lúc nào cũng kiểm tra. Họ biết dữ liệu của họ thay đổi như thế nào. Việc này giúp họ không cần phải mỏi mắt tra cứu hàng triệu bảng ghi dữ liệu. Việc linh động di chuyển sang các giai đoạn khác của quá trình phân tích giúp họ hoan thành công việc dễ dàng hơn. Xử lý dữ liệu không cố định trên một thiết bị, dữ liệu họ có thể đưa lên cloud khiến các nhà phân tích không bị bó buộc về không gian và thời gian.
8.Lần nữa, tại sao lại chọn Python?
Ngoài những điểm mạnh đã phân tích về Python trong Data Analysis thì điều khiến nhiều người chọn Python là vì mức lương cho những nhà phân tích dự liệu bằng ngôn ngữ này cao hơn so với thị trường.
OK. Bài kế tiếp chúng ta sẽ thử phân tích dữ liệu mẫu với Python nhé!