Data Scientist: Công việc hấp dẫn nhất thế kỷ 21
Thứ Ba - 07/11/2017
Nhà khoa học dữ liệu (Data Scientist) được Harvard Business Review đánh giá là “công việc hấp dẫn nhất thế kỷ 21”. Glassdoor báo cáo rằng mức lương trung bình của một nhà khoa học dữ liệu năm 2016 là $128.549/năm so với $69.102/năm của một lập trình viên tại Mỹ.
Theo dự báo của học viện toàn cầu McKinsey: vào năm 2018, riêng nước Mỹ có thể đối mặt với tình trạng thiếu hụt từ 140.000 tới 190.000 chuyên gia phân tích dữ liệu, thiếu 1.5 triệu nhà quản lý biết sử dụng các công cụ của Dữ liệu lớn (Big Data) để thực hiện việc ra quyết định hiệu quả hơn. Những người có kỹ năng về khoa học dữ liệu (Data Science) đang được chào đón hơn bao giờ hết.
Mục lục [ẩn]
- 1 I/ Nhà khoa học dữ liệu là gì?
- 2 Tại sao chọn Đại học Melbourne:
- 3 Trao đổi trực tiếp cùng Mr Ben Waymire, Đại diện ĐH Melbourne- Trinity College:
- 4 II/ Các kiến thức và kỹ năng cơ bản mà một nhà khoa học dữ liệu cần có:
- 5 1/ Có nền tảng tốt về toán học, thống kê và học máy
- 6 2/ Học lập trình
- 7 3/ Hiểu về cơ sở dữ liệu
- 8 4/ Thành thạo về xử lý, biểu diễn trực quan và báo cáo dữ liệu
- 9 5/ Làm quen với công nghệ dữ liệu lớn
- 10 6/ Tích lũy kinh nghiệm
I/ Nhà khoa học dữ liệu là gì?
Một nhà khoa học dữ liệu được hiểu đơn giản là người giỏi hơn về thống kê so với những kỹ sư phát triển phần mềm và giỏi hơn về lập trình so với những nhà thống kê học.
Vậy làm sao để có thể trở thành nhà khoa học dữ liệu? Hãy tìm hiểu về các chương trình đào tạo Data Science tại Đại học Melbourne- xếp hạng NHẤT tại Úc:
- Bachelor of Science
- Bachelor of Science Extended
- Graduate Diploma in Data Science
- Master of Data Science
Tại sao chọn Đại học Melbourne:
- Đại học Melbourne là một trong 8 trường đại học nghiên cứu hàng đầu Australia (Group of 8);
- Xếp hạng 1 tại Úc và hạng 33 trên thế giới theo xếp hạng của Tạp chí uy tín The Times Higher Education 2016-2017;
- Trường nổi tiếng về đào tạo các ngành: Kỹ sư- cơ khí, CNTT, Y/ Dược, Kế toán, Tài chính, Kiểm toán, Thương mại, Luật, Quản lý, …
- Xếp thứ 13 toàn cầu về số lượng sinh viên sau khi ra trường tìm được việc làm theo QS World University Rankings 2014/15;
- TOP về tỷ lệ sinh viên hài lòng về trường;
- Vị trí: trung tâm thành phố Melbourne- TP đáng sống nhất thế giới, đứng đầu về các mặt: dịch vụ, y tế, văn hoá, môi trường, giáo dục, tỉ lệ tội phạm thấp;
- Hệ thống giao thông cực kỳ thuận tiện với nhiều phương tiện như xe bus, tàu điện ngầm, tramcar sử dụng chung một thẻ thanh toán Myki;
- Sinh viên được phép làm thêm 40 giờ/2 tuần trong khi học và làm toàn thời gian trong kỳ nghỉ, lễ;
- Ở lại Úc làm việc 2-4 năm sau khi tốt nghiệp và định cư khi đủ điều kiện.
Trao đổi trực tiếp cùng Mr Ben Waymire, Đại diện ĐH Melbourne- Trinity College:
Hà Nội:
- Ngày 16- 11- 2017, từ 4h- 7h tối
- Tại Đức Anh Building, 54- 56 Tuệ Tĩnh
Hồ Chí Minh:
- Ngày 26-11-2017, từ 9h30- 12h trưa
- Tại Đức Anh Office, 172 Bùi Thị Xuân, Q.1
Phụ huynh và học sinh sinh viên vào cửa tự do hoặc vui lòng đăng ký trước để được đón tiếp chu đáo:
- Đăng ký tham gia tại đây;
- Liên hệ để được tư vấn chi tiết qua Hotline 09887 09698, 09743 80915 hoặc email:duhoc@ducaedu.vn.
Học sinh, sinh viên có nhu cầu xin học/ học bổng, vui lòng mang theo hoặc gửi trước cho chúng tôi qua email bản công chứng học bạ, bảng điểm, chứng chỉ tiếng Anh để được tiếp nhận và xem xét hồ sơ tại chỗ.
Vào cuối tháng 2/2017, học sinh Vương Ngân Giang của công ty Đức Anh đã giành được học bổng 100% học phí của ĐH Melbourne, chương trình Cử nhân Thương mại.
Khuôn viên Đại học Melbourne, Úc
II/ Các kiến thức và kỹ năng cơ bản mà một nhà khoa học dữ liệu cần có:
1/ Có nền tảng tốt về toán học, thống kê và học máy
Đây là điều rất quan trọng. Tuy nhiên những kiến thức này sẽ sử dụng trong các ứng dụng thực tế nên chỉ cần dừng lại ở việc hiểu khái niệm, mô hình của thuật toán để có thể áp dụng được.
Một số khóa học online các bạn có thể tham khảo:
- Học toán, Khan Academy.
- Đại số tuyến tính (Linear algebra), MIT Open Course Ware.
- Giới thiệu về thống kê (Statistics), Udacity.
- Học máy (Machine learning), khóa học rất nổi tiếng do giáo sư Andrew Ng (ĐH Standford) dạy trên Coursera.
Ngoài ra còn rất nhiều khóa học, ebook khác các bạn có thể tìm kiếm thông qua các từ khóa bên trên. Ở đây chỉ có một lời khuyên là các bạn nên đọc và học các tài liệu tiếng Anh vì có rất nhiều các thuật ngữ chuyên ngành toán, thống kê, học máy không có từ tiếng Việt tương ứng, việc các tài liệu tiếng Việt cố gắng dịch các thuật ngữ này sẽ khiến người đọc gặp nhiều khó khăn để nắm bắt bản chất vấn đề khi tiếp xúc với tài liệu nước ngoài.
2/ Học lập trình
Các ngôn ngữ lập trình là công cụ quan trọng để các nhà khoa học dữ liệu xử lý các vấn đề. Các bạn nên chọn bắt đầu với một vài ngôn ngữ như sau:
- R, đây là một ngôn ngữ rất mạnh về xử lý tính toán thống kê. R cũng cấp một kho thư viện rất lớn các mô hình toán học, thống kê, học máy và được sử dụng ngày càng nhiều bởi các nhà khoa học dữ liệu.
- Python là ngôn ngữ dễ học cho người bắt đầu lập trình, python cũng có rất nhiều thư viện về thống kê và học máy.
- SAS và SPSS là 2 phần mềm nổi tiếng nhất về thống kê, trong đó SPSS được đưa vào giảng dạy trong trường học ở Mỹ. Tuy nhiên đây là 2 phần mềm thương mại phải trả tiền, vì vậy nếu có cơ hội được sử dụng thì các bạn nên học.
3/ Hiểu về cơ sở dữ liệu
Khi bắt đầu tìm hiểu ta thường làm việc với dữ liệu dạng text. Tuy nhiên trong thực tế thường sử dụng cơ sở dữ liệu để lưu trữ và xử lý dữ liệu. Các cơ sở dữ liệu thường được sử dụng là: MySQL, MongoDB, Postgress, Cassandra, …
Các hệ cơ sở dữ liệu thường được sử dụng
4/ Thành thạo về xử lý, biểu diễn trực quan và báo cáo dữ liệu
Việc thành thạo về xử lý, biểu diễn và báo cáo dữ liệu là kỹ năng vô cùng quan trọng đối với một nhà khoa học dữ liệu:
- Dữ liệu mà ta tiếp nhận để phân tích thường ở dạng thô, cần tiến hành chuyển đổi thì mới có thể phân tích được. Các bạn có thể tham khảo khóa học Getting and Cleaning datagiảng dạy bởi Johns Hopkins trên Coursera.
- Biểu diễn dữ liệu bằng các biểu đồ giúp ta có cái nhìn trực quan hơn, dựa vào đó có thể đưa ra các đánh giá và lựa chọn mô hình phân tích phù hợp. Một số công cụ hữu ích hay được sử dụng: ggvis, vega, …
- Bất kỳ việc phân tích dữ liệu nào thì kết quả cuối cùng cũng là đưa ra được các báo cáo. Kỹ năng báo cáo là rất quan trọng, các bạn có thể học và sử dụng các công cụ sau: Tableau, Spotfire, R Markdown.
5/ Làm quen với công nghệ dữ liệu lớn
Khi tiến hành phân tích dữ liệu trên quy mô lớn, quy trình phân tích phải thay đổi, không thể xử lý trên một máy được nữa mà phải xử lý phân tán trên rất nhiều máy. Hệ sinh thái Hadoop giúp ta giải quyết được vấn đề này. Để có cái nhìn tổng quan và những khái niệm cơ bản về Hadoop, các bạn nên đọc bài Làm quen với Hadoop.
Hadoop Ecosystem
6/ Tích lũy kinh nghiệm
Để có thể trở thành một nhà khoa học dữ liệu, các bạn cần học tập, tích lũy kiến thức liên tục. Có rất nhiều kênh thông tin bổ ích, cũng như môi trường cho các bạn thực hành:
- Tham gia các cuộc thi do Kaggle tổ chức: có nhiều cuộc thi được tổ chức liên tục, bạn có thể tham gia và thậm trí có cơ hội giành những giải thưởng lớn.
- Tham gia cộng động mạng, theo dõi những chuyên gia trong lĩnh vực này: Các bạn có thể theo dõi các trang r-bloggers, datascience101, quora, kdnuggets,… Hoặc theo dõi bài viết từ các nhà khoa học dữ liệu Hilary Mason, David Smith, Nate Silver,…
- Hãy thử nghiệm với các dự án nhỏ, ý tưởng của bản thân. Hoặc nếu có cơ hội hãy tham gia các công ty start-up ngày càng nhiều trong lĩnh vực này (Asilla là một start-up như vậy !).
Chi tiết về thủ tục xin học, visa du học và các vấn đề liên quan, vui lòng liên hệ:
Công ty tư vấn du học Đức Anh
- Hà Nội: 54-56 Tuệ Tĩnh, Tel: 024 3971 6229
- HCM: 172 Bùi Thị Xuân, Tel: 028 3925 3588
- Hotline chung: 09887 09698, 09743 80915
- Email: duhoc@ducanh.edu.vn
- Website: ducanh.edu.vn/