Cùng điểm qua những điều rất thú vị từ lớp học AI nền tảng và luyện thi chứng chỉ Tensorflow TF 05. Lớp học trọng tâm tại ProtonX giúp người học có một nền tảng trí tuệ nhân tạo vững chắc và được chứng nhận bởi Google.
1. TF 05 với sự hỗ trợ của nền tảng AI E-learning
Lớp học TF của ProtonX có sự chuyển mình mạnh mẽ từ lớp học 05 khi chính thức trở thành lớp học kết hợp giữa Video và Zoom (Hybrid).
Thứ 2 đầu tuần, học viên sẽ học qua các video ngắn gọn và thi đấu với các bạn cùng lớp thông qua việc trả lời các câu hỏi lựa chọn, câu hỏi sắp xếp và bài tập lập trình.
Việc học qua video có một lợi thế rất lớn đó là bạn có thể hoàn thành một bài học với một thời lượng ngắn hơn lớp học thông thường vì kiến thức được cô đọng lại trong video ngắn khoảng 3-5 phút/video.
Để tăng sự tương tác khi học qua Video, nền tảng đã cung cấp rất nhiều các dạng bài tập khác nhau giúp học viên có thể tương tác với nhau, tạo nên động lực học tập mạnh mẽ cho các bạn.
Buổi thứ sáu trong tuần là buổi học qua Zoom với các chủ đề khó cũng như giải thích câu hỏi của từng học viên. Founder ProtonX trò chuyện cùng với học viên.
2. TF 05 chứng kiến thành công của những chiến binh trẻ tuổi
Team ProtonX nhận thấy rằng ngày càng có các bạn trẻ tiếp cận AI từ rất sớm và có một lộ trình chuẩn bị rõ ràng để bước vào chân vào ngành trí tuệ nhân tạo. Dưới đây là những tấm gương điển hình từ TF 05.
Nga vừa tốt nghiệp THPT Lê Hồng Phong và đã bỏ túi cho mình chứng chỉ Tensorflow trước khi đi du học Mỹ.
Tìm hiểu thêm về chứng chỉ này tại đây.
Thịnh - sinh viên năm nhất Đại học bang Arizona với chứng chỉ AI từ Google.
Nhưng không chỉ các bạn trẻ mong muốn sở hữu chứng chỉ này mà với những người đi làm trong ngành rất lâu từ 9-10 năm kinh nghiệm vẫn thấy được tầm quan trọng của nó. Việc đã có kỹ năng làm ứng dụng và thêm kiến thức về AI sẽ rất thuận lợi cho những kỹ sư phát triển các tính năng thông minh trong công việc chuyên nghiệp của mình.
3. Thư viện AI trên dữ liệu thực tế Tiếng Việt
Một hoạt động rất thú vị sau khi học viên thi đỗ chứng chỉ Tensorflow đó là những bạn làm đầy đủ bài tập sẽ tham gia làm thư viện AI và công bố cho cộng đồng. Xem thêm danh sách các thư viện ProtonX đã công bố tại đây (Mục thư viện AI).
3.1. Bộ dữ liệu âm thanh
ProtonX khi xây dựng nền tảng đã dành thời gian thuê đánh nhãn khoảng 30 tiếng giọng nói Việt với mục đích chuyển tất cả âm thanh từ các video trên nền tảng thành dạng văn bản, từ đó giúp người dùng có thể tìm kiếm thông tin ngay trên video.
Project này học viên TF 05 sẽ học và nghiên cứu kiến trúc mô hình Wave2vec 2.0 sau đó đào tạo trên bộ dữ liệu này.
Việc được làm việc với dữ liệu thực tế là hiếm hoi khi bạn đang đi học cho nên hoạt động này bổ trợ cho các bạn rất nhiều để các bạn tự tin hơn khi tham gia ứng tuyển tại các công ty.
3.2. Bài toán nhận diện hình ảnh
Một bài toán nhận diện hình ảnh khó được đặt ra tại TF 05 đó là bài toán chuyển ảnh thành Latex. Nếu bạn chưa biết Latex chính là ngôn ngữ để soạn thảo các công thức Toán học.
Nếu sử dụng những mô hình OCR (Nhận diện ký tự quang học) thông thường, bạn hoàn toàn có thể nhận ra được các ký tự. Tuy nhiên việc ghép các ký tự này trở thành văn bản Latex lại rất khó khăn khi bạn thấy công thức Toán được chia ra các tầng như số mũ nằm trên dẫn đến việc nhận diện từng ký tự và ghép lại là điều không thể.
Vì thế để giải quyết thì mô hình hợp lý nhất đó chính là làm việc trên từng pixel và sử dụng mô hình dạng Seq2Seq. Ta sẽ biến ảnh thành một chuỗi pixel, sử dụng một Encoder học thông tin rồi sử dụng một Decoder để decode Latex.
Tham thêm khảo cách làm của Hải.
3.3. Bài toán trích xuất từ khóa (Keywords)
Trong quá trình nghiên cứu và phát triển các sản phẩm xử lý ngôn ngữ tự nhiên (NLP) Tiếng Việt, đặc biệt là bộ gõ Studio., team nhận thấy Việt Nam rất thiếu những thư viện NLP nền tảng. Ví dụ đơn giản từ văn bản trích xuất ra những từ khóa quan trọng.
Ví dụ từ một đoạn văn bản nhỏ như dưới đây:
Khi ngoài 40 tuổi, bạn có thể không phù hợp với xu hướng thời trang và khó tìm được trang phục phù hợp. Nếu bạn rơi vào tình huống bất ổn này, một chiếc áo khoác và khăn quấn kiểu cách như vậy có thể mang đến cho bạn vẻ ngoài xinh đẹp.
Chúng ta có thể trích xuất ra những từ khóa để hiểu văn bản hơn như thời trang
, tình huống
, áo khoác
. Khi chúng ta thu thập được nhiều từ khóa đồng nghĩa ta có thể giải nhiều bài toán hơn ví dụ bài toán sinh văn bản theo từ khóa.
Cách tiếp cận bài toán này sẽ như sau:
- Trích xuất các cụm từ theo ngrams, ví dụ cụm 2 từ, cụm 3 từ.
- Sau đó đưa văn bản ban đầu qua mô hình Bert để thu được vector thông tin của văn bản
- Đưa từng cụm từ này qua mô hình Bert và thu được vector thông tin từng cụm từ.
- Trong các vector thông tin của các cụm từ, tìm ra vector nào gần với vector thông tin của văn bản nhất, cụm từ đó chính là từ khóa. Có thể sử dụng độ tương đồng cosine (cosine similarity) hay nhân vô hướng (dot product) để đo lường độ tương đồng này.
Tham thêm khảo cách làm của Tuấn
Các bạn có thể thấy rằng từ người mới đến việc được Google chứng nhận là một con đường dài và tới việc có thể tự nghiên cứu đọc bài báo và giải quyết một bài toán cụ thể còn dài hơn nữa. Tuy nhiên ProtonX luôn tin tưởng rằng, với nền tảng được trang bị tại lớp học Tensorflow, mọi khó khăn sẽ luôn được giải quyết.
Team chúc các bạn thành công trên con đường AI của mình.