Tổng quan về Thị giác máy tính

Posted on Posted in Tin tức kỹ thuật

Thị giác máy tính (Computer vision) là gì?

Thị giác máy tính là thuật ngữ mô tả một tập hợp các công nghệ cho phép các thiết bị máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào; thu nhận, phân tích và xử lý hình ảnh.

Các nguồn hình ảnh khác nhau có thể vô cùng đa dạng. Chúng có thể là hình ảnh, video, dữ liệu 3D, dữ liệu từ máy quét y tế hoặc công nghiệp,.v.v. Mục đích là để cung cấp cho các thiết bị này khả năng “nhìn” và phản ứng tùy thuộc vào thông tin chúng nhận được.

Trong sự phức tạp và các trường hợp sử dụng của mình, thị giác máy tính thường được so sánh với nhận dạng giọng nói.

Bạn có thể không quen thuộc với khái niệm này và các công nghệ đằng sau thị giác máy tính. Tuy nhiên, bạn có đã biết đến một công nghệ phổ biến là OCR (Nhận dạng ký tự quang học),  sử dụng trong việc nhận dạng văn bản trong ảnh hoặc tài liệu được quét trong nhiều năm qua. Nhận dạng chữ viết tay đã được sử dụng trong nhiều thập kỷ bởi các hệ thống ngân hàng để đọc séc. Nhận dạng đối tượng từ lâu đã được sử dụng trong nhiều ngành công nghiệp để tự động hóa kiểm soát chất lượng hoặc phân loại sản phẩm trong các nhà máy v.v…

Xem thêm : Tìm hiểu công nghệ nhận dạng ký tự OCR Cognex

Thị giác máy tính gắn liền với Trí tuệ nhân tạo- AI theo nghĩa thiết bị không chỉ cần nhìn mà ngay sau giai đoạn nhận biết này, nó phải phân tích và giải thích những gì mình thấy, từ đó đưa ra hành động phù hợp và tương tác với môi trường.

Thị giác máy tính so với xử lý hình ảnh

Lưu ý rằng không nên có sự nhầm lẫn giữa thị giác máy tính và xử lý hình ảnh. Xử lý hình ảnh là phân tích hình ảnh kỹ thuật số hoặc thực hiện các thuật toán, bao gồm việc phân loại, trích xuất, chỉnh sửa hoặc lọc… Xử lý hình ảnh liên quan đến các công nghệ và phương pháp được sử dụng để gia tăng hình ảnh về khía cạnh thông tin trong khi thị giác máy tính hướng đến các hành động thực tế.

Mặc dù rõ ràng là ứng dụng đầu tiên của thị giác máy tính là quản lý hình ảnh nhưng nó cũng có thể được sử dụng để thực hiện các hoạt động khác nhau bao gồm nhận dạng đối tượng hoặc phát hiện sự kiện.

Một số lĩnh vực ứng dụng của thị giác máy tính

Robot và các máy tự động như xe tự lái là lĩnh vực áp dụng nhiều đến công nghệ thị giác máy tính. Tuy nhiên, hàng loạt các lĩnh vực trong đời sống hàng ngày đang phát triển sử dụng đến công nghệ thị giác máy tính:

Lĩnh vực y tế

Những tiến bộ lớn liên tục xuất hiện trong các lĩnh vực nhận dạng mẫu và xử lý hình ảnh. Đồng thời, không có gì đáng ngạc nhiên khi cộng đồng y tế và các chuyên gia trong lĩnh vực chăm sóc sức khỏe cho rằng hình ảnh y khoa (kỹ thuật tạo hình ảnh trực quan về bên trong của cơ thể để phân tích lâm sàng và can thiệp y tế, cũng như biểu thị trực quan chức năng của một số cơ quan hoặc mô sinh lý học) đã trở thành một phần thiết yếu trong cách thức làm việc của họ, hướng đến các công cụ chẩn đoán tốt hơn và tăng đáng kể khả năng đưa ra các hành động hiệu quả hơn.

Phân tích hình ảnh y khoa là một trợ giúp lớn cho phân tích dự đoán và trị liệu. Ví dụ, thị giác máy tính được áp dụng cho hình ảnh nội soi có thể làm tăng mức độ hợp lệ và đáng tin cậy của dữ liệu để giảm tỷ lệ tử vong liên quan đến ung thư đại trực tràng.

Trong một ví dụ khác, công nghệ thị giác máy tính cũng cung cấp hỗ trợ kỹ thuật cho phẫu thuật. Mô hình hình ảnh 3D của hộp sọ, như là một phần của điều trị khối u não, cung cấp tiềm năng to lớn trong việc chuẩn bị phẫu thuật thần kinh tiên tiến. Ngoài ra, khi mà học sâu ngày càng được sử dụng trong các công nghệ AI, việc tận dụng nó để phân loại các nốt phổi đã đạt được tiến bộ to lớn để chẩn đoán sớm ung thư phổi.

Lĩnh vực Bán lẻ

Thị giác máy tính đang được sử dụng trong các cửa hàng ngày càng nhiều, đặc biệt là giúp cải thiện trải nghiệm của khách hàng. Pinterest Lens là một công cụ tìm kiếm sử dụng thị giác máy tính để phát hiện các đối tượng giống như cách Shazam phát hiện âm nhạc. Bằng cách sử dụng ứng dụng điện thoại thông minh trong các cửa hàng, bạn có thể hình dung một sản phẩm trông như thế nào và nhận được các sản phẩm khác liên quan đến nó.

Nhận dạng khuôn mặt là một ứng dụng nổi tiếng về thị giác máy tính có thể được sử dụng trong trung tâm mua sắm hoặc trong cửa hàng. Lolli & Pops, một cửa hàng kẹo có trụ sở tại Mỹ, đang sử dụng nhận dạng khuôn mặt để tích điểm cho khách hàng trung thành. “Hãy tưởng tượng: Bạn bước vào cửa hàng yêu thích của mình và nhân viên bán hàng chào đón bạn bằng tên và bất cứ lúc nào bạn cần, họ chia sẻ với bạn những sản phẩm mới nhất của mình mà bạn có thể sẽ quan tâm nhất.” Sự đổi mới công nghệ có thể đưa ra các giới thiệu được cá nhân hóa cụ thể cho từng khách hàng.

Dường như không có giới hạn khi nói về các trường hợp sử dụng của thị giác máy tính trong lĩnh vực bán lẻ, chúng cũng có thể bao gồm phân tích các kệ hoặc tầng trong cửa hàng, thậm chí cả phân tích tâm trạng của khách hàng, cụ thể phát hiện cảm xúc dựa trên các thuật toán thông qua hình ảnh trong video và phân tích các biểu cảm nhỏ nhất trên gương mặt, xử lý chúng và cuối cùng, diễn giải cảm xúc chung.

Chấm dứt việc phải xếp hàng để thanh toán có thể là mục tiêu cuối cùng của cải tiến công nghệ trong các cửa hàng. Thị giác máy tính kết hợp với AI cuối cùng cũng có thể xóa sổ những hàng đợi thanh toán dài ác mộng.

Amazon đã phát triển một mô hình mới, Amazon Go, thúc đẩy các công nghệ bao gồm thị giác máy tính, IoT và AI để phát hiện, theo dõi và phân tích hành vi cũng như hành động của khách hàng trong cửa hàng để xử lý tự động quá trình thanh toán và gửi cho họ hóa đơn điện tử.

Lĩnh vực Ngân hàng

Khi nói đến việc liên kết các công nghệ AI với ngân hàng, chúng ta chủ yếu nghĩ đến việc phát hiện gian lận. Mặc dù đó là một lĩnh vực tập trung đặc biệt cho công nghệ tiên tiến trong lĩnh vực này, thị giác máy tính có thể cải tiến nhiều thứ hơn nữa. Các ứng dụng nhận dạng hình ảnh sử dụng học máy để phân loại và trích xuất dữ liệu phục vụ cho việc giám sát quá trình xác thực các tài liệu như thẻ căn cước hoặc giấy phép lái xe có thể được sử dụng để cải thiện trải nghiệm của khách hàng từ xa và tăng cường bảo mật.

Lĩnh vực An ninh

Việc sử dụng rộng rãi và đa dạng thị giác máy tính cũng áp dụng cho các lĩnh vực an ninh. Máy bay không người lái, hoặc UAV, có thể tận dụng các hệ thống thị giác máy tính để tăng cường khả năng phát hiện của con người trong việc phát hiện cháy rừng, sử dụng hình ảnh hồng ngoại (IR) như một phần của các giao thức giám sát cháy rừng. Các thuật toán nâng cao phân tích các đặc điểm hình ảnh video như chuyển động hoặc độ sáng để phát hiện lửa. Hệ thống đang thực hiện các trích xuất được nhắm mục tiêu để phát hiện dễ dàng các mẫu và tính toán cách để thấy sự khác biệt giữa các đám cháy và chuyển động thực tế có thể bị hiểu nhầm là hỏa hoạn.

Máy bay không người lái cũng có thể cải thiện an ninh và hiệu quả của hoạt động cứu hỏa bằng cách giám sát hoặc nghiên cứu các khu vực nguy hiểm. Nhân viên cứu hỏa có thể chạy các phân tích dựa trên thuật toán tiên tiến để kiểm tra khói và lửa, từ đó đánh giá rủi ro và đưa ra dự đoán về sự lan truyền lửa.

Hệ sinh thái công nghệ thị giác máy tính tiên tiến

Theo nghiên cứu của ResearchAndMmarket.com, “AI trong thị trường thị giác máy tính dự kiến ​​sẽ được định giá 3,62 tỷ USD vào năm 2018 và dự kiến ​​sẽ đạt 25,32 tỷ USD vào năm 2023”.

Số lượng công nghệ là một phần của thị giác máy tính rất rộng và chúng bao gồm, ví dụ, nhận dạng hình ảnh, công nghệ được sử dụng để nhận dạng đối tượng, con người và cả hành động ngay trước khi học máy hoặc điện toán đám mây hay điện toán cạnh tận dụng các tài nguyên về CPU và khả năng lưu trữ trong nhiều ứng dụng thực tế như như máy bay không người lái cần xử lý thông tin tại chính nơi chúng được tạo ra. Trong số những công nghệ tiên tiến đó, học máy và học sâu cho phép phát triển thị giác máy tính.

Học máy – Machine Learning

Học máy là một lớp thuật toán nhằm cung cấp cho các ứng dụng mức độ chính xác cao hơn. Điểm thú vị là những thuật toán này không nhất thiết phải có một kế hoạch rõ ràng để đạt được điều này. Dựa trên luồng dữ liệu đầu vào, số liệu thống kê định kỳ và phân tích nâng cao, chúng có thể liên tục cải thiện giá trị của kết quả.

Học máy dựa vào tiềm năng cao của các bộ dữ liệu. Nói một cách đơn giản, một bộ dữ liệu về cơ bản là một tập hợp các dữ liệu có liên quan được kết hợp lại để mang đến nhiều giá trị hơn.

Hiện nay, hệ sinh thái thị giác máy tính cung cấp cho cộng đồng công nghệ một lượng lớn dữ liệu hình ảnh miễn phí. Ví dụ, Thư viện hình ảnh của Đại học Columbia chia sẻ một bộ dữ liệu gồm 100 đối tượng khác nhau được chụp ở mọi góc trong một vòng quay 360 độ.

Học sâu – Deep learning

Học sâu là một phần của trí tuệ nhân tạo dựa trên các nguyên tắc trong cách học của con người để có được kiến ​​thức tốt hơn. Do đó, nó cung cấp những khả năng để cải thiện các quy trình, bao gồm tính chính xác của các kết quả thị giác máy tính.

Các thuật toán học sâu dựa vào các mạng thần kinh để ánh xạ các quy trình con dưới dạng phân cấp khái niệm. Những khái niệm phức tạp được phân loại thành một chuỗi các khái niệm đơn giản hơn nhiều.

Nhận diện khuôn mặt – Face ID

Nhận dạng khuôn mặt lập bản đồ và lưu trữ danh tính kỹ thuật số nhờ vào các thuật toán học sâu. Loại nhận dạng sinh trắc học này có thể được so sánh với các công nghệ nhận dạng giọng nói, mống mắt hoặc dấu vân tay hiện đang rất phổ biến.

Khái niệm này xuất hiện từ năm 2011 khi Google chứng minh rằng có thể tạo ra một máy dò tìm khuôn mặt chỉ bằng những hình ảnh không được gắn nhãn. Họ đã thiết kế một hệ thống có thể tự học để phát hiện hình ảnh con mèo mà không cần giải thích với hệ thống là con mèo trông như thế nào.

Vào thời điểm đó, mạng lưới thần kinh là 1.000 máy tính được tạo thành từ 16.000 lõi. Nó được nuôi dưỡng với 10 triệu video YouTube ngẫu nhiên, Tiến sĩ J. Dean, người làm việc trong dự án này, đã giải thích trong một cuộc phỏng vấn với New York Times rằng họ không bao giờ nói với hệ thống trong quá trình đào tạo rằng “đây là một con mèo”, vì vậy nó, về cơ bản, tự phát minh ra khái niệm về một con mèo.

Thị giác máy tính trong cuộc sống hàng ngày

Ngày nay, điện thoại thông minh có thể sử dụng máy ảnh chất lượng cao để nhận dạng. Ví dụ: iPhone X của Apple chạy công nghệ Face ID để người dùng có thể mở khóa điện thoại của họ. Dữ liệu khuôn mặt này được mã hóa và lưu trữ trên đám mây và nó cũng có thể được sử dụng cho mục đích khác như xác thực khi thanh toán.

Tại Trung Quốc, các chuyên gia nghiên cứu về công nghệ thị giác máy tính đang đưa nó vào cuộc sống hàng ngày một tốc độ gia tăng đều đặn. Không chỉ người tiêu dùng Trung Quốc sử dụng điện thoại thông minh và khả năng nhận dạng khuôn mặt của thiết bị như một phương tiện thanh toán ưa thích mà công nghệ này còn giúp phát hiện và bắt giữ tội phạm.

Điều này có ý nghĩa gì với con người?

Thị giác máy tính đang được sử dụng trong lĩnh vực an ninh để tìm kiếm tội phạm, dự đoán sự di chuyển khẩn cấp của đám đông, v.v.

Bằng cách phát triển ngày càng nhiều thuật toán thị giác máy tính tiên tiến phức tạp và hiệu quả, chúng ta đang cải thiện kết quả của nó và nhận dạng giọng nói của con người vì cả hai chủ đề này đều dựa trên các nguyên tắc so sánh. Tất cả những điều này góp phần tăng cường khả năng nhận thức tình huống của AI và robot.

Khả năng học sâu và sức mạnh của các thuật toán học máy ngày càng lớn mạnh là nguyên nhân của những mối lo ngại liên tục gia tăng, hoặc ít nhất là cần phải có một sự chú ý đặc biệt đến sự phát triển của chúng. Cụ thể, những công nghệ này đang đặt ra các vấn đề về quyền riêng tư và đạo đức.

Tuy nhiên, điều đó không có nghĩa là chúng ta nên dừng lại việc nghiên cứu. Ngược lại, giống như bất kỳ quá trình phát triển công nghệ nào, thị giác máy tính phải được giám sát bởi tất cả mọi người trên toàn cầu thay vì chỉ là một cường quốc công nghiệp hay quân sự hay nào.