Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

Trang chủ

Đăng nhập

Đăng ký

Mới

Đăng ký tài khoản mới

AI Tư vấn

Mới

Trợ lý thông minh tìm tài liệu

Liên hệ fanpage

Hỗ trợ tìm tài liệu

Lưu trang

Liên hệ fanpage

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

PREMIUM

Số trang

141

Kích thước

9.2 MB

Định dạng

PDF

Lượt xem

1423

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

Nội dung xem thử

Mô tả chi tiết

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

TRẦN VĂN DUYẾN

TÁI TẠO HÌNH DẠNG 3D CỦA ĐỐI TƯỢNG

THÔNG QUA HÌNH ẢNH PHÁC THẢO 2.5D

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã chuyên ngành: 60480101

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019

Công trình được hoàn thành tại Trường Đại học Công nghiệp TP. Hồ Chí Minh.

Người hướng dẫn khoa học: PGS.TS. Phạm Thế Bảo

Người phản biện 1: TS. Lê Thành Sách

Người phản biện 2: TS. Trần Anh Tuấn

Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại

học Công nghiệp thành phố Hồ Chí Minh ngày …… tháng ……. năm ………

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng

2. TS. Lê Thành Sách - Phản biện 1

3. TS. Trần Anh Tuấn - Phản biện 2

4. TS. Đặng Thị Phúc - Ủy viên

5. TS. Phạm Thị Thiết - Thư ký

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN VĂN DUYẾN MSHV:15117851

Ngày, tháng, năm sinh:16/11/1984 Nơi sinh: Hưng Yên

Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101

I. TÊN ĐỀ TÀI:

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D.

NHIỆM VỤ VÀ NỘI DUNG:

Nghiên cứu phương pháp tái tạo hình dạng 3D của đối tượng từ một ảnh RGB một

góc nhìn thông qua hình ảnh phác thảo 2.5D. Tìm hiểu, cài đặt, thực hiện huấn luyện,

thử nghiệm dữ liệu và đánh giá trên mô hình.

II. NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1486/QĐ-ĐHCN 25/06/2018.

III. NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018.

IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Phạm Thế Bảo

Tp. Hồ Chí Minh, ngày … tháng … năm 20 …

NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA CNTT

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP

THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

LỜI CẢM ƠN

Trước hết tôi xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo trong Khoa

Công nghệ Thông tin, Trường Đại học Công nghiệp TP. Hồ Chí Minh đã giúp đỡ tận

tình và chu đáo để tôi có được một môi trường tốt cho học tập và nghiên cứu.

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Phạm Thế Bảo, người

đã trực tiếp hướng dẫn, chỉ bảo tôi tận tình trong suốt quá trình nghiên cứu và hoàn

thiện luận văn này.

Một lần nữa tôi xin được gửi lời cảm ơn đến tất cả các thầy cô giáo, gia đình, bạn bè

và đồng nghiệp trong cơ quan đã giúp đỡ tôi trong thời gian vừa qua.

TÓM TẮT LUẬN VĂN THẠC SĨ

Tái tạo đối tượng 3D từ một hình ảnh duy nhất là một vấn đề được xác định rõ ràng,

bài toán đòi hỏi kiến thức về những hình dạng 3D hợp lí. Điều này đưa ra những thách

thức cho các phương pháp tiếp cận dựa trên học, vì các chú thích đối tượng 3D rất

hiếm có trong các hình ảnh thực. Các nghiên cứu trước đây thường chọn huấn luyện

về dữ liệu tổng hợp với thông tin 3D thực tế, nhưng không thích ứng khi thử nghiệm

trên dữ liệu thực, điều này dẫn đến hình dạng tái tạo chưa đạt hiệu quả tốt nhất, hầu

hết đều chưa hợp lí và không tương ứng với các vật thể ngoài thực tế hoặc trong số

nhiều hình dạng có thể giải thích cho một quan sát sẽ có nhiều hình dạng phù hợp với

hình ảnh 2D tốt như nhau; tức là, không xác định được hình dạng 3D chính xác nhất

của đối tượng đối với đầu vào là một ảnh đơn. Các tiếp cận theo hướng giám sát đầy

đủ hiện tại không giải quyết được các vấn đề này và thường tạo ra các hình dạng với

bề mặt nhẵn nhưng không có chi tiết tốt.

Nghiên cứu này tìm hiểu và đánh giá lại một mô hình có thể huấn luyện từ đầu đến

cuối bằng cách tích hợp các mô hình học sâu, có khả năng ước tính tuần tự các bản

phác thảo 2.5D và hình dạng đối tượng 3D. Đầu tiên, so với hình dạng 3D đầy đủ,

các bản phác thảo 2.5D dễ dàng được phục hồi hơn từ hình ảnh 2D; các mô hình phục

hồi các bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang

dữ liệu thực. Thứ hai, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có

thể học hoàn toàn từ dữ liệu tổng hợp. Điều này là do chúng ta có thể dễ dàng hiển

thị các bản phác thảo 2.5D thực tế mà không cần mô hình hóa các biến thể xuất hiện

của đối tượng trong ảnh thật, bao gồm ánh sáng, kết cấu, ..., điều này làm giảm vấn

đề thích ứng miền. Thứ ba, bằng cách tích hợp một mạng học sâu với hình dạng bất

lợi được học từ trước sẽ điều chỉnh mô hình nếu hình dạng 3D ở đầu ra của nó là

không phù hợp với hình dạng thực tế đã giúp tái tạo hoàn chỉnh hình dạng đối tượng

một cách chính xác nhất.

iii

ABSTRACT

Reconstructing 3D objects from a single image is a well-defined problem which

requires knowledge of reasonable 3D shapes. This introduces challenges for learningbased approaches, as 3D object annotations are scarce in real images. The previous

researches have often chosen training on synthetic data with ground truth 3D

information, but are not adaptive when testing on real data, which results in the

most inefficient rendering shape, most of which are unreasonable and do not

correspond to real objects or among many shapes that can explain an observation

that there will be many shapes that fit the 2D image equally well; i.e., it is

impossible to determine the most accurate 3D shape of an object for input as a single

image. Existing fully supervised approaches do not solve these problems and often

produce shapes with smooth surfaces but without fine details.

This study research and re-evaluates an end-to-end trainable model by integrating

deep generation learning models that are capable of sequential estimation of 2.5D

sketches and 3D object shapes. First, compared to full 3D shape, 2.5D sketches are

much easier to be recovered from a 2D image; models that recover 2.5D sketches are

also more likely to transfer from synthetic to real data. Second, 3D shape

reconstruction from 2.5D sketches, systems can learn purely from synthetic data. This

is because we can easily render realistic 2.5D sketches without modeling object

appearance variations in real images, including lighting, texture, … Third, by

integrating deep generative network with adversarially learned shape priors that

penalize the model only if its output is unrealistic. This helps to completely

reconstruct the shape of the object.

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung của luận văn “Tái tạo hình dạng 3D của đối tượng thông

qua hình ảnh phác thảo 2.5D” là do tôi thực hiện dưới sự hướng dẫn của thầy PGS.

TS. Phạm Thế Bảo. Những nội dung trình bày trong luận văn hoặc là của cá nhân,

hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau. Tất cả các tài liệu tham

khảo đều có xuất xứ rõ ràng và được trích dẫn đầy đủ.

Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho

lời cam đoan của mình.

Học viên

Trần Văn Duyến

MỤC LỤC

MỤC LỤC...................................................................................................................v

DANH MỤC HÌNH ẢNH ....................................................................................... vii

DANH MỤC BẢNG BIỂU ........................................................................................x

DANH MỤC TỪ VIẾT TẮT.................................................................................... xi

MỞ ĐẦU.....................................................................................................................1

1. Đặt vấn đề ............................................................................................................1

2. Mục tiêu nghiên cứu ............................................................................................2

3. Đối tượng và phạm vi nghiên cứu .......................................................................2

4. Cách tiếp cận và phương pháp nghiên cứu..........................................................2

5. Ý nghĩa thực tiễn của đề tài .................................................................................3

CHƯƠNG 1 TỔNG QUAN..................................................................................4

1.1 Bài toán Tái tạo hình dạng 3D trực tiếp từ một ảnh RGB.................................4

1.2 Các hướng tiếp cận ............................................................................................4

1.2.1 Phương pháp sử dụng mạng nhúng TL .......................................................4

1.2.2 Phương pháp sử dụng mạng đối kháng để sinh mẫu có bộ mã hóa tự động

thay đổi 3D...................................................................................................7

1.2.3 Phương pháp sử dụng mạng neural tái tạo hồi quy 3D .............................11

1.3 Khó khăn và thử thách.....................................................................................19

1.4 Đề xuất hướng giải quyết.................................................................................20

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT.....................................................................21

2.1 Nhận thức hình dạng 3D của con người..........................................................21

2.1.1 Biểu diễn phác thảo sơ cấp........................................................................22

2.1.2 Phác thảo 2.5D ..........................................................................................23

2.2 Các biểu diễn của hình ảnh 2D và 3D trên máy tính.......................................25

2.2.1 Biểu diễn 2D..............................................................................................25

2.2.2 Biểu diễn 3D..............................................................................................26

2.3 Mạng neural tích chập .....................................................................................28

2.3.1 Toán tử tích chập.......................................................................................28

2.3.2 Kiến trúc CNN...........................................................................................30

2.3.3 Huấn luyện CNN.......................................................................................38

2.3.4 Mạng neural tích chập 2.5D và 3D ...........................................................46

2.4 Các CNN sử dụng trong mô hình ....................................................................48

2.4.1 Mạng thặng dư...........................................................................................48

2.4.2 Mạng đối kháng sinh mẫu Wasserstein.....................................................53

CHƯƠNG 3 MÔ HÌNH TÁI TẠO HÌNH DẠNG 3D........................................64

3.1 Mô hình............................................................................................................64

3.1.1 Công cụ ước tính bản phác thảo 2.5D .......................................................65

3.1.2 Công cụ ước tính hình dạng 3D ................................................................71

3.1.3 Công cụ tinh chỉnh độ chính xác của hình dạng 3D dự đoán....................74

3.2 Huấn luyện mô hình.........................................................................................79

3.2.1 Các thông số huấn luyện ...........................................................................79

3.2.2 Huấn luyện mô hình ..................................................................................81

3.3 Thử nghiệm mô hình........................................................................................92

3.3.1 Các thông số thử nghiệm...........................................................................92

3.3.2 Thử nghiệm mô hình .................................................................................93

3.4 Phương pháp đánh giá kết quả mô hình ..........................................................99

CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ........................................................ 106

4.1 Môi trường thực nghiệm............................................................................... 106

4.2 Dữ liệu .......................................................................................................... 106

4.3 Kết quả đạt được........................................................................................... 107

4.4 Đánh giá kết quả ........................................................................................... 117

KẾT LUẬN............................................................................................................ 120

1. Kết luận........................................................................................................... 120

1.1 Ưu điểm..................................................................................................... 120

1.2 Hạn chế...................................................................................................... 120

2. Kiến nghị......................................................................................................... 121

TÀI LIỆU THAM KHẢO...................................................................................... 122

PHỤ LỤC............................................................................................................... 126

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN ...................................................... 127

vii

DANH MỤC HÌNH ẢNH

Hình 1.1 Biểu diễn của một không gian nhúng...........................................................5

Hình 1.2 Kiến trúc mạng nhúng TL............................................................................5

Hình 1.3 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng nhúng TL........................7

Hình 1.4 Kiến trúc mạng đối kháng sinh mẫu GAN...................................................7

Hình 1.5 Trình sinh mẫu trong 3D-GAN....................................................................8

Hình 1.6 Kiến trúc mạng VAE-GAN........................................................................10

Hình 1.7 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng 3D-VAE-GAN.............11

Hình 1.8 Kiến trúc mạng 3D-R2N2 ..........................................................................12

Hình 1.9 Kiến trúc của mạng LSTM.........................................................................13

Hình 1.10 Kiến trúc mạng 3D-R2N2 ........................................................................15

Hình 1.11 Biểu diễn đầu vào cho mỗi LSTM (a), 3D-LSTM (b) và 3D-GRU (c)...17

Hình 1.12 Kết quả tái tạo trên bộ dữ liệu PASCAL VOC bằng mạng 3D-R2N2 ....19

Hình 2.1 Hình ảnh khác nhau của những chiếc ghế có cùng hình dạng 3D .............21

Hình 2.2 Biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người ...........21

Hình 2.3 Ví dụ biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người..22

Hình 2.4 Ảo ảnh Necker............................................................................................23

Hình 2.5 Một ví dụ về phác thảo 2.5D......................................................................24

Hình 2.6 Biểu diễn trực quan 2.5D của ảnh RGB.....................................................24

Hình 2.7 Ảnh 2D và biểu diễn điểm ảnh của ảnh .....................................................25

Hình 2.8 Các dạng biểu diễn 3D ...............................................................................26

Hình 2.9 Tương quan giữa độ phân giải và mật độ voxel.........................................27

Hình 2.10 Biểu diễn đám mây điểm của một cái ghế ...............................................27

Hình 2.11 Ảnh hưởng của bộ lọc phát hiện cạnh 5×5 đối với hình ảnh ...................30

Hình 2.12 Các thành phần cơ bản của một CNN......................................................30

Hình 2.13 Kiến trúc được kết nối đầy đủ với ba đầu vào và một lớp ẩn ..................31

Hình 2.14 Các trường tiếp nhận toàn cục (a) và cục bộ (b)......................................32

Hình 2.15 Trượt trường tiếp nhận cục bộ trên đầu vào 16×16 phần tử ....................32

Hình 2.16 Một lớp tích chập tạo ra 4 bản đồ đặc trưng �� có kích thước là 12×12...33

viii

Hình 2.17 Các hàm kích hoạt: sigmoid, tanh và ReLU.............................................34

Hình 2.18 Hoạt động gộp trên bản đồ đặc trưng.......................................................36

Hình 2.19 Ví dụ về các lớp được kết nối đầy đủ được áp dụng cho bản đồ đặc trưng

.................................................................................................................37

Hình 2.20 Biểu diễn của hàm và gradient âm...........................................................39

Hình 2.21 Bề mặt của hàm ��2 + 2��2 (a) - có tối thiểu tại (0,0) – (b) cùng với

gradient âm được hiển thị ở trên cùng chế độ xem trên – dưới...............40

Hình 2.22 Giảm gradient (a) và giảm gradient ngẫu nhiên (b) cho hàm ��

2 + 2��

..41

Hình 2.23 Độ phức tạp ngày càng tăng của mô hình có xu hướng phù hợp với dữ

liệu nhiễu, do đó không tổng quát tốt cho các hàm thực tế ....................42

Hình 2.24 Mô hình dropout được áp dụng cho một mạng được kết nối đầy đủ.......43

Hình 2.25 Biểu diễn phương pháp chính quy dừng sớm ..........................................44

Hình 2.26 Gradient biến mất trong huấn luyện mạng neural nhiều lớp với bộ dữ liệu

MNIST ....................................................................................................46

Hình 2.27 Áp dụng tích chập 2D cho đầu vào là ảnh 2D đơn kênh .........................47

Hình 2.28 Áp dụng tích chập 2D cho đầu vào đa kênh ............................................47

Hình 2.29 Áp dụng tích chập 3D cho đầu vào thể tích đơn kênh .............................48

Hình 2.30 Mạng sâu hơn có lỗi huấn luyện và lỗi thử nghiệm cao hơn ..................49

Hình 2.31 Một khối block của mạng thặng dư..........................................................49

Hình 2.32 Mạng thuần túy 18 lớp và ResNet-18 ......................................................50

Hình 2.33 Khối cơ bản và thiết kế nút cổ chai được đề xuất....................................51

Hình 2.34 Lỗi huấn luyện trên mạng thuần túy và mạng ResNet (18 và 34 lớp) ....52

Hình 2.35 Phân kì KL và JS......................................................................................54

Hình 2.36 Mạng đối kháng sinh mẫu GAN ..............................................................54

Hình 2.37 Kế hoạch di chuyển các hộp với khoảng cách và khối lượng khác nhau 57

Hình 2.38 Kế hoạch di chuyển cùng với chi phí vận chuyển ...................................57

Hình 2.39 Chi phí vận chuyển khác nhau của hai kế hoạch .....................................58

Hình 2.40 Minh họa cho hai phân phối xác xuất �� và ��..........................................59

Hình 2.41 Mối quan hệ giữa tham số �� và gradient của trình đánh giá ...................62

Hình 2.42 WGAN-GP kiểm tra gradient tại điểm x được lấy mẫu giữa �� và �� ..63

Hình 2.43 Hiệu suất của GAN-GP tốt hơn GAN trên các hàm phức tạp .................63

Hình 3.1 Mô hình tái tạo hình dạng 3D thông qua bản phác thảo 2.5D ...................64

Hình 3.2 Sơ đồ quá trình ước tính bản phác thảo 2.5D.............................................65

Hình 3.3 Sơ đồ quá trình ước tính hình dạng 3D......................................................71

Hình 3.4 Sơ đồ quá trình tinh chỉnh độ chính xác của hình dạng 3D dự đoán .........75

Hình 3.5 Quá trình thử nghiệm trên mô hình............................................................93

Hình 4.1 Chạy chương trình huấn luyện trên command line................................. 108

Hình 4.2 Kết quả huấn luyện được lưu lại trong thư mục nhật kí logger.............. 109

Hình 4.3 Kết quả lỗi của quá trình huấn luyện mạng ước tính 2.5D ..................... 109

Hình 4.4 Kết quả lỗi của quá trình huấn luyện mạng ước tính hình dạng 3D ....... 110

Hình 4.5 Kết quả lỗi của quá trình huấn luyện mạng tinh chỉnh hình dạng 3D .... 110

Hình 4.6 Chạy chương trình thử nghiệm trên command line ................................ 111

Hình 4.7 Kết quả chạy chương trình lưu trong thư mục kết quả ........................... 111

Hình 4.8 Kết xuất ra hình ảnh 3D của đối tượng bằng Blender............................. 112

Hình 4.9 Kết quả xử lí tái tạo hoàn chỉnh hình dạng 3D của đối tượng trên một số

hình ảnh máy bay, xe hơi và ghế của mô hình ....................................... 113

Hình 4.10 Kết quả so sánh định tính với phương pháp 3D-EPN........................... 115

Hình 4.11 Tính chỉ số IoU...................................................................................... 116

Hình 4.12 Kết quả tính IoU trên tập dữ liệu kết quả của mô hình......................... 116

Hình 4.13 Một số trường hợp sai sót khi tái tạo hình dạng 3D.............................. 119

Hình 4.14 Hình dạng đầu ra chưa chính xác ở một số đối tượng .......................... 119

DANH MỤC BẢNG BIỂU

Bảng 2.1 Kiến trúc tổng thể của các mạng ResNet...................................................51

Bảng 2.2 Tỉ lệ lỗi hàng đầu Top-1 (%, thử nghiệm 10-crop) trên ImageNet ...........53

Bảng 4.1 Độ chính xác trung bình của 3 lần thử nghiệm....................................... 117

Bảng 4.2 So sánh độ chính xác của các phương pháp ........................................... 117

DANH MỤC TỪ VIẾT TẮT

2D two-dimensional

2.5D two-and-a-half-dimensional

3D three-dimensional

ANN Artificial Neural Network

CAD Computer Aided Design

CNN Convolutional Neural Network

Conv Convolution

CPU Central Processing Unit

EPN Encoder Predictor Networks

FC Fully Connected

GAN Generative Adversarial Network

GPU Graphics Processing Unit

GRU Gated Recurrent Unit

IoU Intersection over Union

LSTM Long Short Term Memory Network

MLP Multi-Layer Perceptron

R2N2 Recurrent Reconstruction Neural Network

ReLU Rectified Linear Unit

ResNet Residual Network

RGB Red – Green – Blue

RGB-D Red – Green – Blue – Depth

RNN Recurrent Neural Network

SGD Stochastic Gradient Descent

VAE Variational Autoencoder

Tài liệu tương tự (6)

Xem tất cả

MIỄN PHÍ

1554 lượt xem

Thiết kế mô đun tái tạo hình ảnh trong hệ thống nén ảnh sử dụng thuật toán nhận biết chuyển động

Xem chi tiết

Tải ngay đi em, còn do dự, trời tối mất!