Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
PREMIUM
Số trang
141
Kích thước
9.2 MB
Định dạng
PDF
Lượt xem
1982

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

Nội dung xem thử

Mô tả chi tiết

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

TRẦN VĂN DUYẾN

TÁI TẠO HÌNH DẠNG 3D CỦA ĐỐI TƯỢNG

THÔNG QUA HÌNH ẢNH PHÁC THẢO 2.5D

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã chuyên ngành: 60480101

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019

Công trình được hoàn thành tại Trường Đại học Công nghiệp TP. Hồ Chí Minh.

Người hướng dẫn khoa học: PGS.TS. Phạm Thế Bảo

Người phản biện 1: TS. Lê Thành Sách

Người phản biện 2: TS. Trần Anh Tuấn

Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại

học Công nghiệp thành phố Hồ Chí Minh ngày …… tháng ……. năm ………

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng

2. TS. Lê Thành Sách - Phản biện 1

3. TS. Trần Anh Tuấn - Phản biện 2

4. TS. Đặng Thị Phúc - Ủy viên

5. TS. Phạm Thị Thiết - Thư ký

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN VĂN DUYẾN MSHV:15117851

Ngày, tháng, năm sinh:16/11/1984 Nơi sinh: Hưng Yên

Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101

I. TÊN ĐỀ TÀI:

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D.

NHIỆM VỤ VÀ NỘI DUNG:

Nghiên cứu phương pháp tái tạo hình dạng 3D của đối tượng từ một ảnh RGB một

góc nhìn thông qua hình ảnh phác thảo 2.5D. Tìm hiểu, cài đặt, thực hiện huấn luyện,

thử nghiệm dữ liệu và đánh giá trên mô hình.

II. NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1486/QĐ-ĐHCN 25/06/2018.

III. NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018.

IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Phạm Thế Bảo

Tp. Hồ Chí Minh, ngày … tháng … năm 20 …

NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA CNTT

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP

THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

i

LỜI CẢM ƠN

Trước hết tôi xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo trong Khoa

Công nghệ Thông tin, Trường Đại học Công nghiệp TP. Hồ Chí Minh đã giúp đỡ tận

tình và chu đáo để tôi có được một môi trường tốt cho học tập và nghiên cứu.

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Phạm Thế Bảo, người

đã trực tiếp hướng dẫn, chỉ bảo tôi tận tình trong suốt quá trình nghiên cứu và hoàn

thiện luận văn này.

Một lần nữa tôi xin được gửi lời cảm ơn đến tất cả các thầy cô giáo, gia đình, bạn bè

và đồng nghiệp trong cơ quan đã giúp đỡ tôi trong thời gian vừa qua.

ii

TÓM TẮT LUẬN VĂN THẠC SĨ

Tái tạo đối tượng 3D từ một hình ảnh duy nhất là một vấn đề được xác định rõ ràng,

bài toán đòi hỏi kiến thức về những hình dạng 3D hợp lí. Điều này đưa ra những thách

thức cho các phương pháp tiếp cận dựa trên học, vì các chú thích đối tượng 3D rất

hiếm có trong các hình ảnh thực. Các nghiên cứu trước đây thường chọn huấn luyện

về dữ liệu tổng hợp với thông tin 3D thực tế, nhưng không thích ứng khi thử nghiệm

trên dữ liệu thực, điều này dẫn đến hình dạng tái tạo chưa đạt hiệu quả tốt nhất, hầu

hết đều chưa hợp lí và không tương ứng với các vật thể ngoài thực tế hoặc trong số

nhiều hình dạng có thể giải thích cho một quan sát sẽ có nhiều hình dạng phù hợp với

hình ảnh 2D tốt như nhau; tức là, không xác định được hình dạng 3D chính xác nhất

của đối tượng đối với đầu vào là một ảnh đơn. Các tiếp cận theo hướng giám sát đầy

đủ hiện tại không giải quyết được các vấn đề này và thường tạo ra các hình dạng với

bề mặt nhẵn nhưng không có chi tiết tốt.

Nghiên cứu này tìm hiểu và đánh giá lại một mô hình có thể huấn luyện từ đầu đến

cuối bằng cách tích hợp các mô hình học sâu, có khả năng ước tính tuần tự các bản

phác thảo 2.5D và hình dạng đối tượng 3D. Đầu tiên, so với hình dạng 3D đầy đủ,

các bản phác thảo 2.5D dễ dàng được phục hồi hơn từ hình ảnh 2D; các mô hình phục

hồi các bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang

dữ liệu thực. Thứ hai, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có

thể học hoàn toàn từ dữ liệu tổng hợp. Điều này là do chúng ta có thể dễ dàng hiển

thị các bản phác thảo 2.5D thực tế mà không cần mô hình hóa các biến thể xuất hiện

của đối tượng trong ảnh thật, bao gồm ánh sáng, kết cấu, ..., điều này làm giảm vấn

đề thích ứng miền. Thứ ba, bằng cách tích hợp một mạng học sâu với hình dạng bất

lợi được học từ trước sẽ điều chỉnh mô hình nếu hình dạng 3D ở đầu ra của nó là

không phù hợp với hình dạng thực tế đã giúp tái tạo hoàn chỉnh hình dạng đối tượng

một cách chính xác nhất.

iii

ABSTRACT

Reconstructing 3D objects from a single image is a well-defined problem which

requires knowledge of reasonable 3D shapes. This introduces challenges for learning￾based approaches, as 3D object annotations are scarce in real images. The previous

researches have often chosen training on synthetic data with ground truth 3D

information, but are not adaptive when testing on real data, which results in the

most inefficient rendering shape, most of which are unreasonable and do not

correspond to real objects or among many shapes that can explain an observation

that there will be many shapes that fit the 2D image equally well; i.e., it is

impossible to determine the most accurate 3D shape of an object for input as a single

image. Existing fully supervised approaches do not solve these problems and often

produce shapes with smooth surfaces but without fine details.

This study research and re-evaluates an end-to-end trainable model by integrating

deep generation learning models that are capable of sequential estimation of 2.5D

sketches and 3D object shapes. First, compared to full 3D shape, 2.5D sketches are

much easier to be recovered from a 2D image; models that recover 2.5D sketches are

also more likely to transfer from synthetic to real data. Second, 3D shape

reconstruction from 2.5D sketches, systems can learn purely from synthetic data. This

is because we can easily render realistic 2.5D sketches without modeling object

appearance variations in real images, including lighting, texture, … Third, by

integrating deep generative network with adversarially learned shape priors that

penalize the model only if its output is unrealistic. This helps to completely

reconstruct the shape of the object.

iv

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung của luận văn “Tái tạo hình dạng 3D của đối tượng thông

qua hình ảnh phác thảo 2.5D” là do tôi thực hiện dưới sự hướng dẫn của thầy PGS.

TS. Phạm Thế Bảo. Những nội dung trình bày trong luận văn hoặc là của cá nhân,

hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau. Tất cả các tài liệu tham

khảo đều có xuất xứ rõ ràng và được trích dẫn đầy đủ.

Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho

lời cam đoan của mình.

Học viên

Trần Văn Duyến

v

MỤC LỤC

MỤC LỤC...................................................................................................................v

DANH MỤC HÌNH ẢNH ....................................................................................... vii

DANH MỤC BẢNG BIỂU ........................................................................................x

DANH MỤC TỪ VIẾT TẮT.................................................................................... xi

MỞ ĐẦU.....................................................................................................................1

1. Đặt vấn đề ............................................................................................................1

2. Mục tiêu nghiên cứu ............................................................................................2

3. Đối tượng và phạm vi nghiên cứu .......................................................................2

4. Cách tiếp cận và phương pháp nghiên cứu..........................................................2

5. Ý nghĩa thực tiễn của đề tài .................................................................................3

CHƯƠNG 1 TỔNG QUAN..................................................................................4

1.1 Bài toán Tái tạo hình dạng 3D trực tiếp từ một ảnh RGB.................................4

1.2 Các hướng tiếp cận ............................................................................................4

1.2.1 Phương pháp sử dụng mạng nhúng TL .......................................................4

1.2.2 Phương pháp sử dụng mạng đối kháng để sinh mẫu có bộ mã hóa tự động

thay đổi 3D...................................................................................................7

1.2.3 Phương pháp sử dụng mạng neural tái tạo hồi quy 3D .............................11

1.3 Khó khăn và thử thách.....................................................................................19

1.4 Đề xuất hướng giải quyết.................................................................................20

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT.....................................................................21

2.1 Nhận thức hình dạng 3D của con người..........................................................21

2.1.1 Biểu diễn phác thảo sơ cấp........................................................................22

2.1.2 Phác thảo 2.5D ..........................................................................................23

2.2 Các biểu diễn của hình ảnh 2D và 3D trên máy tính.......................................25

2.2.1 Biểu diễn 2D..............................................................................................25

2.2.2 Biểu diễn 3D..............................................................................................26

2.3 Mạng neural tích chập .....................................................................................28

2.3.1 Toán tử tích chập.......................................................................................28

2.3.2 Kiến trúc CNN...........................................................................................30

vi

2.3.3 Huấn luyện CNN.......................................................................................38

2.3.4 Mạng neural tích chập 2.5D và 3D ...........................................................46

2.4 Các CNN sử dụng trong mô hình ....................................................................48

2.4.1 Mạng thặng dư...........................................................................................48

2.4.2 Mạng đối kháng sinh mẫu Wasserstein.....................................................53

CHƯƠNG 3 MÔ HÌNH TÁI TẠO HÌNH DẠNG 3D........................................64

3.1 Mô hình............................................................................................................64

3.1.1 Công cụ ước tính bản phác thảo 2.5D .......................................................65

3.1.2 Công cụ ước tính hình dạng 3D ................................................................71

3.1.3 Công cụ tinh chỉnh độ chính xác của hình dạng 3D dự đoán....................74

3.2 Huấn luyện mô hình.........................................................................................79

3.2.1 Các thông số huấn luyện ...........................................................................79

3.2.2 Huấn luyện mô hình ..................................................................................81

3.3 Thử nghiệm mô hình........................................................................................92

3.3.1 Các thông số thử nghiệm...........................................................................92

3.3.2 Thử nghiệm mô hình .................................................................................93

3.4 Phương pháp đánh giá kết quả mô hình ..........................................................99

CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ........................................................ 106

4.1 Môi trường thực nghiệm............................................................................... 106

4.2 Dữ liệu .......................................................................................................... 106

4.3 Kết quả đạt được........................................................................................... 107

4.4 Đánh giá kết quả ........................................................................................... 117

KẾT LUẬN............................................................................................................ 120

1. Kết luận........................................................................................................... 120

1.1 Ưu điểm..................................................................................................... 120

1.2 Hạn chế...................................................................................................... 120

2. Kiến nghị......................................................................................................... 121

TÀI LIỆU THAM KHẢO...................................................................................... 122

PHỤ LỤC............................................................................................................... 126

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN ...................................................... 127

vii

DANH MỤC HÌNH ẢNH

Hình 1.1 Biểu diễn của một không gian nhúng...........................................................5

Hình 1.2 Kiến trúc mạng nhúng TL............................................................................5

Hình 1.3 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng nhúng TL........................7

Hình 1.4 Kiến trúc mạng đối kháng sinh mẫu GAN...................................................7

Hình 1.5 Trình sinh mẫu trong 3D-GAN....................................................................8

Hình 1.6 Kiến trúc mạng VAE-GAN........................................................................10

Hình 1.7 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng 3D-VAE-GAN.............11

Hình 1.8 Kiến trúc mạng 3D-R2N2 ..........................................................................12

Hình 1.9 Kiến trúc của mạng LSTM.........................................................................13

Hình 1.10 Kiến trúc mạng 3D-R2N2 ........................................................................15

Hình 1.11 Biểu diễn đầu vào cho mỗi LSTM (a), 3D-LSTM (b) và 3D-GRU (c)...17

Hình 1.12 Kết quả tái tạo trên bộ dữ liệu PASCAL VOC bằng mạng 3D-R2N2 ....19

Hình 2.1 Hình ảnh khác nhau của những chiếc ghế có cùng hình dạng 3D .............21

Hình 2.2 Biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người ...........21

Hình 2.3 Ví dụ biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người..22

Hình 2.4 Ảo ảnh Necker............................................................................................23

Hình 2.5 Một ví dụ về phác thảo 2.5D......................................................................24

Hình 2.6 Biểu diễn trực quan 2.5D của ảnh RGB.....................................................24

Hình 2.7 Ảnh 2D và biểu diễn điểm ảnh của ảnh .....................................................25

Hình 2.8 Các dạng biểu diễn 3D ...............................................................................26

Hình 2.9 Tương quan giữa độ phân giải và mật độ voxel.........................................27

Hình 2.10 Biểu diễn đám mây điểm của một cái ghế ...............................................27

Hình 2.11 Ảnh hưởng của bộ lọc phát hiện cạnh 5×5 đối với hình ảnh ...................30

Hình 2.12 Các thành phần cơ bản của một CNN......................................................30

Hình 2.13 Kiến trúc được kết nối đầy đủ với ba đầu vào và một lớp ẩn ..................31

Hình 2.14 Các trường tiếp nhận toàn cục (a) và cục bộ (b)......................................32

Hình 2.15 Trượt trường tiếp nhận cục bộ trên đầu vào 16×16 phần tử ....................32

Hình 2.16 Một lớp tích chập tạo ra 4 bản đồ đặc trưng �� có kích thước là 12×12...33

viii

Hình 2.17 Các hàm kích hoạt: sigmoid, tanh và ReLU.............................................34

Hình 2.18 Hoạt động gộp trên bản đồ đặc trưng.......................................................36

Hình 2.19 Ví dụ về các lớp được kết nối đầy đủ được áp dụng cho bản đồ đặc trưng

.................................................................................................................37

Hình 2.20 Biểu diễn của hàm và gradient âm...........................................................39

Hình 2.21 Bề mặt của hàm ��2 + 2��2 (a) - có tối thiểu tại (0,0) – (b) cùng với

gradient âm được hiển thị ở trên cùng chế độ xem trên – dưới...............40

Hình 2.22 Giảm gradient (a) và giảm gradient ngẫu nhiên (b) cho hàm ��

2 + 2��

2

..41

Hình 2.23 Độ phức tạp ngày càng tăng của mô hình có xu hướng phù hợp với dữ

liệu nhiễu, do đó không tổng quát tốt cho các hàm thực tế ....................42

Hình 2.24 Mô hình dropout được áp dụng cho một mạng được kết nối đầy đủ.......43

Hình 2.25 Biểu diễn phương pháp chính quy dừng sớm ..........................................44

Hình 2.26 Gradient biến mất trong huấn luyện mạng neural nhiều lớp với bộ dữ liệu

MNIST ....................................................................................................46

Hình 2.27 Áp dụng tích chập 2D cho đầu vào là ảnh 2D đơn kênh .........................47

Hình 2.28 Áp dụng tích chập 2D cho đầu vào đa kênh ............................................47

Hình 2.29 Áp dụng tích chập 3D cho đầu vào thể tích đơn kênh .............................48

Hình 2.30 Mạng sâu hơn có lỗi huấn luyện và lỗi thử nghiệm cao hơn ..................49

Hình 2.31 Một khối block của mạng thặng dư..........................................................49

Hình 2.32 Mạng thuần túy 18 lớp và ResNet-18 ......................................................50

Hình 2.33 Khối cơ bản và thiết kế nút cổ chai được đề xuất....................................51

Hình 2.34 Lỗi huấn luyện trên mạng thuần túy và mạng ResNet (18 và 34 lớp) ....52

Hình 2.35 Phân kì KL và JS......................................................................................54

Hình 2.36 Mạng đối kháng sinh mẫu GAN ..............................................................54

Hình 2.37 Kế hoạch di chuyển các hộp với khoảng cách và khối lượng khác nhau 57

Hình 2.38 Kế hoạch di chuyển cùng với chi phí vận chuyển ...................................57

Hình 2.39 Chi phí vận chuyển khác nhau của hai kế hoạch .....................................58

Hình 2.40 Minh họa cho hai phân phối xác xuất �� và ��..........................................59

Hình 2.41 Mối quan hệ giữa tham số �� và gradient của trình đánh giá ...................62

Hình 2.42 WGAN-GP kiểm tra gradient tại điểm x được lấy mẫu giữa ���� và ���� ..63

ix

Hình 2.43 Hiệu suất của GAN-GP tốt hơn GAN trên các hàm phức tạp .................63

Hình 3.1 Mô hình tái tạo hình dạng 3D thông qua bản phác thảo 2.5D ...................64

Hình 3.2 Sơ đồ quá trình ước tính bản phác thảo 2.5D.............................................65

Hình 3.3 Sơ đồ quá trình ước tính hình dạng 3D......................................................71

Hình 3.4 Sơ đồ quá trình tinh chỉnh độ chính xác của hình dạng 3D dự đoán .........75

Hình 3.5 Quá trình thử nghiệm trên mô hình............................................................93

Hình 4.1 Chạy chương trình huấn luyện trên command line................................. 108

Hình 4.2 Kết quả huấn luyện được lưu lại trong thư mục nhật kí logger.............. 109

Hình 4.3 Kết quả lỗi của quá trình huấn luyện mạng ước tính 2.5D ..................... 109

Hình 4.4 Kết quả lỗi của quá trình huấn luyện mạng ước tính hình dạng 3D ....... 110

Hình 4.5 Kết quả lỗi của quá trình huấn luyện mạng tinh chỉnh hình dạng 3D .... 110

Hình 4.6 Chạy chương trình thử nghiệm trên command line ................................ 111

Hình 4.7 Kết quả chạy chương trình lưu trong thư mục kết quả ........................... 111

Hình 4.8 Kết xuất ra hình ảnh 3D của đối tượng bằng Blender............................. 112

Hình 4.9 Kết quả xử lí tái tạo hoàn chỉnh hình dạng 3D của đối tượng trên một số

hình ảnh máy bay, xe hơi và ghế của mô hình ....................................... 113

Hình 4.10 Kết quả so sánh định tính với phương pháp 3D-EPN........................... 115

Hình 4.11 Tính chỉ số IoU...................................................................................... 116

Hình 4.12 Kết quả tính IoU trên tập dữ liệu kết quả của mô hình......................... 116

Hình 4.13 Một số trường hợp sai sót khi tái tạo hình dạng 3D.............................. 119

Hình 4.14 Hình dạng đầu ra chưa chính xác ở một số đối tượng .......................... 119

x

DANH MỤC BẢNG BIỂU

Bảng 2.1 Kiến trúc tổng thể của các mạng ResNet...................................................51

Bảng 2.2 Tỉ lệ lỗi hàng đầu Top-1 (%, thử nghiệm 10-crop) trên ImageNet ...........53

Bảng 4.1 Độ chính xác trung bình của 3 lần thử nghiệm....................................... 117

Bảng 4.2 So sánh độ chính xác của các phương pháp ........................................... 117

xi

DANH MỤC TỪ VIẾT TẮT

2D two-dimensional

2.5D two-and-a-half-dimensional

3D three-dimensional

ANN Artificial Neural Network

CAD Computer Aided Design

CNN Convolutional Neural Network

Conv Convolution

CPU Central Processing Unit

EPN Encoder Predictor Networks

FC Fully Connected

GAN Generative Adversarial Network

GPU Graphics Processing Unit

GRU Gated Recurrent Unit

IoU Intersection over Union

LSTM Long Short Term Memory Network

MLP Multi-Layer Perceptron

R2N2 Recurrent Reconstruction Neural Network

ReLU Rectified Linear Unit

ResNet Residual Network

RGB Red – Green – Blue

RGB-D Red – Green – Blue – Depth

RNN Recurrent Neural Network

SGD Stochastic Gradient Descent

VAE Variational Autoencoder

Tải ngay đi em, còn do dự, trời tối mất!