Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
Nội dung xem thử
Mô tả chi tiết
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
TRẦN VĂN DUYẾN
TÁI TẠO HÌNH DẠNG 3D CỦA ĐỐI TƯỢNG
THÔNG QUA HÌNH ẢNH PHÁC THẢO 2.5D
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60480101
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019
Công trình được hoàn thành tại Trường Đại học Công nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS. Phạm Thế Bảo
Người phản biện 1: TS. Lê Thành Sách
Người phản biện 2: TS. Trần Anh Tuấn
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại
học Công nghiệp thành phố Hồ Chí Minh ngày …… tháng ……. năm ………
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng
2. TS. Lê Thành Sách - Phản biện 1
3. TS. Trần Anh Tuấn - Phản biện 2
4. TS. Đặng Thị Phúc - Ủy viên
5. TS. Phạm Thị Thiết - Thư ký
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TRẦN VĂN DUYẾN MSHV:15117851
Ngày, tháng, năm sinh:16/11/1984 Nơi sinh: Hưng Yên
Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101
I. TÊN ĐỀ TÀI:
Tái tạo hình dạng 3D của đối tượng thông qua hình ảnh phác thảo 2.5D.
NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu phương pháp tái tạo hình dạng 3D của đối tượng từ một ảnh RGB một
góc nhìn thông qua hình ảnh phác thảo 2.5D. Tìm hiểu, cài đặt, thực hiện huấn luyện,
thử nghiệm dữ liệu và đánh giá trên mô hình.
II. NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1486/QĐ-ĐHCN 25/06/2018.
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018.
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Phạm Thế Bảo
Tp. Hồ Chí Minh, ngày … tháng … năm 20 …
NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TRƯỞNG KHOA CNTT
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
i
LỜI CẢM ƠN
Trước hết tôi xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo trong Khoa
Công nghệ Thông tin, Trường Đại học Công nghiệp TP. Hồ Chí Minh đã giúp đỡ tận
tình và chu đáo để tôi có được một môi trường tốt cho học tập và nghiên cứu.
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Phạm Thế Bảo, người
đã trực tiếp hướng dẫn, chỉ bảo tôi tận tình trong suốt quá trình nghiên cứu và hoàn
thiện luận văn này.
Một lần nữa tôi xin được gửi lời cảm ơn đến tất cả các thầy cô giáo, gia đình, bạn bè
và đồng nghiệp trong cơ quan đã giúp đỡ tôi trong thời gian vừa qua.
ii
TÓM TẮT LUẬN VĂN THẠC SĨ
Tái tạo đối tượng 3D từ một hình ảnh duy nhất là một vấn đề được xác định rõ ràng,
bài toán đòi hỏi kiến thức về những hình dạng 3D hợp lí. Điều này đưa ra những thách
thức cho các phương pháp tiếp cận dựa trên học, vì các chú thích đối tượng 3D rất
hiếm có trong các hình ảnh thực. Các nghiên cứu trước đây thường chọn huấn luyện
về dữ liệu tổng hợp với thông tin 3D thực tế, nhưng không thích ứng khi thử nghiệm
trên dữ liệu thực, điều này dẫn đến hình dạng tái tạo chưa đạt hiệu quả tốt nhất, hầu
hết đều chưa hợp lí và không tương ứng với các vật thể ngoài thực tế hoặc trong số
nhiều hình dạng có thể giải thích cho một quan sát sẽ có nhiều hình dạng phù hợp với
hình ảnh 2D tốt như nhau; tức là, không xác định được hình dạng 3D chính xác nhất
của đối tượng đối với đầu vào là một ảnh đơn. Các tiếp cận theo hướng giám sát đầy
đủ hiện tại không giải quyết được các vấn đề này và thường tạo ra các hình dạng với
bề mặt nhẵn nhưng không có chi tiết tốt.
Nghiên cứu này tìm hiểu và đánh giá lại một mô hình có thể huấn luyện từ đầu đến
cuối bằng cách tích hợp các mô hình học sâu, có khả năng ước tính tuần tự các bản
phác thảo 2.5D và hình dạng đối tượng 3D. Đầu tiên, so với hình dạng 3D đầy đủ,
các bản phác thảo 2.5D dễ dàng được phục hồi hơn từ hình ảnh 2D; các mô hình phục
hồi các bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang
dữ liệu thực. Thứ hai, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có
thể học hoàn toàn từ dữ liệu tổng hợp. Điều này là do chúng ta có thể dễ dàng hiển
thị các bản phác thảo 2.5D thực tế mà không cần mô hình hóa các biến thể xuất hiện
của đối tượng trong ảnh thật, bao gồm ánh sáng, kết cấu, ..., điều này làm giảm vấn
đề thích ứng miền. Thứ ba, bằng cách tích hợp một mạng học sâu với hình dạng bất
lợi được học từ trước sẽ điều chỉnh mô hình nếu hình dạng 3D ở đầu ra của nó là
không phù hợp với hình dạng thực tế đã giúp tái tạo hoàn chỉnh hình dạng đối tượng
một cách chính xác nhất.
iii
ABSTRACT
Reconstructing 3D objects from a single image is a well-defined problem which
requires knowledge of reasonable 3D shapes. This introduces challenges for learningbased approaches, as 3D object annotations are scarce in real images. The previous
researches have often chosen training on synthetic data with ground truth 3D
information, but are not adaptive when testing on real data, which results in the
most inefficient rendering shape, most of which are unreasonable and do not
correspond to real objects or among many shapes that can explain an observation
that there will be many shapes that fit the 2D image equally well; i.e., it is
impossible to determine the most accurate 3D shape of an object for input as a single
image. Existing fully supervised approaches do not solve these problems and often
produce shapes with smooth surfaces but without fine details.
This study research and re-evaluates an end-to-end trainable model by integrating
deep generation learning models that are capable of sequential estimation of 2.5D
sketches and 3D object shapes. First, compared to full 3D shape, 2.5D sketches are
much easier to be recovered from a 2D image; models that recover 2.5D sketches are
also more likely to transfer from synthetic to real data. Second, 3D shape
reconstruction from 2.5D sketches, systems can learn purely from synthetic data. This
is because we can easily render realistic 2.5D sketches without modeling object
appearance variations in real images, including lighting, texture, … Third, by
integrating deep generative network with adversarially learned shape priors that
penalize the model only if its output is unrealistic. This helps to completely
reconstruct the shape of the object.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung của luận văn “Tái tạo hình dạng 3D của đối tượng thông
qua hình ảnh phác thảo 2.5D” là do tôi thực hiện dưới sự hướng dẫn của thầy PGS.
TS. Phạm Thế Bảo. Những nội dung trình bày trong luận văn hoặc là của cá nhân,
hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau. Tất cả các tài liệu tham
khảo đều có xuất xứ rõ ràng và được trích dẫn đầy đủ.
Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho
lời cam đoan của mình.
Học viên
Trần Văn Duyến
v
MỤC LỤC
MỤC LỤC...................................................................................................................v
DANH MỤC HÌNH ẢNH ....................................................................................... vii
DANH MỤC BẢNG BIỂU ........................................................................................x
DANH MỤC TỪ VIẾT TẮT.................................................................................... xi
MỞ ĐẦU.....................................................................................................................1
1. Đặt vấn đề ............................................................................................................1
2. Mục tiêu nghiên cứu ............................................................................................2
3. Đối tượng và phạm vi nghiên cứu .......................................................................2
4. Cách tiếp cận và phương pháp nghiên cứu..........................................................2
5. Ý nghĩa thực tiễn của đề tài .................................................................................3
CHƯƠNG 1 TỔNG QUAN..................................................................................4
1.1 Bài toán Tái tạo hình dạng 3D trực tiếp từ một ảnh RGB.................................4
1.2 Các hướng tiếp cận ............................................................................................4
1.2.1 Phương pháp sử dụng mạng nhúng TL .......................................................4
1.2.2 Phương pháp sử dụng mạng đối kháng để sinh mẫu có bộ mã hóa tự động
thay đổi 3D...................................................................................................7
1.2.3 Phương pháp sử dụng mạng neural tái tạo hồi quy 3D .............................11
1.3 Khó khăn và thử thách.....................................................................................19
1.4 Đề xuất hướng giải quyết.................................................................................20
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT.....................................................................21
2.1 Nhận thức hình dạng 3D của con người..........................................................21
2.1.1 Biểu diễn phác thảo sơ cấp........................................................................22
2.1.2 Phác thảo 2.5D ..........................................................................................23
2.2 Các biểu diễn của hình ảnh 2D và 3D trên máy tính.......................................25
2.2.1 Biểu diễn 2D..............................................................................................25
2.2.2 Biểu diễn 3D..............................................................................................26
2.3 Mạng neural tích chập .....................................................................................28
2.3.1 Toán tử tích chập.......................................................................................28
2.3.2 Kiến trúc CNN...........................................................................................30
vi
2.3.3 Huấn luyện CNN.......................................................................................38
2.3.4 Mạng neural tích chập 2.5D và 3D ...........................................................46
2.4 Các CNN sử dụng trong mô hình ....................................................................48
2.4.1 Mạng thặng dư...........................................................................................48
2.4.2 Mạng đối kháng sinh mẫu Wasserstein.....................................................53
CHƯƠNG 3 MÔ HÌNH TÁI TẠO HÌNH DẠNG 3D........................................64
3.1 Mô hình............................................................................................................64
3.1.1 Công cụ ước tính bản phác thảo 2.5D .......................................................65
3.1.2 Công cụ ước tính hình dạng 3D ................................................................71
3.1.3 Công cụ tinh chỉnh độ chính xác của hình dạng 3D dự đoán....................74
3.2 Huấn luyện mô hình.........................................................................................79
3.2.1 Các thông số huấn luyện ...........................................................................79
3.2.2 Huấn luyện mô hình ..................................................................................81
3.3 Thử nghiệm mô hình........................................................................................92
3.3.1 Các thông số thử nghiệm...........................................................................92
3.3.2 Thử nghiệm mô hình .................................................................................93
3.4 Phương pháp đánh giá kết quả mô hình ..........................................................99
CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ........................................................ 106
4.1 Môi trường thực nghiệm............................................................................... 106
4.2 Dữ liệu .......................................................................................................... 106
4.3 Kết quả đạt được........................................................................................... 107
4.4 Đánh giá kết quả ........................................................................................... 117
KẾT LUẬN............................................................................................................ 120
1. Kết luận........................................................................................................... 120
1.1 Ưu điểm..................................................................................................... 120
1.2 Hạn chế...................................................................................................... 120
2. Kiến nghị......................................................................................................... 121
TÀI LIỆU THAM KHẢO...................................................................................... 122
PHỤ LỤC............................................................................................................... 126
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN ...................................................... 127
vii
DANH MỤC HÌNH ẢNH
Hình 1.1 Biểu diễn của một không gian nhúng...........................................................5
Hình 1.2 Kiến trúc mạng nhúng TL............................................................................5
Hình 1.3 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng nhúng TL........................7
Hình 1.4 Kiến trúc mạng đối kháng sinh mẫu GAN...................................................7
Hình 1.5 Trình sinh mẫu trong 3D-GAN....................................................................8
Hình 1.6 Kiến trúc mạng VAE-GAN........................................................................10
Hình 1.7 Kết quả tái tạo trên bộ dữ liệu IKEA bằng mạng 3D-VAE-GAN.............11
Hình 1.8 Kiến trúc mạng 3D-R2N2 ..........................................................................12
Hình 1.9 Kiến trúc của mạng LSTM.........................................................................13
Hình 1.10 Kiến trúc mạng 3D-R2N2 ........................................................................15
Hình 1.11 Biểu diễn đầu vào cho mỗi LSTM (a), 3D-LSTM (b) và 3D-GRU (c)...17
Hình 1.12 Kết quả tái tạo trên bộ dữ liệu PASCAL VOC bằng mạng 3D-R2N2 ....19
Hình 2.1 Hình ảnh khác nhau của những chiếc ghế có cùng hình dạng 3D .............21
Hình 2.2 Biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người ...........21
Hình 2.3 Ví dụ biểu diễn 3 mức độ trong nhận thức hình dạng 3D của con người..22
Hình 2.4 Ảo ảnh Necker............................................................................................23
Hình 2.5 Một ví dụ về phác thảo 2.5D......................................................................24
Hình 2.6 Biểu diễn trực quan 2.5D của ảnh RGB.....................................................24
Hình 2.7 Ảnh 2D và biểu diễn điểm ảnh của ảnh .....................................................25
Hình 2.8 Các dạng biểu diễn 3D ...............................................................................26
Hình 2.9 Tương quan giữa độ phân giải và mật độ voxel.........................................27
Hình 2.10 Biểu diễn đám mây điểm của một cái ghế ...............................................27
Hình 2.11 Ảnh hưởng của bộ lọc phát hiện cạnh 5×5 đối với hình ảnh ...................30
Hình 2.12 Các thành phần cơ bản của một CNN......................................................30
Hình 2.13 Kiến trúc được kết nối đầy đủ với ba đầu vào và một lớp ẩn ..................31
Hình 2.14 Các trường tiếp nhận toàn cục (a) và cục bộ (b)......................................32
Hình 2.15 Trượt trường tiếp nhận cục bộ trên đầu vào 16×16 phần tử ....................32
Hình 2.16 Một lớp tích chập tạo ra 4 bản đồ đặc trưng �� có kích thước là 12×12...33
viii
Hình 2.17 Các hàm kích hoạt: sigmoid, tanh và ReLU.............................................34
Hình 2.18 Hoạt động gộp trên bản đồ đặc trưng.......................................................36
Hình 2.19 Ví dụ về các lớp được kết nối đầy đủ được áp dụng cho bản đồ đặc trưng
.................................................................................................................37
Hình 2.20 Biểu diễn của hàm và gradient âm...........................................................39
Hình 2.21 Bề mặt của hàm ��2 + 2��2 (a) - có tối thiểu tại (0,0) – (b) cùng với
gradient âm được hiển thị ở trên cùng chế độ xem trên – dưới...............40
Hình 2.22 Giảm gradient (a) và giảm gradient ngẫu nhiên (b) cho hàm ��
2 + 2��
2
..41
Hình 2.23 Độ phức tạp ngày càng tăng của mô hình có xu hướng phù hợp với dữ
liệu nhiễu, do đó không tổng quát tốt cho các hàm thực tế ....................42
Hình 2.24 Mô hình dropout được áp dụng cho một mạng được kết nối đầy đủ.......43
Hình 2.25 Biểu diễn phương pháp chính quy dừng sớm ..........................................44
Hình 2.26 Gradient biến mất trong huấn luyện mạng neural nhiều lớp với bộ dữ liệu
MNIST ....................................................................................................46
Hình 2.27 Áp dụng tích chập 2D cho đầu vào là ảnh 2D đơn kênh .........................47
Hình 2.28 Áp dụng tích chập 2D cho đầu vào đa kênh ............................................47
Hình 2.29 Áp dụng tích chập 3D cho đầu vào thể tích đơn kênh .............................48
Hình 2.30 Mạng sâu hơn có lỗi huấn luyện và lỗi thử nghiệm cao hơn ..................49
Hình 2.31 Một khối block của mạng thặng dư..........................................................49
Hình 2.32 Mạng thuần túy 18 lớp và ResNet-18 ......................................................50
Hình 2.33 Khối cơ bản và thiết kế nút cổ chai được đề xuất....................................51
Hình 2.34 Lỗi huấn luyện trên mạng thuần túy và mạng ResNet (18 và 34 lớp) ....52
Hình 2.35 Phân kì KL và JS......................................................................................54
Hình 2.36 Mạng đối kháng sinh mẫu GAN ..............................................................54
Hình 2.37 Kế hoạch di chuyển các hộp với khoảng cách và khối lượng khác nhau 57
Hình 2.38 Kế hoạch di chuyển cùng với chi phí vận chuyển ...................................57
Hình 2.39 Chi phí vận chuyển khác nhau của hai kế hoạch .....................................58
Hình 2.40 Minh họa cho hai phân phối xác xuất �� và ��..........................................59
Hình 2.41 Mối quan hệ giữa tham số �� và gradient của trình đánh giá ...................62
Hình 2.42 WGAN-GP kiểm tra gradient tại điểm x được lấy mẫu giữa ���� và ���� ..63
ix
Hình 2.43 Hiệu suất của GAN-GP tốt hơn GAN trên các hàm phức tạp .................63
Hình 3.1 Mô hình tái tạo hình dạng 3D thông qua bản phác thảo 2.5D ...................64
Hình 3.2 Sơ đồ quá trình ước tính bản phác thảo 2.5D.............................................65
Hình 3.3 Sơ đồ quá trình ước tính hình dạng 3D......................................................71
Hình 3.4 Sơ đồ quá trình tinh chỉnh độ chính xác của hình dạng 3D dự đoán .........75
Hình 3.5 Quá trình thử nghiệm trên mô hình............................................................93
Hình 4.1 Chạy chương trình huấn luyện trên command line................................. 108
Hình 4.2 Kết quả huấn luyện được lưu lại trong thư mục nhật kí logger.............. 109
Hình 4.3 Kết quả lỗi của quá trình huấn luyện mạng ước tính 2.5D ..................... 109
Hình 4.4 Kết quả lỗi của quá trình huấn luyện mạng ước tính hình dạng 3D ....... 110
Hình 4.5 Kết quả lỗi của quá trình huấn luyện mạng tinh chỉnh hình dạng 3D .... 110
Hình 4.6 Chạy chương trình thử nghiệm trên command line ................................ 111
Hình 4.7 Kết quả chạy chương trình lưu trong thư mục kết quả ........................... 111
Hình 4.8 Kết xuất ra hình ảnh 3D của đối tượng bằng Blender............................. 112
Hình 4.9 Kết quả xử lí tái tạo hoàn chỉnh hình dạng 3D của đối tượng trên một số
hình ảnh máy bay, xe hơi và ghế của mô hình ....................................... 113
Hình 4.10 Kết quả so sánh định tính với phương pháp 3D-EPN........................... 115
Hình 4.11 Tính chỉ số IoU...................................................................................... 116
Hình 4.12 Kết quả tính IoU trên tập dữ liệu kết quả của mô hình......................... 116
Hình 4.13 Một số trường hợp sai sót khi tái tạo hình dạng 3D.............................. 119
Hình 4.14 Hình dạng đầu ra chưa chính xác ở một số đối tượng .......................... 119
x
DANH MỤC BẢNG BIỂU
Bảng 2.1 Kiến trúc tổng thể của các mạng ResNet...................................................51
Bảng 2.2 Tỉ lệ lỗi hàng đầu Top-1 (%, thử nghiệm 10-crop) trên ImageNet ...........53
Bảng 4.1 Độ chính xác trung bình của 3 lần thử nghiệm....................................... 117
Bảng 4.2 So sánh độ chính xác của các phương pháp ........................................... 117
xi
DANH MỤC TỪ VIẾT TẮT
2D two-dimensional
2.5D two-and-a-half-dimensional
3D three-dimensional
ANN Artificial Neural Network
CAD Computer Aided Design
CNN Convolutional Neural Network
Conv Convolution
CPU Central Processing Unit
EPN Encoder Predictor Networks
FC Fully Connected
GAN Generative Adversarial Network
GPU Graphics Processing Unit
GRU Gated Recurrent Unit
IoU Intersection over Union
LSTM Long Short Term Memory Network
MLP Multi-Layer Perceptron
R2N2 Recurrent Reconstruction Neural Network
ReLU Rectified Linear Unit
ResNet Residual Network
RGB Red – Green – Blue
RGB-D Red – Green – Blue – Depth
RNN Recurrent Neural Network
SGD Stochastic Gradient Descent
VAE Variational Autoencoder