Dịch vày Trần Tuấn Anh, Đàm Minc Tiến, Hung Nguyễn và Nguyễn Trí Minh

Tổng quan

Kiến trúc của một mạng RNN truyền thống lịch sử Các mạng neural hồi quy, còn được biến chuyển đến như là RNNs, là 1 lớp của mạng neural có thể chấp nhận được áp ra output được sử dụng nhỏng đầu vào trong khi bao gồm các trạng thái ẩn. Thông thường là như sau:



<oxeda^=g_1(W_aaa^+W_axx^+b_a)quad extrmvàquadoxedy^=g_2(W_yaa^+b_y)>
cùng với $W_ax, W_aa, W_ya, b_a, b_y$ là những hệ số được share trong thời điểm tạm thời với $g_1, g_2$ là các hàm kích hoạt.

Ưu điểm Hạn chế
• Khả năng xử lý đầu vào với bất kể độ nhiều năm nào • Kích cỡ quy mô ko tăng theo form size đầu vào • Quá trình tính toán thù áp dụng các đọc tin cũ • Trọng số được share trong veo thời gian • Tính tân oán chậm trễ • Khó để truy cập những ban bố từ một khoảng tầm thời hạn lâu năm trước đó • Không thể để ý bất kì nguồn vào sau đây làm sao mang lại tâm lý hiện nay tại

Ứng dụng của RNNs Các mô hình RNN hầu như được sử dụng vào nghành nghề dịch vụ xử lí ngôn từ tự nhiên với ghi dìm ngôn ngữ. Các ứng dụng không giống được tổng kết trong bảng dưới đây:


Các các loại RNN Hình minch hoạ Ví dụ
Một-Một$T_x=T_y=1$ Mạng neural truyền thống
Một-nhiều$T_x=1, T_y>1$ Sinc nhạc
Nhiều-một$T_x>1, T_y=1$ Phân các loại ý kiến
Nhiều-nhiều$T_x=T_y$ Ghi nhận thực thể tên
Nhiều-nhiều$T_x eq T_y$ Dịch máy

Hàm mất non Trong trường hợp của mạng neural hồi quy, hàm mất non $mathcalL$ của toàn bộ các bước thời gian được có mang dựa vào mất mát nghỉ ngơi số đông thời điểm như sau:


Lan truyền ngược theo thời gian Lan truyền ngược được hoàn thành sinh sống mỗi 1 thời điểm ví dụ. Ở bước $T$, đạo hàm của hàm mất non $mathcalL$ cùng với ma trận trọng số $W$ được màn trình diễn nlỗi sau:


<oxedfracpartial mathcalL^(T)partial W=sum_t=1^Tleft.fracpartialmathcalL^(T)partial W ight>

Xử lí nhờ vào nhiều năm hạn

Các hàm kích hoạt thường dùng Các hàm kích hoạt thường dùng trong số modules RNN được miêu tả nlỗi sau:


Sigmoid Tanh RELU
$displaystyle g(z)=frac11+e^-z$ $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ $displaystyle g(z)=max(0,z)$
Sigmoid Tanh RELU

Vanishing/exploding gradient Hiện tượng vanishing cùng exploding gradient thường xuyên gặp trong ngữ cảnh của RNNs. Lí chính do sao bọn chúng thường xẩy ra kia là khó để sở hữu được sự nhờ vào dài hạn bởi multiplicative gradient có thể tăng/bớt theo hàm nón khớp ứng cùng với số lượng các tầng.

Bạn đang xem: Rnn là gì

Gradient clipping Là một kỹ năng được áp dụng nhằm giải quyết vụ việc exploding gradient xẩy ra khi triển khai lan truyền ngược. Bằng bài toán số lượng giới hạn quý hiếm lớn số 1 mang đến gradient, hiện tượng lạ này sẽ được kiểm soát điều hành vào thực tế.



Các loại cổng Để xử lý vấn đề vanishing gradient, các cổng ví dụ được sử dụng trong một vài loại RNNs cùng thường có mục tiêu cụ thể. Chúng hay được kí hiệu là $Gamma$ cùng bằng với:


Với $W, U, b$ là các hệ số của một cổng cùng $sigma$ là hàm sigmoid. Các loại bao gồm được tổng kết sống bảng dưới đây:


Loại cổng Vai trò Được thực hiện trong
Cổng update $Gamma_u$ Dữ liệu cũ buộc phải tất cả khoảng đặc trưng thế nào sống hiện tại tại? GRU, LSTM
Cổng relevance $Gamma_r$ Bỏ qua lên tiếng phía trước? GRU, LSTM
Cổng quên $Gamma_f$ Xoá ô hay không xoá? LSTM
Cổng ra $Gamma_o$ Biểu thị một ô ở tầm mức độ bao nhiêu? LSTM

GRU/LSTM Gated Recurrent Unit (GRU) cùng Các đơn vị chức năng bộ lưu trữ dài-ngắn hạn (LSTM) đối phó cùng với vụ việc vanishing gradient Khi chạm mặt yêu cầu bởi mạng RNNs truyền thống cuội nguồn, với LSTM là sự việc tổng thể của GRU. Phía bên dưới là bảng tổng kết các phương trình đặc trưng của từng kiến trúc:


Đặc tính Gated Recurrent Unit (GRU) Bộ nhớ dài-ngắn hạn (LSTM)
$ ildec^$ $ extrmtanh(W_c+b_c)$ $ extrmtanh(W_c+b_c)$
$c^$ $Gamma_ustar ildec^+(1-Gamma_u)star c^$ $Gamma_ustar ildec^+Gamma_fstar c^$
$a^$ $c^$ $Gamma_ostar c^$
Các phú thuộc

Chụ ý: kí hiệu ⋆ chỉ phép nhân từng thành phần với nhau thân hai vectors.

Các trở nên thể của RNNs Bảng dưới đây tổng kết các phong cách thiết kế thường được sử dụng không giống của RNN:


Học từ đại diện

Trong phần này, họ kí hiệu $V$ là tập tự vựng và $|V|$ là form size của nó.

Giải thích hợp và các kí hiệu

Các kĩ thuật màn biểu diễn Có hai cách chủ yếu để màn biểu diễn từ được tổng kết sinh sống bảng mặt dưới:


Biểu diễn 1-hot Word embedding
• Lưu ý $o_w$ • Tiếp cận Naive sầu, không có công bố chung • Lưu ý $e_w$ • Xem xét độ tương đồng của những từ

Embedding matrix Cho một tự $w$, embedding matrix $E$ là 1 ma trận tsi mê chiếu bộc lộ 1-hot $o_w$ của chính nó cùng với embedding $e_w$ của chính nó nlỗi sau:


Crúc ý: học tập embedding matrix rất có thể ngừng bằng phương pháp sử dụng những mô hình target/context likelihood.

Word embeddings

Word2vec Word2vec là một trong những framework tập trung vào vấn đề học tập word embeddings bằng cách ước lượng tài năng nhưng mà một từ bỏ cho trước được phủ bọc bởi vì những từ bỏ khác. Các quy mô thông dụng bao gồm skip-gram, negative sampling và CBOW.



Skip-gram Mô hình skip-gram word2vec là một trong những task học tập gồm đo lường, nó học các word embeddings bằng cách Đánh Giá tài năng của bất kỳ target word $t$ mang đến trước như thế nào xảy ra với context word $c$. Bằng Việc kí hiệu $ heta_t$ là tmê say số đi kèm theo cùng với $t$, Xác Suất $P(t|c)$ được tính như sau:


Chú ý: Cộng tổng toàn bộ các từ bỏ vựng vào mẫu mã số của phần softmax khiến mô hình này tốn nhiều ngân sách tính toán thù. CBOW là một trong những quy mô word2vec không giống thực hiện các tự bao quanh để tham gia đân oán một tự đến trước.

Negative sầu sampling Nó là 1 trong những tập của những cỗ phân một số loại nhị phân sử dụng logistic regressions với mục tiêu là Reviews kỹ năng mà một ngữ chình họa cho trước cùng những target words cho trước rất có thể mở ra bên cạnh đó, với những quy mô đang rất được đào tạo bên trên các tập của $k$ negative examples với 1 positive sầu example. Cho trước context word $c$ cùng target word $t$, dự đoán thù được miêu tả bởi:


Chú ý: cách thức này tốn ít ngân sách tính toán thù rộng mô hình skip-gram.

GloVe Mô hình GloVe, viết tắt của global vectors for word representation, nó là một trong kỹ năng word embedding áp dụng ma trận đồng xuất hiện $X$ cùng với từng $X_i,j$ là số lần mà trường đoản cú đích (target) $i$ xuất hiện trên ngữ chình ảnh $j$. Cost function $J$ của nó như sau:


$f$ là hàm trong số với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng cơ mà $e$ với $ heta$ đạt được trong mô hình này, word embedding cuối cùng $e_w^( extrmfinal)$ được định nghĩa nlỗi sau:


Chụ ý: Các phần tử riêng biệt của những word embedding học được không độc nhất vô nhị thiết là cần thông dịch được.

Xem thêm: “Siêu Vòng Một” Thuỷ Top Tuổi 30: Giờ Đã Là Ceo, Thần Thái Sang Chảnh Có Thừa

So sánh các từ

Độ tương đương cosine Độ tương đồng cosine giữa những từ bỏ $w_1$ cùng $w_2$ được trình bày nlỗi sau:


$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là một trong kĩ thuật nhằm mục đích giảm sút số chiều của không khí embedding. Trong thực tiễn, nó hay được áp dụng để trực quan liêu hoá các word vectors trong không gian 2D (2D).


Mô hình ngôn ngữ

Tổng quan liêu Một quy mô ngôn từ đã dự đoán Tỷ Lệ của một câu $P(y)$.

Mô hình $n$-gram Mô hình này là giải pháp tiếp cận naive cùng với mục đích định lượng tỷ lệ mà một biểu lộ xuất hiện thêm trong văn bạn dạng bằng phương pháp đếm số lần lộ diện của chính nó trong tập dữ liệu đào tạo và huấn luyện.

Độ lếu tạp Các mô hình ngữ điệu hay được Review dựa vào độ đo hỗ tạp, cũng rất được nghe biết là PP., hoàn toàn có thể được phát âm như thể nghịch đảo phần trăm của tập tài liệu được chuẩn chỉnh hoá bởi số lượng các từ bỏ $T$. Độ lếu láo tạp càng thấp thì sẽ càng giỏi với được có mang như sau:


<oxed extrmPP=prod_t=1^Tleft(frac1sum_j=1^y_j^(t)cdot widehaty_j^(t) ight)^frac1T>

Chụ ý: PPhường. hay được thực hiện vào $t$-SNE.

Dịch máy

Tổng quan liêu Một mô hình dịch đồ vật tựa như cùng với mô hình ngôn ngữ bên cạnh nó bao gồm một mạng encoder được đặt phía đằng trước. Vì lí vì chưng này, đôi lúc nó còn được nghe biết là mô hình ngôn ngữ gồm điều kiện. Mục tiêu là search một câu vnạp năng lượng $y$ nlỗi sau:


Tìm tìm Beam Nó là một giải mã kiếm tìm tìm heuristic được áp dụng trong dịch sản phẩm với ghi dìm tiếng nói nhằm tìm kiếm câu vnạp năng lượng $y$ đúng tuyệt nhất tương xứng với đầu vào $x$.

• Cách 1: Tìm top B các từ bỏ y • Bước 2: Tính phần trăm tất cả ĐK y|x,y,...,y • Bước 3: Giữ top B những tổng hợp x,y,...,y


Crúc ý: trường hợp độ rộng của beam được thiết lập là một trong những, thì nó tương tự cùng với search tìm tyêu thích lam naive sầu.

Độ rộng Beam Độ rộng lớn beam $B$ là một trong tsay mê số của giải mã kiếm tìm tìm beam. Các quý hiếm lớn của $B$ tạo ra hiệu quả giỏi hơn tuy vậy với hiệu năng phải chăng rộng cùng lượng bộ nhớ thực hiện đã tăng.

Chuẩn hoá độ nhiều năm Đến nâng cao tính ổn định, beam search thường được áp dụng kim chỉ nam chuẩn chỉnh hoá sau, thường được điện thoại tư vấn là mục tiêu chuẩn hoá log-likelihood, được tư tưởng như sau:


<oxedx,y^, ..., y^)Big>>

Chụ ý: tđắm say số $alpha$ có thể được xem như là softener, cùng quý hiếm của chính nó hay bên trong đoạn 0.5 và 1.

Xem thêm: Myanmar: Bà Aung San Suu Kyi Là Ai, Chính Biến Tại

Phân tích lỗi lúc giành được một bạn dạng dịch tồi $widehaty$, chúng ta cũng có thể từ hỏi rằng vì sao bọn họ không tồn tại được một kết quả dịch tốt $y^*$ bằng vấn đề tiến hành bài toán đối chiếu lỗi như sau:


Trường hợp $P(y^*|x)>P(widehaty|x)$ $P(y^*|x)leqslant P(widehaty|x)$
Nguyên ổn nhân sâu xa Lỗi Beam search lỗi RNN
Biện pháp xung khắc phục Tăng beam width • Thử phong cách xây dựng khác • Chính quy • Lấy những dữ liệu hơn

Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng mức độ tốt của dịch thiết bị bằng cách tính một độ tương đương dựa trên dự đoán $n$-gram. Nó được quan niệm nlỗi sau:



Chụ ý: một mức phạt nlắp rất có thể được áp dụng với các dự đoán dịch ngắn thêm nhằm rời việc làm thổi phồng giá trị bleu score.

Chú ý

Attention Mã Sản Phẩm Mô hình này cho phép một RNN triệu tập vào những phần cụ thể của đầu vào được coi như xét là quan trọng đặc biệt, nó góp nâng cao tính năng của mô hình công dụng vào thực tế. Bằng vấn đề kí hiệu $alpha^$ là mức độ chú ý cơ mà cổng đầu ra $y^$ buộc phải có so với hàm kích hoạt $a^$ và $c^$ là ngữ chình ảnh ở thời điểm $t$, chúng ta có:


Attention weight Sự chăm chú nhưng áp ra output $y^$ đề nghị gồm cùng với hàm kích hoạt $a^$ cùng với $lpha^$ được tính nhỏng sau:


Chuyên mục: ĐỊNH NGHĨA
Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *