国产精品国产自线在线观看,337p欧美日本超大胆艺术,亚洲一区高清,国产韩国在线,97成人亚洲欧美在线X视频,全部毛片免费看,欧美精品色视频在线视频


首頁(yè)
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁(yè) > 新聞資訊 > 機(jī)器人知識(shí) > 深度解析大規(guī)模參數(shù)語(yǔ)言模型Megatron-BERT  
 

深度解析大規(guī)模參數(shù)語(yǔ)言模型Megatron-BERT

來(lái)源:智東西      編輯:創(chuàng)澤      時(shí)間:2020/6/18      主題:其他   [加盟]
大家好,我是NVIDIA解決方案架構(gòu)師王閃閃。今天主要和大家分享兩個(gè)部分的內(nèi)容:

1.  BERT模型深度解析

2.  大規(guī)模參數(shù)的語(yǔ)言模型Megatron-BERT

我們今天主要是溫故知新我先帶大家復(fù)習(xí)一下BERT模型的整體架構(gòu),內(nèi)容不會(huì)特別偏數(shù)學(xué),主要把BERT一些要點(diǎn)給大家說(shuō)清楚,包括BERT的輸入/輸出以及具體它是怎么工作的,然后介紹NVIDIA基于BERT開發(fā)出的一系列好的模型。

先介紹一下自然語(yǔ)言處理常見的應(yīng)用方向,類是序列標(biāo)注,比如命名實(shí)體的識(shí)別、語(yǔ)義標(biāo)注、詞性標(biāo)注,循環(huán)智能也是用了序列標(biāo)注。第二類是分類任務(wù),如文本分類和情感分析,這個(gè)方向目前在量化金融領(lǐng)域,尤其是對(duì)沖基金上應(yīng)用性很強(qiáng),尤其是情感分析。我記得3、4年前,有一條新聞?wù)f斯坦福大學(xué)的一個(gè)碩士生,暑期在他的宿舍里用幾塊GPU卡,自己搭建了一個(gè)小的超級(jí)計(jì)算機(jī),他把Twitter上的信息全部錄下來(lái),每天更新。他使用了BERT進(jìn)行情感分析,把每天每個(gè)人的信息分成三類:positive積極、neutral中性、negative消極。他把三類情感的量化信息和當(dāng)天納斯達(dá)克股票的升跌情況匯總,進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)如果Twitter上的信息大部分都是積極的,那么股票就有很大的概率會(huì)上漲。我們現(xiàn)在把這類數(shù)據(jù)叫做情感分析因子,它在股票分析上是一個(gè)特別重要的推進(jìn)方向,能讓模型越發(fā)準(zhǔn)確。第三類NLP應(yīng)用方向就是對(duì)句子關(guān)系的判斷,如自然語(yǔ)言的推理、問答系統(tǒng),還有文本語(yǔ)義相似性的判斷。后一類,是生成式任務(wù),如機(jī)器翻譯、文本摘要,還有創(chuàng)造型的任務(wù)比如機(jī)器寫詩(shī)、造句等。

BERT模型深度解析

現(xiàn)在我們進(jìn)入正題:對(duì)BERT的講解。要了解BERT,先我們要說(shuō)一下Transformer,因?yàn)锽ERT主要就是基于Transformer和注意力機(jī)制,這兩點(diǎn)也是BERT能從GPT、RNN、LSTM等一系列架構(gòu)中能脫穎而出的很大原因。Attention,專業(yè)的叫法是Attention Mechanism,Attention是一個(gè)Encoder+Decoder的模型機(jī)制。Encoder-Decoder模型是在深度學(xué)習(xí)中比較常見的模型結(jié)構(gòu):在計(jì)算機(jī)視覺中這個(gè)模型的應(yīng)用是CNN+RNN的編輯碼框架;在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的應(yīng)用是sequence to sequence模型,也就是seq2seq。而編碼(Encoder)就是將序列編碼成一個(gè)固定長(zhǎng)度的向量,解碼(Decoder)就是將之前生成的向量再還原成序列。

那么問題來(lái)了,為什么要在Encoder-Decoder模型機(jī)制中引入Attention呢?因?yàn)?Encoder-Decoder模型有兩個(gè)比較顯著的弊端:

一是Encoder會(huì)把序列信息壓縮成一個(gè)固定長(zhǎng)度的向量,那么在Encoder的輸出中,我們暫且把它叫做語(yǔ)義編碼c,c就有可能無(wú)法完全地表示出全部序列的信息,尤其是當(dāng)信息特別長(zhǎng)時(shí)。

二是先輸入到網(wǎng)絡(luò)中的信息會(huì)被后輸入的信息覆蓋掉,輸入的信息越長(zhǎng),對(duì)先前輸入信息的遺忘程度就越大。因?yàn)檫@兩個(gè)弊端,Decoder在解碼的一開始就沒有獲得一個(gè)相對(duì)完整的信息,也就是語(yǔ)義編碼c沒有一個(gè)相對(duì)完整的信息輸入,那么它解碼的效果自然就不好。有的同學(xué)可能會(huì)說(shuō)想要解決RNN記憶力差的問題,可以考慮用LSTM。我們的確可以考慮LSTM,但LSTM對(duì)超長(zhǎng)距離的信息記憶,效果也不是很好。

我們?cè)賮?lái)看看Attention為什么能夠解決這個(gè)問題。Attention,顧名思義是注意力。它是模仿人類的注意力,人類在處理一個(gè)問題時(shí)會(huì)把注意力放到那個(gè)特別重要的地方,比如我們?cè)诙虝r(shí)間內(nèi)去看一張照片,眼落到照片上的位置可能是某個(gè)建筑物或者是某個(gè)人,這取決于我們不同的目的和興趣等。我們不會(huì)在短時(shí)間之內(nèi)記清楚甚至是看清楚照片上的全部細(xì)節(jié),但是我們會(huì)將注意力聚焦在某個(gè)特定的細(xì)節(jié)上并記住它。Attention模型終輸出結(jié)果也是能夠達(dá)到這么一個(gè)效果。 

Attention的機(jī)制早也是應(yīng)用在計(jì)算機(jī)視覺上面,然后是在自然語(yǔ)言處理上面發(fā)揚(yáng)光大。由于2018年在GPT模型上的效果非常顯著,所以Attention和 Transformer才會(huì)成為大家比較關(guān)注的焦點(diǎn)。之所以Attention的能力在NLP領(lǐng)域得到了徹底釋放,是因?yàn)樗鉀Q了RNN不能并行計(jì)算的弊端,Attention使其每一步的計(jì)算不依賴于上一步的計(jì)算,達(dá)到和CNN一樣的并行處理效果。并且由于Attention只關(guān)注部分的信息,所以它的參數(shù)較少,速度就會(huì)快。其次RNN記憶能力較差,所以大家一開始想到的解決方式都是用LSTM和GRU(Gated Recurrent Unit)來(lái)解決長(zhǎng)距離信息記憶的問題,但是都沒有起到很好的效果。Attention由于只關(guān)注長(zhǎng)文本中的一個(gè)小部分,可以準(zhǔn)確地識(shí)別出關(guān)鍵信息,所以取得了特別不錯(cuò)的效果。

下面我們來(lái)說(shuō)一下Attention是怎么實(shí)現(xiàn)的聚焦。主要是因?yàn)樗遣捎昧穗p向的RNN,能夠同時(shí)處理每個(gè)單詞前后的信息。在Decoder中,它先計(jì)算每一個(gè)Encoder在編碼隱藏層的狀態(tài),然后會(huì)和Decoder隱藏層狀態(tài)比較,做出相關(guān)程度的評(píng)定。得到的權(quán)值會(huì)通過softmax歸一化得到使用的權(quán)重,也就是我們前面所說(shuō)的編碼向量c。然后對(duì)Encoder中對(duì)應(yīng)的不同狀態(tài)的權(quán)重進(jìn)行加權(quán)求和,有了編碼c之后,我們就可以先計(jì)算Decoder隱藏層的狀態(tài),然后再計(jì)算Decoder的輸出。這就是一個(gè)比較完整的在BERT當(dāng)中運(yùn)用Attention以及Encoder-Decoder模型的使用案例。Attention根據(jù)計(jì)算區(qū)域、權(quán)值的計(jì)算方式等會(huì)有很多不同變種。

不止是在NLP領(lǐng)域,在其他很多領(lǐng)域中,Transformer的模型由于很好用都是大家選的,主要的一個(gè)運(yùn)用機(jī)制就是Attention。我們之后會(huì)說(shuō)到的Transformer模型會(huì)用到 Multi-head Attention和Self-Attention。先說(shuō)一下Self-Attention,Self-Attention是將原文中每個(gè)詞和該句子中所有單詞之間進(jìn)行注意力的計(jì)算,主要是為了尋找原文內(nèi)部的關(guān)系。對(duì)應(yīng)到閱讀理解任務(wù),這個(gè)模型就可以判定一篇文章中的兩段話是不是同一個(gè)意思。Multi-head Attention,則是對(duì)一段原文使用多次的注意力,每次會(huì)關(guān)注到原文的不同部分,相當(dāng)于多次地在單層中使用Attention,然后把結(jié)果給拼接起來(lái)。 







億級(jí)視頻內(nèi)容如何實(shí)時(shí)更新

基于內(nèi)容圖譜結(jié)構(gòu)化特征與索引更新平臺(tái),在結(jié)構(gòu)化方面打破傳統(tǒng)的數(shù)倉(cāng)建模方式,以知識(shí)化、業(yè)務(wù)化、服務(wù)化為視角進(jìn)行數(shù)據(jù)平臺(tái)化建設(shè),來(lái)沉淀內(nèi)容、行為、關(guān)系圖譜,目前在優(yōu)酷搜索、票票、大麥等場(chǎng)景開始進(jìn)行應(yīng)用

基于真實(shí)環(huán)境數(shù)據(jù)集的機(jī)器人操作仿真基準(zhǔn)測(cè)試

通過使用仿真和量化指標(biāo),使基準(zhǔn)測(cè)試能夠通用于許多操作領(lǐng)域,但又足夠具體,能夠提供系統(tǒng)的有關(guān)信息

看高清視頻,如何做到不卡頓

優(yōu)酷智能檔突破“傳統(tǒng)自適應(yīng)碼率算法”的局限,解決視頻觀看體驗(yàn)中高清和流暢的矛盾

京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸

姚霆指出,當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí),整個(gè)訓(xùn)練和測(cè)試的過程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開放動(dòng)態(tài)的應(yīng)用場(chǎng)景存在一定的差異性

利用時(shí)序信息提升遮擋行人檢測(cè)準(zhǔn)確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時(shí)序信息來(lái)輔助當(dāng)前幀的遮擋行人檢測(cè),目前該方法已在 Caltech 和 NightOwls 兩個(gè)數(shù)據(jù)集取得了業(yè)界領(lǐng)先的準(zhǔn)確率

基于網(wǎng)格圖特征的琵琶指法自動(dòng)識(shí)別

根據(jù)各種指法的具體特點(diǎn),對(duì)時(shí)頻網(wǎng)格圖、時(shí)域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個(gè)不同的計(jì)算區(qū)域,并以每個(gè)計(jì)算區(qū)域的均值與標(biāo)準(zhǔn)差作為指法自動(dòng)識(shí)別的特征使用,用于基于機(jī)器學(xué)習(xí)方法的指法自動(dòng)識(shí)別

知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的研究進(jìn)展及應(yīng)用

新加坡國(guó)立大學(xué)NExT中心的王翔博士分析了知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的應(yīng)用背景,并詳細(xì)介紹了課題組在個(gè)性化推薦中的相關(guān)研究技術(shù)和進(jìn)展,包括基于路徑、基于表征學(xué)習(xí)、基于圖神經(jīng)網(wǎng)絡(luò)等知識(shí)圖譜在推薦系統(tǒng)中的融合技術(shù)

重構(gòu)ncnn,騰訊優(yōu)圖開源新一代移動(dòng)端推理框架TNN

新一代移動(dòng)端深度學(xué)習(xí)推理框架TNN,通過底層技術(shù)優(yōu)化實(shí)現(xiàn)在多個(gè)不同平臺(tái)的輕量部署落地,性能優(yōu)異、簡(jiǎn)單易用。騰訊方面稱,基于TNN,開發(fā)者能夠輕松將深度學(xué)習(xí)算法移植到手機(jī)端高效的執(zhí)行,開發(fā)出人工智能 App,真正將 AI 帶到指尖

達(dá)摩院金榕教授113頁(yè)P(yáng)PT詳解達(dá)摩院在NLP、語(yǔ)音和CV上的進(jìn)展與應(yīng)用實(shí)踐

達(dá)摩院金榕教授介紹了語(yǔ)音、自然語(yǔ)言處理、計(jì)算機(jī)視覺三大核心AI技術(shù)的關(guān)鍵進(jìn)展,并就AI技術(shù)在在實(shí)際應(yīng)用中的關(guān)鍵挑戰(zhàn),以及達(dá)摩院應(yīng)對(duì)挑戰(zhàn)的創(chuàng)新實(shí)踐進(jìn)行了解讀

OpenAI發(fā)布了有史以來(lái)最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來(lái)最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3,最大的GPT-3模型參數(shù)達(dá)到了1750億個(gè)參數(shù)

多尺度圖卷積神經(jīng)網(wǎng)絡(luò):有效統(tǒng)一三維形狀離散化特征表示

解決了傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)中圖節(jié)點(diǎn)學(xué)習(xí)到的特征對(duì)圖分辨率和連接關(guān)系敏感的問題,可以實(shí)現(xiàn)在低分辨率的三維形狀上學(xué)習(xí)特征,在高低分辨率形狀之上進(jìn)行測(cè)試,并且保持不同分辨率特征的一致性

履約時(shí)間預(yù)估:如何讓外賣更快送達(dá)

外賣履約時(shí)間預(yù)估模型,預(yù)估的是從用戶下單開始到騎手將餐品送達(dá)用戶手中所花的時(shí)間
 
資料獲取
新聞資訊
== 資訊 ==
» 關(guān)于印發(fā)廣東省推動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)創(chuàng)
» 人工智能機(jī)器人的崛起,2035年將有13
» DeepSeek使用教程藍(lán)皮書-從入門到
» 教大家如何使用Deepseek AI進(jìn)行
» DeepSeek隱藏玩法,不要用結(jié)構(gòu)化提
» DeepSeek神級(jí)提示詞,讓你輕松駕馭
» DeepSeek 30個(gè)喂飯指令-知識(shí)付
» DeepSeek 提問攻略、使用實(shí)例和心
» DeepSeek實(shí)用萬(wàn)能提問模板,(背景
» DeepSeek V3搭建個(gè)人知識(shí)庫(kù)教程
» Deepseek 不好用,是你真的不會(huì)用
» 2025年Manus智能體開啟AI新范式
» 如何用 deepseek 做數(shù)據(jù)分析,有
» 如何用 deepseek 整理會(huì)議紀(jì)要,
» 如何用 deepseek 制定減肥計(jì)劃,
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤(rùn)機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國(guó)運(yùn)營(yíng)中心:北京·清華科技園九號(hào)樓5層     中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728