<strong id="pid7r"><dfn id="pid7r"><abbr id="pid7r"></abbr></dfn></strong>

把毛選和魯迅全集喂給AI后，寫出來的高考作文太對味了

2021/06/28 作者：量子位

96

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

高考剛過去不久，就有AI來“挑事”了。

這不，有個AI讀完了毛選和魯迅全集后，大筆一揮，寫下好幾篇高考作文。

結(jié)果……竟然還可以？

我們直接看文章：

看看這字里行間的青春與朝氣，根本看不出是AI寫的?。?/p>

還能緊跟時事，“民族偉大復(fù)興”這樣的熱點詞用得游刃有余。

引經(jīng)據(jù)典也不在話下：

一句“實踐是檢驗真理的唯一標(biāo)準(zhǔn)”，立刻讓文章高大上了起來。

一眼望去，通篇全是踩分點。

讓人不禁猜想：難道AI寫作文終于狗屁通了？

吃瓜群眾也非常好奇：這樣的文章到底能拿多少分？

既然如此，不如就讓我們來當(dāng)一次改卷老師，看看這個AI到底能拿多少分。

考場作文套“模板”利器

首先擺在AI面前的是2021年全國甲卷的考題，主題是“可為與有為”，具體題面如下：

AI一上來的表現(xiàn)就不俗，《青年代表說》這主題就令人直呼“高啊”。

在題目中并沒有提到“青年”二字的情況下，AI居然還能找到這樣的切入點，這有點看頭??？

而且它還很雞賊，開頭直接抄了題目中的內(nèi)容，這就叫“點題”。

甚至連我們寫作文必備法寶——排比，它都用得游刃有余。

三大段排比，情緒逐層遞進還能湊字數(shù)。

而且作者@圖靈的貓介紹，這種排比句式是AI直接生成的，并沒有二次調(diào)整。

這可能是因為AI在訓(xùn)練過程中“記住”了這種語法結(jié)構(gòu)，就運用了起來。

再看看結(jié)尾，這也是高考作文的重頭戲。

AI依舊熟知我們的套路，一通拔高、升華，讓改卷老師都不好意思打低分（不是）。

這么看來，AI真的能寫出讓人滿意的考場作文了？

話先別說太早，因為在之后的兩套題里，它的表現(xiàn)就有些不盡如人意了。

首先要吐槽的，就是它每一次寫作文，都會用抄題目的方法來湊出開篇。

其次，它雖然使用了金句技能，馬克思主義理論、李白詩句用得飛起，但是在文章的邏輯處理上，依舊不太行。

比如“是否擁有以后一輩子的生命”，這句話顯然不是中文的邏輯，簡稱不說人話。

而且它寫出來的內(nèi)容，總是在金句和廢話之間徘徊。

就像下面這一段內(nèi)容，每一句話單拿出來看都還可以，但是連成一段后，怎么又有點狗屁不通那味兒了？

此外，不知道是不是因為讀了《魯迅全集》的緣故，AI好像有點搞不懂我們現(xiàn)在的時代背景了。

這一段中的“三十載已過”，也是個令人有些摸不著頭腦的時間概念。

有網(wǎng)友總結(jié)了一下自己的感受：

挑戰(zhàn)一下魯迅的題目

本著看熱鬧不嫌事大的原則，光看現(xiàn)有案例怎么夠，我們當(dāng)然要上手試一下它的水平究竟如何。

既然是讀過《魯迅全集》的AI，那我們就讓它根據(jù)魯迅的名言寫一篇文章。

愿中國青年都擺脫冷氣，只是向上走，不必聽自暴自棄者流的話。能做事的做事，能發(fā)聲的發(fā)聲。

這段話大家一定耳熟能詳，那讓AI以此為題寫一篇作文，畫風(fēng)會是啥樣？

按照它的套路，開篇還是抄題目，所以我們直接來看第二段。

AI直接提出了青年人要自信的主題，看來《魯迅全集》沒有白讀，對于題目的理解還是很到位的。

之后的內(nèi)容則對題面做了更加直白的解釋，告誡青年要努力啊！奮斗??！

看得我直呼別罵了…

接下來也是常規(guī)操作了，梅花香自苦寒來，金句一出、逼格拉滿。

文末還回到了現(xiàn)實生活，呼吁青年要著眼當(dāng)下，才能有更美好的未來。

同時還加入了科技創(chuàng)新、大國崛起的要點。

由此可見，AI寫作文在把控主題上可以說是so easy。

考慮到真實的高考作文題目中，有許多都是設(shè)問再回答，所以我們也試了試給AI一個問句，會發(fā)生什么。

在拿到文學(xué)應(yīng)當(dāng)如何改良？這樣的命題后，AI很自然地說了句套話。

這第一段看上去非常具有哲理性，但究其本質(zhì)，就是車轱轆話罷了。

這樣的問題在其他生成的文章中也十分常見，而且還會冒出來錯別字、語病等小毛病。

與此同時，我們還發(fā)現(xiàn)它似乎不太能承受住奇葩一點的題目…

在把一道網(wǎng)傳的奇葩作文題目交給AI后，它直接寫出來了一篇意識流。

這還只是第一段，后面的內(nèi)容還出現(xiàn)了紅色氣球、子彈、龍牙、警察等等讓人完全摸不著頭腦的內(nèi)容。

不止是奇葩題目，在涉及“古人”的題目時，AI還會冒出一兩句奇形怪狀的文言文來：

果然，還是現(xiàn)代主題的高考作文更適合AI發(fā)揮。

網(wǎng)友神總結(jié)：這就是個狗屁稍通文章生成器。

5大模塊，讀題作答“一條龍”

上面這些偶爾“超常發(fā)揮”、平均掙扎在及格線上下的文章，源自一個名為EssayKiller的AI寫作框架，本質(zhì)上是個多模塊異構(gòu)深度神經(jīng)網(wǎng)絡(luò)。

據(jù)模型作者@圖靈的貓表示，這個AI生成文章有點“捉襟見肘”的原因，也是因為采用的模型不是最先進的。

由于經(jīng)費不足更好的模型沒有開源，因此只能用GPT-2來生成文字，如果能用上GPT-3和華為盤古，效果肯定比現(xiàn)在更好。

據(jù)了解，EssayKiller基于OpenCV開發(fā)，參數(shù)量達到17億。

從結(jié)構(gòu)上看，這個AI框架主要包括5部分：輸入、識別網(wǎng)絡(luò)、語言網(wǎng)絡(luò)、判分網(wǎng)絡(luò)和輸出。

相當(dāng)于我們平時的“5步寫作文”：拿到試卷、看題、打草稿、錯誤檢查、寫答題卡。

其中，看題、打草稿和錯誤檢查幾個模塊，都會被拿出來單獨訓(xùn)練，各司其職。

在看題部分，EssayKiller首先采用了OpenCV的EAST文本檢測器，能以13幀/秒的速度，掃描任意方向、大小的720p圖片文本，并將其中的文字檢測出來。

然后用OCR模型中的CRNN，對這些文字進行識別。

例如，將上面這張圖片中的文字，轉(zhuǎn)換成能直接輸入模型的文本信息：“三寫作70分……”

至于打草稿部分，則分為閱讀理解、文本聯(lián)想兩部分，分別由BERT和GPT-2來完成。

BERT會將接收到的句子信息進行拆分、打碎，提取其中的關(guān)鍵詞來，并將這些“必須出現(xiàn)在內(nèi)文”的關(guān)鍵詞交給GPT-2；GPT-2在收到關(guān)鍵信息后，就能根據(jù)要求開始“大做文章”，每句話都與關(guān)鍵詞密切相關(guān)，無時無刻不在“點題”。

但GPT-2生成的文章，還不符合高考作文的標(biāo)準(zhǔn)。

要想讓這些句子看起來流暢成段，還得篩去一批真·狗屁不通的病句，并檢查句子中的拼寫錯誤、機翻等問題。

這就是錯誤檢查部分，EssayKiller直接調(diào)用了百度模型DNN的API，主要原理是對句子中的詞語進行分析，并判斷它們是否處在正確的位置上。

在這3大關(guān)鍵步驟完成后，就可以正式排版成答題紙的格式，并用手寫機器人輸出了（相關(guān)模型也是開源的）。

看起來不錯，已經(jīng)有網(wǎng)友迫不及待想拿來寫小作文了：

打??！

據(jù)@圖靈的貓表示，不希望有人用EssayKiller來寫作業(yè)，因此并沒有開源相關(guān)參數(shù)設(shè)置，colab的調(diào)用次數(shù)也有嚴(yán)格限制。

要是出現(xiàn)違規(guī)行為，可能整個開源項目都會被關(guān)閉，同時也沒法用Colab在線體驗了。

到底“消化”得怎么樣？

@圖靈的貓介紹說，要想讓AI模型寫出這種效果的作文，在“語言生成模塊”的訓(xùn)練集中，毛選和魯迅全集等著作占比要超過10%。

而模型的其他訓(xùn)練資料，則主要來源于開源中文散文數(shù)據(jù)集、高考作文數(shù)據(jù)集等。

那么，訓(xùn)練出的模型效果，是否符合預(yù)期呢？

不少網(wǎng)友表示，感覺AI還是“讀進去了一部分”的：

而對于作者@圖靈的貓來說，生成作文的質(zhì)量也確實“比自己預(yù)期要好一些”。

但這并不表明，AI就已經(jīng)能100%寫出像樣的高考作文了。

畢竟，最終呈現(xiàn)出來的幾篇高考作文，都是在語言生成模型后，經(jīng)過機器判分+人工篩選，才展示在讀者面前的。

而在作文中所呈現(xiàn)出的排比等高級修辭手法，也只能說明訓(xùn)練語料中包含這類修辭，而AI模型在學(xué)習(xí)的過程中“記憶”了它們，并不能說明已經(jīng)學(xué)到了這些手法。

換而言之，這次的AI模型，效果確實超乎預(yù)期，但并不意味著它真正“消化”了這些語料。

那么，這個AI模型接下來還會試些什么？

@圖靈的貓表示，下一步的目標(biāo)是“科幻小說”：

要是有空的話，我會將大劉、阿西莫夫和阿瑟克拉克等科幻作家的作品加入訓(xùn)練集，讓AI模型試試寫科幻小說。

嗯，AI寫作開始有點賽博朋克那味了。

欣賞了毛選和魯迅文集的開源AI模型：
https://github.com/EssayKillerBrain/EssayKiller_V2

Colab版在線生成器：
https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb

參考視頻（已授權(quán)）：
https://www.bilibili.com/video/BV1aw411f7G9

— 完 —

明敏蕭簫發(fā)自凹非寺

量子位報道 | 公眾號 QbitAI

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點僅代表作者本人，不代表與非網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有侵權(quán)或者其他問題，請聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）

相關(guān)推薦

【代碼庫】eIQ GenAI 流量演示器
方案恩智浦
486
06/11 09:22
基于高通QCS6490之AI智慧電子圍籬展示方案
方案大大通
1474
05/30 17:32
基于大語言模型的車載智能信息娛樂系統(tǒng)
方案 DigiKey得捷
407
05/28 10:10
基于樹莓派的車輛自動盲區(qū)實時預(yù)覽系統(tǒng)
方案 DigiKey得捷
923
05/19 15:30
OpenCV行人檢測--米爾基于全志T527核心板開發(fā)板
方案米爾電子
942
04/18 14:11
OpenCV行人檢測--基于米爾全志T527開發(fā)板
方案米爾電子
1753
04/11 13:30
輕松部署-MemryX AI 加速卡結(jié)合 Rockchip RK3588 多路物體檢測解決方案
方案大大通
1706
04/08 11:48

登錄即可解鎖

海量技術(shù)文章
設(shè)計資源下載
產(chǎn)業(yè)鏈客戶資源
寫文章/發(fā)需求

創(chuàng)作中心去發(fā)布

追蹤人工智能新趨勢，報道科技行業(yè)新突破

TA的熱門作品

<strong id="762dr"></strong>