加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 考場作文套“模板”利器
    •  
    • 挑戰(zhàn)一下魯迅的題目
    •  
    • 5大模塊,讀題作答“一條龍”
    • 到底“消化”得怎么樣?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

把毛選和魯迅全集喂給AI后,寫出來的高考作文太對(duì)味了

2021/06/28
142
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

高考剛過去不久,就有AI來“挑事”了。

這不,有個(gè)AI讀完了毛選和魯迅全集后,大筆一揮,寫下好幾篇高考作文。

結(jié)果……竟然還可以?

我們直接看文章:

看看這字里行間的青春與朝氣,根本看不出是AI寫的?。?/p>

還能緊跟時(shí)事,“民族偉大復(fù)興”這樣的熱點(diǎn)詞用得游刃有余。

引經(jīng)據(jù)典也不在話下:

一句“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,立刻讓文章高大上了起來。

一眼望去,通篇全是踩分點(diǎn)。

讓人不禁猜想:難道AI寫作文終于狗屁通了?

吃瓜群眾也非常好奇:這樣的文章到底能拿多少分?

既然如此,不如就讓我們來當(dāng)一次改卷老師,看看這個(gè)AI到底能拿多少分。

考場作文套“模板”利器

首先擺在AI面前的是2021年全國甲卷的考題,主題是“可為與有為”,具體題面如下:

AI一上來的表現(xiàn)就不俗,《青年代表說》這主題就令人直呼“高啊”。

在題目中并沒有提到“青年”二字的情況下,AI居然還能找到這樣的切入點(diǎn),這有點(diǎn)看頭???

而且它還很雞賊,開頭直接抄了題目中的內(nèi)容,這就叫“點(diǎn)題”。

甚至連我們寫作文必備法寶——排比,它都用得游刃有余。

三大段排比,情緒逐層遞進(jìn)還能湊字?jǐn)?shù)。

而且作者@圖靈的貓介紹,這種排比句式是AI直接生成的,并沒有二次調(diào)整。

這可能是因?yàn)锳I在訓(xùn)練過程中“記住”了這種語法結(jié)構(gòu),就運(yùn)用了起來。

再看看結(jié)尾,這也是高考作文的重頭戲。

AI依舊熟知我們的套路,一通拔高、升華,讓改卷老師都不好意思打低分(不是)。

這么看來,AI真的能寫出讓人滿意的考場作文了?

話先別說太早,因?yàn)樵谥蟮膬商最}里,它的表現(xiàn)就有些不盡如人意了。

首先要吐槽的,就是它每一次寫作文,都會(huì)用抄題目的方法來湊出開篇。

其次,它雖然使用了金句技能,馬克思主義理論、李白詩句用得飛起,但是在文章的邏輯處理上,依舊不太行。

比如“是否擁有以后一輩子的生命”,這句話顯然不是中文的邏輯,簡稱不說人話。

而且它寫出來的內(nèi)容,總是在金句和廢話之間徘徊。

就像下面這一段內(nèi)容,每一句話單拿出來看都還可以,但是連成一段后,怎么又有點(diǎn)狗屁不通那味兒了?

此外,不知道是不是因?yàn)樽x了《魯迅全集》的緣故,AI好像有點(diǎn)搞不懂我們現(xiàn)在的時(shí)代背景了。

這一段中的“三十載已過”,也是個(gè)令人有些摸不著頭腦的時(shí)間概念。

有網(wǎng)友總結(jié)了一下自己的感受:

 

挑戰(zhàn)一下魯迅的題目

本著看熱鬧不嫌事大的原則,光看現(xiàn)有案例怎么夠,我們當(dāng)然要上手試一下它的水平究竟如何。

既然是讀過《魯迅全集》的AI,那我們就讓它根據(jù)魯迅的名言寫一篇文章。

愿中國青年都擺脫冷氣,只是向上走,不必聽自暴自棄者流的話。能做事的做事,能發(fā)聲的發(fā)聲。

這段話大家一定耳熟能詳,那讓AI以此為題寫一篇作文,畫風(fēng)會(huì)是啥樣?

按照它的套路,開篇還是抄題目,所以我們直接來看第二段。

AI直接提出了青年人要自信的主題,看來《魯迅全集》沒有白讀,對(duì)于題目的理解還是很到位的。

之后的內(nèi)容則對(duì)題面做了更加直白的解釋,告誡青年要努力?。^斗??!

看得我直呼別罵了…

接下來也是常規(guī)操作了,梅花香自苦寒來,金句一出、逼格拉滿。

文末還回到了現(xiàn)實(shí)生活,呼吁青年要著眼當(dāng)下,才能有更美好的未來。

同時(shí)還加入了科技創(chuàng)新、大國崛起的要點(diǎn)。

由此可見,AI寫作文在把控主題上可以說是so easy。

考慮到真實(shí)的高考作文題目中,有許多都是設(shè)問再回答,所以我們也試了試給AI一個(gè)問句,會(huì)發(fā)生什么。

在拿到文學(xué)應(yīng)當(dāng)如何改良?這樣的命題后,AI很自然地說了句套話。

這第一段看上去非常具有哲理性,但究其本質(zhì),就是車轱轆話罷了。

這樣的問題在其他生成的文章中也十分常見,而且還會(huì)冒出來錯(cuò)別字、語病等小毛病。

與此同時(shí),我們還發(fā)現(xiàn)它似乎不太能承受住奇葩一點(diǎn)的題目…

在把一道網(wǎng)傳的奇葩作文題目交給AI后,它直接寫出來了一篇意識(shí)流。

這還只是第一段,后面的內(nèi)容還出現(xiàn)了紅色氣球、子彈、龍牙、警察等等讓人完全摸不著頭腦的內(nèi)容。

不止是奇葩題目,在涉及“古人”的題目時(shí),AI還會(huì)冒出一兩句奇形怪狀的文言文來:

果然,還是現(xiàn)代主題的高考作文更適合AI發(fā)揮。

網(wǎng)友神總結(jié):這就是個(gè)狗屁稍通文章生成器。

 

5大模塊,讀題作答“一條龍”

上面這些偶爾“超常發(fā)揮”、平均掙扎在及格線上下的文章,源自一個(gè)名為EssayKiller的AI寫作框架,本質(zhì)上是個(gè)多模塊異構(gòu)深度神經(jīng)網(wǎng)絡(luò)。

據(jù)模型作者@圖靈的貓表示,這個(gè)AI生成文章有點(diǎn)“捉襟見肘”的原因,也是因?yàn)椴捎玫哪P筒皇亲钕冗M(jìn)的。

由于經(jīng)費(fèi)不足更好的模型沒有開源,因此只能用GPT-2來生成文字,如果能用上GPT-3和華為盤古,效果肯定比現(xiàn)在更好。

據(jù)了解,EssayKiller基于OpenCV開發(fā),參數(shù)量達(dá)到17億。

從結(jié)構(gòu)上看,這個(gè)AI框架主要包括5部分:輸入、識(shí)別網(wǎng)絡(luò)、語言網(wǎng)絡(luò)、判分網(wǎng)絡(luò)和輸出。

相當(dāng)于我們平時(shí)的“5步寫作文”:拿到試卷、看題、打草稿、錯(cuò)誤檢查、寫答題卡。

其中,看題、打草稿和錯(cuò)誤檢查幾個(gè)模塊,都會(huì)被拿出來單獨(dú)訓(xùn)練,各司其職。

在看題部分,EssayKiller首先采用了OpenCV的EAST文本檢測器,能以13幀/秒的速度,掃描任意方向、大小的720p圖片文本,并將其中的文字檢測出來。

然后用OCR模型中的CRNN,對(duì)這些文字進(jìn)行識(shí)別。

例如,將上面這張圖片中的文字,轉(zhuǎn)換成能直接輸入模型的文本信息:“三寫作70分……”

至于打草稿部分,則分為閱讀理解、文本聯(lián)想兩部分,分別由BERT和GPT-2來完成。

BERT會(huì)將接收到的句子信息進(jìn)行拆分、打碎,提取其中的關(guān)鍵詞來,并將這些“必須出現(xiàn)在內(nèi)文”的關(guān)鍵詞交給GPT-2;GPT-2在收到關(guān)鍵信息后,就能根據(jù)要求開始“大做文章”,每句話都與關(guān)鍵詞密切相關(guān),無時(shí)無刻不在“點(diǎn)題”。

但GPT-2生成的文章,還不符合高考作文的標(biāo)準(zhǔn)。

要想讓這些句子看起來流暢成段,還得篩去一批真·狗屁不通的病句,并檢查句子中的拼寫錯(cuò)誤、機(jī)翻等問題。

這就是錯(cuò)誤檢查部分,EssayKiller直接調(diào)用了百度模型DNN的API,主要原理是對(duì)句子中的詞語進(jìn)行分析,并判斷它們是否處在正確的位置上。

在這3大關(guān)鍵步驟完成后,就可以正式排版成答題紙的格式,并用手寫機(jī)器人輸出了(相關(guān)模型也是開源的)。

看起來不錯(cuò),已經(jīng)有網(wǎng)友迫不及待想拿來寫小作文了:

打??!

 

據(jù)@圖靈的貓表示,不希望有人用EssayKiller來寫作業(yè),因此并沒有開源相關(guān)參數(shù)設(shè)置,colab的調(diào)用次數(shù)也有嚴(yán)格限制。

要是出現(xiàn)違規(guī)行為,可能整個(gè)開源項(xiàng)目都會(huì)被關(guān)閉,同時(shí)也沒法用Colab在線體驗(yàn)了。

到底“消化”得怎么樣?

@圖靈的貓介紹說,要想讓AI模型寫出這種效果的作文,在“語言生成模塊”的訓(xùn)練集中,毛選和魯迅全集等著作占比要超過10%。

而模型的其他訓(xùn)練資料,則主要來源于開源中文散文數(shù)據(jù)集、高考作文數(shù)據(jù)集等。

那么,訓(xùn)練出的模型效果,是否符合預(yù)期呢?

不少網(wǎng)友表示,感覺AI還是“讀進(jìn)去了一部分”的:

而對(duì)于作者@圖靈的貓來說,生成作文的質(zhì)量也確實(shí)“比自己預(yù)期要好一些”。

但這并不表明,AI就已經(jīng)能100%寫出像樣的高考作文了。

畢竟,最終呈現(xiàn)出來的幾篇高考作文,都是在語言生成模型后,經(jīng)過機(jī)器判分+人工篩選,才展示在讀者面前的。

而在作文中所呈現(xiàn)出的排比等高級(jí)修辭手法,也只能說明訓(xùn)練語料中包含這類修辭,而AI模型在學(xué)習(xí)的過程中“記憶”了它們,并不能說明已經(jīng)學(xué)到了這些手法。

換而言之,這次的AI模型,效果確實(shí)超乎預(yù)期,但并不意味著它真正“消化”了這些語料。

那么,這個(gè)AI模型接下來還會(huì)試些什么?

@圖靈的貓表示,下一步的目標(biāo)是“科幻小說”:

要是有空的話,我會(huì)將大劉、阿西莫夫和阿瑟克拉克等科幻作家的作品加入訓(xùn)練集,讓AI模型試試寫科幻小說。

嗯,AI寫作開始有點(diǎn)賽博朋克那味了。

欣賞了毛選和魯迅文集的開源AI模型:
https://github.com/EssayKillerBrain/EssayKiller_V2

Colab版在線生成器:
https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb

參考視頻(已授權(quán)):
https://www.bilibili.com/video/BV1aw411f7G9

— 完 —

明敏 蕭簫 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

相關(guān)推薦

電子產(chǎn)業(yè)圖譜