<div id="mzb50"><progress id="mzb50"></progress></div>

具有語音功能的機器，可閱讀書籍并回答問題

2020/09/24 作者：jianchiee

306

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

techable_machine_trJoUnilFN.jpg

共3個文件

在這個項目中，我構(gòu)建了啟用語音的可教機器，該機器可以掃描書頁或任何文本源中的文本并將其轉(zhuǎn)換為上下文，用戶可以提出與該上下文有關(guān)的問題，并且該機器可以僅使用上下文進行回答。我一直想制造一種易于部署且可以輕松針對給定上下文進行培訓而無需任何互聯(lián)網(wǎng)連接的邊緣設備。

硬件部件：

Raspberry Pi 4 B型×1個
英特爾神經(jīng)計算棒2×1個
Seeed ReSpeaker 2-麥克風Pi HAT×1個
Raspberry Pi攝像頭模塊V2×1個
喇叭3W x 2×1個

軟件應用程序和在線服務：

樹莓派Raspbian
英特爾OpenVINO工具包
Tesseract OCR
深度語音

應用程序中使用的機器學習模型

使用了三種機器學習模型：

1. Tesseract OCR（基于LSTM的模型）

Tesseract是一種OCR引擎，支持unicode，并具有開箱即用地識別100多種語言的能力?？梢杂柧毸R別其他語言。

2. DeepSpeech（TensorFlow Lite型號）

DeepSpeech是一個開源的語音轉(zhuǎn)文本引擎，使用由機器學習技術(shù)訓練的模型，該模型由Google的TensorFlow簡化實施。

3. BERT

BERT是一種語言表示模型，代表變壓器的雙向編碼器表示。預訓練的BERT模型僅需增加一個輸出層即可進行微調(diào)，以創(chuàng)建適用于各種任務（例如問題解答和語言推論）的最新模型，而無需進行大量針對特定任務的體系結(jié)構(gòu)修改。

前兩個模型在Raspberry Pi 4上運行，最后一個模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上運行。

techable_machine_trJoUnilFN.jpg

下載

描述：原理圖截圖
TeachableMachine-master.zip

下載

描述：源碼
項目詳情.pdf

下載

描述：項目細節(jié)

原創(chuàng)聲明：本文為jianchiee原創(chuàng)內(nèi)容，未經(jīng)書面授權(quán)，不得以任何方式加以使用。轉(zhuǎn)載合作

人工客服
（售后/吐槽/合作/交友）

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新，為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新，為我們所生活的智能互連的數(shù)字世界提供支持。收起

相關(guān)推薦

基于YX9100-24QS芯片-工業(yè)RS485語音模塊播報器產(chǎn)品應用-導軌式安裝外殼
方案 ahe8906
2160
05/23 16:30
WTK6900G-B02本地語音識別模塊
方案唯創(chuàng)知音
1125
01/18 08:32
WTK6900F-B03語音識別控制模塊
方案唯創(chuàng)知音
3817
01/17 09:27
WTK6900F-B04自學習語音識別模塊
方案唯創(chuàng)知音
1738
01/17 09:23
WTK6900CS-B01語音識別控制模塊
方案唯創(chuàng)知音
1573
01/16 10:02
WTK6900HM01離線語音識別模塊
方案唯創(chuàng)知音
2239
01/15 10:24
WT2003HM01語音播報模塊
方案唯創(chuàng)知音
1981
01/11 08:43

方案定制

方案開發(fā)定制化，2000+方案商即時響應！

相關(guān)方案

TA的熱門作品