國際大型語言模型多以簡體中文資料進行訓練,容易發生資訊偏誤或不符台灣文化和價值觀,為此國科會自去年 4 月啟動 TAIDE(Trustworthy AI Dialogue Engine,可信賴 AI 對話引擎)計畫,打造專屬台灣的大型語言模型。
TAIDE 團隊盤點公私部門資料並個別洽商授權,整理出共 89.4GB 優質繁體中文資料,並建置 GPU 運算資源,去年 12 月已與台灣杉二號完成整合,提供運算服務。TAIDE 團隊目前開發出 TAIDE-7B(可商用版本)和 TAIDE-13B(學研用版本)模型,具備多輪對話和阻絕產生不恰當回應的能力。
TAIDE 在寫文章、寫信、摘要、英翻中、中翻英五大任務表現與背後採用 GPT 3.5 模型的 ChatGPT 相當,尤其寫文章、寫信、摘要的測試得分比 ChatGPT 更好。
TAIDE 團隊將與合作夥伴探討新應用,重點包括支援公部門導入 TAIDE。國科會主委吳政忠 20 日向媒體表示,最快今年 4 月中旬開源釋出 TAIDE-7B 版本,不僅可供外界自由運用,未來有望將模型內建在電腦、手機等裝置內。
吳政忠也強調,無論民眾詢問 ChatGPT 或者 TAIDE,都要有自己判斷的能力。「最後負責任的還是真正的人,是自己,這個觀念一定要有,不要問完就丟出去,這是完全不對的」,他表示。
除此之外,中研院院長廖俊智 20 日赴立法院業務報告也表示,為豐富 TAIDE 資料庫,會在不違反智慧財產權法規限制下,會盡量開放中研院資料庫協助訓練 AI 模型。
發展台灣專屬的大型語言模型極為重要,最終目標將是整合 TAIDE 讓 AI 應用落地、讓全民有感。
(首圖為國科會主委吳政忠,首圖來源:科技新報)
延伸閱讀:
標題:發展台版 ChatGPT,國科會最快 4 月中旬開源 TAIDE-7B 版本
地址:https://www.utechfun.com/post/349449.html