精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

毀譽參半的AI重建瀕危語言之路

譯文 精選
人工智能
目前,人工智能(AI)正在被用于研究手稿、音頻檔案和銘文,以重建失傳的語法、詞匯和發音。其支持者一致認為這是一條復興之路,能夠為人類社區提供一種與語言遺產重新連接,也可能會產生看似準確,實則不實用、甚至無意義的語言。甚至有人認為,這種機械的靜態記錄,會讓語言的消失不可逆轉。

譯者 | 陳峻

審校 | 重樓

眾所周知,過去那些曾經定義和描述了燦爛文化的語言,如今可能只能留存于書面記錄、片段影像、以及少數傳頌者的記憶中。而人類歷史的每一次更迭,都會導致語言信息的此消彼長,文化知識的重塑。

目前,人工智能(AI)正在被用于研究手稿、音頻檔案和銘文,以重建失傳的語法、詞匯和發音。其支持者一致認為這是一條復興之路,能夠為人類社區提供一種與語言遺產重新連接,也可能會產生看似準確,實則不實用、甚至無意義的語言。甚至有人認為,這種機械的靜態記錄,會讓語言的消失不可逆轉。

全球化時代的語言消失

現如今,語言多樣性的下降速度比歷史上任何其他時刻都要快。聯合國教科文組織曾估算:世界上的7000種語言中,有近40%已瀕臨滅絕。算下來,大約每兩周就有一種語言消失。這種消失不僅僅是系統性、交流層面的消失,也伴隨著與之相關的觀點、歷史和專業知識的消失。誠然,傳統的文檔、錄音、口語故事、以及語法解說圖本都可以延續語言,但是這往往比較慢,也就導致了許多語言在被完全記錄下來之前就消失了。

然而,AI正在改變這種速度。由其加持的高級工具可以比傳統的方法,更快地處理稀有的音頻,識別內在的模式,進而重建那些不完整的語言系統。雖然這為留存語言提供了新的方法,但是如果只關注那些沒有社區參與、或文化基礎的數據保存,結果很可能只是一個雖然精確、但與日常使用完全脫節的語言檔案。因此,在現代化世界中,保留語言遺產需要研究人員、技術專家和人群社區之間的通力合作,以確保語言的重建既準確又具有文化內涵。

AI重建和復興語言

近年來,AI已經從一種研究工具演變成為了語言重建的核心驅動力。機器學習模型,特別是深度神經網絡,可以處理那些曾經需要付出幾十年學術努力的任務。此類系統可以分析大量手稿、銘文和音頻記錄的存儲庫,發現人類研究人員可能無法注意到的模式。

其中,失傳語言重建的技術通常會結合兩個互補的階段:第1階段是使用模式識別模型,來檢測留存記錄中的語法、句法和詞匯中的重復結構。第2階段是使用應用生成系統,如大語言模型(LLM),來補足第1階段。同時,第1階段的發現也可以指導第2階段,并允許神經模型提出缺失的單詞、短語甚至語音模式。通過利用相關語言和部分文檔的培訓,這些系統可以生成對應語言和詞句的合理版本。

目前,已有若干真實項目展示了此類方法在實踐中是如何運作的。例如:由AI輔助的研究,以更高的統計準確性模擬了原始印歐語的詞根,從不完整的手稿中重建了古希臘語音,并為瀕危語言創造了現實的語音合成,讓其對應的人群社區聽到幾十年來從未聽過的發音。

然而,語言重建也面臨著技術和文化方面的挑戰。比如,有限的或質量差的數據,可能會導致模型產生幻想,從而生成從未存在過的模式。當然,即使統計準確率很高,這些項目也并不總能反映文化真實性。這就是為什么許多項目需要將算法的輸出,與語言學家、人類學家、以及最重要的是與母語人士的專業知識相結合的原因。

同時,自我監督學習等新技術進一步增加了此方面的能力。它們使用的模型可以在不依賴并行翻譯的情況下,從單一語言數據中學習到結構規則,使其更適合那些資源較少的語言。它們在協作環境中被使用時,既能保證速度,又能提供規模,同時還可以保持文化背景的完整性。

可見,只有當技術與人類合作時,基于AI的重建才會取得成功。也就是說,AI只有與人類社區專家相輔相成,而非單純取代時,才能產生更好的結果。無聲的記錄才可以再次變成鮮活的口語。

數字語言保護從靜態檔案到互動復興的演變

AI之前,保護瀕危和滅絕語言的努力主要依賴于靜態的數字檔案。Rosetta項目瀕危語言檔案等項目已收集了大量字典、手稿、錄音和文化文物。這些收藏品為學者和社區提供了寶貴的語言遺產。然而,這些資源在絕大程度上是一種被動式的。學習者只能主動查找單詞或聽錄音,但積極使用或互動練習語言的機會十分有限。這也就限制了他們作為活體形式的語言復興。

相反,AI通過引入互動性和動態參與的形式,改變了這種情況?,F代AI工具,包括聊天機器人、語音助手和翻譯應用,可以使用瀕?;蛞褱缃^的語言與學習者進行說話、傾聽和回應。這些方式使得語言能夠超越被動的參考材料,通過互動體驗成為語言使用者日常生活、教育和文化表達的一部分。

所以說,AI的主要優勢在于翻譯和重建。而且,在缺少完整的字典或文本時,AI模型會主動分析相關語言來填補空缺。例如,如果一種語言的詞匯量損失了30%,AI則可以使用類似的語言或歷史記錄的信息,來建議可能的詞匯。當然,AI也可以重建丟失語言的聲音。通過將古代文本的語音細節與現代語言知識相結合,那些由AI生成的聲音,如今已能“說出”蘇美爾語、梵語和古北歐語等語言。這使得學習者和研究人員有機會能夠聽到幾個世紀以來一直沉寂與失傳的語言。

AI驅動的語言復興面臨的挑戰和道德考慮

AI為復興瀕危和已滅絕的語言提供了新的方法。盡管如此,整個過程中仍然充滿了各種挑戰。有時,AI只能輸出最可能的近似表達,而無法被母語人士所驗證。有時,由AI模型產生的發音或用法雖然似乎合理,但很可能在真實的歷史或文化上并不準確。這都凸顯了技術專家、語言學家和語言社區成員之間密切合作的必要性。這樣的協作關系必須確保語言復興的過程既尊重文化遺產又保留歷史真相。下面,我們來具體討論幾類挑戰:

  • AI驅動的復興可能會創造一種僅存在于數字世界的語言。畢竟語言不僅僅是詞匯和語法,它也存在于日常使用、社交習慣、以及文化實踐中。如果一種語言是由AI所重建,但沒有人會經常使用的話,它就會成為一件靜態的博物館文物。也就是說,它僅僅在技術上得到了保留,但在社會上并不活躍。
  • 偏見是另一個問題。訓練數據通常來自殖民時代的檔案或外部來源。這些可能反映了與真實人群社區截然不同的觀點。而如果AI從這種有偏見的數據中學習,那么很可能會重現那些扭曲的語言版本,進而可能歪曲人群社區的真實遺產和認同。
  • 過度依賴AI工具也可能是一個問題。如果人群社區完全依賴AI來進行語言教學和維護,那么他們可能會失去通過人與人之間的互動,來傳遞語言意圖的動力。畢竟,口頭傳播和社區參與對于語言的生存都是至關重要的。AI應該輔助與支持這樣的流程,而不是取代它們。
  • 圍繞所有權和控制權的道德問題也不容忽視。許多土著和少數民族群體將語言視為其文化傳承的核心部分。他們擔心大型科技公司可能會通過AI生成語言的內容與方式獲取所有權,特別是如果其語言訓練本身就是基于他們長輩的錄制。因此,為了保護社區的權利,語言復興的努力必須從一開始就讓當地人參與進來。項目開展的過程中也應該征得群體的明確同意、數據主權、以及文化敏感性。AI應充當合作伙伴與協助角色,而絕不可取代人類做決定。

讓我們來看兩個例子:在新西蘭,AI工具正在幫助為毛利語創建語言資源。所有的內容都需要經過毛利語言學家和教育工作者的審查和批準。同樣,在加拿大,AI也在支持因紐特語和克里語等土著語言。他們的社區使用AI來開發自己的數字學習工具,畢竟語言復興的核心仍然是人類教學和文化實踐。

可見,綜合利用AI的處理能力,以及母語人士的文化知識和智慧,將有助于保持語言社區日常生活中的活力。

小結

復興瀕?;蛞褱缃^的語言是一項復雜的任務。AI通過提供強大的工具,來加快重建和創建交互式的資源。然而,僅靠技術并不能完全復興一種語言。真正的復興取決于母語人士、人類社區和文化習俗。而這些習俗恰恰能每天保持語言的活力。

同時,AI必須作為一個支持性的合作伙伴,而非替代者,以確保語言的復興具有真正的意義和文化價值。可以說正是因為有了技術專家、語言學家和社區之間的合作,語言復興過程的準確性、真實性和對遺產的尊重才得以平衡。也正是因為這樣,我們才能突破靜態檔案的文字保存形式,恢復出鮮活的口語,將我們與過去相聯系,也豐富我們的未來。

譯者介紹

陳峻(Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗。

原文標題:AIs Linguistic Ghosts: Can Machines Revive Dead Languages or Bury Them Forever?,作者:Dr. Assad Abbas

責任編輯:姜華 來源: 51CTO
相關推薦

2009-03-18 17:37:34

虛擬化Vmwareesx

2018-11-26 12:24:52

AI 語言 人工智能

2021-05-06 09:52:27

語言開源AI

2021-04-07 10:07:48

人臉識別技術隱私

2018-08-08 09:20:52

Windows 10Windows 7Windows

2024-06-17 08:49:00

模型語言

2009-03-27 17:50:47

Linux經濟衰退開源

2013-09-03 11:08:20

科技產品產品

2012-02-13 10:03:31

編程開發

2012-08-13 14:13:46

2013-01-06 10:51:56

2021-12-21 11:57:57

人工智能語言深度學習

2015-12-21 10:05:33

2018-08-01 15:10:02

GolangPython語言

2021-10-23 06:42:14

Go語言接口

2021-10-03 22:18:14

Go語言整數

2017-06-14 09:37:05

R語言Apriori算法

2020-12-31 09:06:44

Go語言Reflect

2011-01-14 14:22:50

Linux匯編語言

2011-01-14 14:08:17

Linux匯編語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 绥江县| 古田县| 江阴市| 富平县| 汝州市| 麻城市| 肥东县| 神池县| 昌吉市| 阜宁县| 永和县| 益阳市| 安塞县| 金平| 托克托县| 桓仁| 涟水县| 淮阳县| 长沙县| 雷州市| 宿松县| 郁南县| 青川县| 上饶市| 富锦市| 宁晋县| 建平县| 喀什市| 合川市| 开原市| 湖南省| 辽阳县| 卫辉市| 常德市| 曲阳县| 荃湾区| 玛曲县| 丰顺县| 铁力市| 赤城县| 鄱阳县|