現在提供各種在線情感分類服務。諸如Google,Amazon或Microsoft之類的巨頭為自然語言處理提供了雲解決方案。但是,如果您不打算為1000個API呼叫支付1-2美元(當審核具有超過1000個字符時的價格上漲)和/或準備準備您的本地分類服務或程序,則可以使用離線分類器。本文將在本文中討論一些脫機情況的.NET分類器。 以下主題將在此處介紹:
[什麼是情感分析?](#什麼 - 句子 - 分析) -離線情感分析c
-數據集
-結果
-結論
-代碼
什麼是情感分類(分析)? 情感分類是一種強大的方法,可以更好地了解客戶對您的產品或服務的感覺。它還可以幫助您完成品牌監控任務。情感分類使您可以對他們在社交媒體,博客或文章中發布的人們的情緒和反饋進行分類。有幾種常見的分類法用於情感分類。
二進制: * 消極的; * 積極的; 3類: 消極的; 中性的; 積極的; 5堂課 從1到5星 在所有情況下,負面情緒是分析最重要的。因此,情感分類器應該解決的主要任務看起來像“文字是負面的?”和“這有多少負面?”。 度量 準確性是一個簡單明顯的指標。當課程不平衡時,它具有眾所周知的缺點。但是,它可以用於我們的平衡課程。它也被廣泛用於科學文獻中。 下面列出的分類器只能在二進制分類任務中進行比較,因為其中一個沒有“中性”類。
離線情感分類(C#) 有多個C#庫可以通過Google,Nuget E.T.C.找到。但是應該手動檢查它們,因為其中許多實際上只是雲API的SDK。在手動驗證情感分類c#庫後,收集了下一個軟件包:
groupDocs.Classification; vadersharp; Stanfordnlp; sentermentanalyzer; wikiled; 他們都是離線情感分類C#庫。讓我們更詳細地描述它們。 groupdocs.classification 許可證:許可證文件 安裝的複雜性:簡單 **準確性:**93.3(評估) / 96.3(許可){.wp-block-neading} groupDocs.classification是一個具有自己內置引擎的庫,用於文本和文檔分類。模型也是A Nuget軟件包的一部分。安裝很簡單:您只需要安裝Nuget軟件包即可。評估版本和許可版本之間存在差異。對於評估版本,您應該將文本分為100個字符的塊,然後平均結果。 GroupDocS.分類顯示在評估模式中的精度為93.3%,使用許可證時為96.3%。
vadersharp 許可證:麻省理工學院 安裝的複雜性:簡單 精度:77.6%{.WP-Block-neading} Vadersharp是C#情感分類的流行解決方案(分析)。它可以很快工作,並在普通的家用PC上每秒處理消息,而不是服務器機器。安裝也很簡單(只需安裝Nuget軟件包)。但是,還有一個重要的缺點:準確性不如處理時間那麼完美。它在測試數據集上達到了78%的精度。
StanfordNLP ####許可證:GPL V2 安裝的複雜性:硬。 精度:70%{.WP-Block-neading} Stanford NLP是基於自然語言處理的相應Java庫的C#庫。安裝有一些困難。有必要安裝Stanford NLP的Java版本,並在必要時將模型複製到程序的當前目錄。 .NET Core 3.0兼容性也存在問題。該庫的準確性和處理時間不穩定,似乎取決於文本長度。對於SST-2數據集的簡短文本,它可以通過示例處理時間秒實現80.2%的精度。對於跨域一的較長文本,精度降至70%。每個文本的處理時間增加到1分鐘或更多。
MentimentAnalyzer 許可證:麻省理工學院 安裝的複雜性:媒介 精度:79.1%{.WP-Block-neading} 該庫為ml.net基於。在安裝過程中,可能存在與ML.NET的工作有關的問題。這是一個不安全的庫,它需要明確的配置(x86 / x64),並且您可能還需要安裝一些依賴項。 MentimentAnalyzer返回正類別或負類和相應的分數。這就是將二進制分類任務用於該比較的原因。最好的結果可以通過精確選擇的閾值來實現。優化閾值後,精度達到了79%。