sentiment analysis

C＃中的情感分類（分析）

現在提供各種在線情感分類服務。諸如Google，Amazon或Microsoft之類的巨頭為自然語言處理提供了雲解決方案。但是，如果您不打算為1000個API呼叫支付1-2美元（當審核具有超過1000個字符時的價格上漲）和/或準備準備您的本地分類服務或程序，則可以使用離線分類器。本文將在本文中討論一些脫機情況的.NET分類器。以下主題將在此處介紹： [什麼是情感分析？]（＃什麼 - 句子 - 分析） -離線情感分析c -數據集 -結果 -結論 -代碼什麼是情感分類（分析）？情感分類是一種強大的方法，可以更好地了解客戶對您的產品或服務的感覺。它還可以幫助您完成品牌監控任務。情感分類使您可以對他們在社交媒體，博客或文章中發布的人們的情緒和反饋進行分類。有幾種常見的分類法用於情感分類。二進制： * 消極的; * 積極的; 3類：消極的; 中性的; 積極的; 5堂課從1到5星在所有情況下，負面情緒是分析最重要的。因此，情感分類器應該解決的主要任務看起來像“文字是負面的？”和“這有多少負面？”。度量準確性是一個簡單明顯的指標。當課程不平衡時，它具有眾所周知的缺點。但是，它可以用於我們的平衡課程。它也被廣泛用於科學文獻中。下面列出的分類器只能在二進制分類任務中進行比較，因為其中一個沒有“中性”類。離線情感分類（C＃）有多個C＃庫可以通過Google，Nuget E.T.C.找到。但是應該手動檢查它們，因為其中許多實際上只是雲API的SDK。在手動驗證情感分類c＃庫後，收集了下一個軟件包： groupDocs.Classification; vadersharp; Stanfordnlp; sentermentanalyzer; wikiled; 他們都是離線情感分類C＃庫。讓我們更詳細地描述它們。 groupdocs.classification 許可證：許可證文件安裝的複雜性：簡單 **準確性：**93.3（評估） / 96.3（許可）{.wp-block-neading} groupDocs.classification是一個具有自己內置引擎的庫，用於文本和文檔分類。模型也是A Nuget軟件包的一部分。安裝很簡單：您只需要安裝Nuget軟件包即可。評估版本和許可版本之間存在差異。對於評估版本，您應該將文本分為100個字符的塊，然後平均結果。 GroupDocS.分類顯示在評估模式中的精度為93.3％，使用許可證時為96.3％。 vadersharp 許可證：麻省理工學院安裝的複雜性：簡單精度：77.6％{.WP-Block-neading} Vadersharp是C＃情感分類的流行解決方案（分析）。它可以很快工作，並在普通的家用PC上每秒處理消息，而不是服務器機器。安裝也很簡單（只需安裝Nuget軟件包）。但是，還有一個重要的缺點：準確性不如處理時間那麼完美。它在測試數據集上達到了78％的精度。 StanfordNLP ####許可證：GPL V2 安裝的複雜性：硬。精度：70％{.WP-Block-neading} Stanford NLP是基於自然語言處理的相應Java庫的C＃庫。安裝有一些困難。有必要安裝Stanford NLP的Java版本，並在必要時將模型複製到程序的當前目錄。 .NET Core 3.0兼容性也存在問題。該庫的準確性和處理時間不穩定，似乎取決於文本長度。對於SST-2數據集的簡短文本，它可以通過示例處理時間秒實現80.2％的精度。對於跨域一的較長文本，精度降至70％。每個文本的處理時間增加到1分鐘或更多。 MentimentAnalyzer 許可證：麻省理工學院安裝的複雜性：媒介精度：79.1％{.WP-Block-neading} 該庫為ml.net基於。在安裝過程中，可能存在與ML.NET的工作有關的問題。這是一個不安全的庫，它需要明確的配置（x86 / x64），並且您可能還需要安裝一些依賴項。 MentimentAnalyzer返回正類別或負類和相應的分數。這就是將二進制分類任務用於該比較的原因。最好的結果可以通過精確選擇的閾值來實現。優化閾值後，精度達到了79％。