บริการการจำแนกความเชื่อมั่นออนไลน์ต่างๆมีให้บริการแล้ว ยักษ์ใหญ่เช่น Google, Amazon หรือ Microsoft นำเสนอโซลูชั่นคลาวด์สำหรับการประมวลผลภาษาธรรมชาติ แต่ถ้าคุณไม่ได้วางแผนที่จะจ่าย 1-2 $ สำหรับการโทร 1,000 API (เพิ่มราคาเมื่อการตรวจสอบมีมากกว่า 1,000 อักขระ) และ/หรือพร้อมที่จะเตรียมบริการหรือโปรแกรมการจำแนกประเภทท้องถิ่นของคุณคุณสามารถใช้ตัวแยกประเภทออฟไลน์ มีตัวแยกประเภท. NET หลายตัวสำหรับกรณีออฟไลน์ที่จะกล่าวถึงในโพสต์นี้ หัวข้อต่อไปนี้จะครอบคลุมที่นี่:

-[การวิเคราะห์ความเชื่อมั่นคืออะไร] (#is-is-sentiment-analysis) อะไร)

การจำแนกความเชื่อมั่น (การวิเคราะห์) คืออะไร?

การจำแนกความเชื่อมั่นเป็นวิธีที่มีประสิทธิภาพในการทำความเข้าใจกับลูกค้าเกี่ยวกับผลิตภัณฑ์หรือบริการของคุณอย่างไร นอกจากนี้ยังสามารถช่วยคุณในงานการตรวจสอบแบรนด์ การจำแนกความเชื่อมั่นช่วยให้คุณสามารถจำแนกอารมณ์และข้อเสนอแนะของผู้คนที่โพสต์บนโซเชียลมีเดียบล็อกหรือบทความ มีอนุกรมวิธานทั่วไปหลายประการที่ใช้สำหรับการจำแนกความเชื่อมั่น

  • ไบนารี่:
    • เชิงลบ;
    • เชิงบวก;
  • 3 คลาส:
    • เชิงลบ;
    • เป็นกลาง;
    • เชิงบวก;
  • 5 คลาส
    • จาก 1 ถึง 5 ดาว ในทุกกรณีความรู้สึกเชิงลบเป็นสิ่งสำคัญที่สุดสำหรับการวิเคราะห์ ดังนั้นงานหลักที่ตัวจําแนกความเชื่อมั่นควรแก้ดูเหมือนว่า “ข้อความนั้นเป็นลบหรือไม่” และ“ มันเป็นลบเท่าไหร่”

Metrics

ความแม่นยำเป็นตัวชี้วัดที่เรียบง่ายและชัดเจน มันมีข้อเสียที่รู้จักกันดีเมื่อชั้นเรียนไม่สมดุล อย่างไรก็ตามมันสามารถใช้ในกรณีของชั้นเรียนที่สมดุลของเรา นอกจากนี้ยังใช้กันอย่างแพร่หลายในวรรณคดีทางวิทยาศาสตร์ ตัวแยกประเภทที่แสดงด้านล่างสามารถเปรียบเทียบได้เฉพาะในงานการจำแนกประเภทไบนารีเนื่องจากหนึ่งในนั้นไม่มีคลาส “เป็นกลาง”

การจำแนกความเชื่อมั่นแบบออฟไลน์ (C#)

มีไลบรารี C# หลายตัวที่สามารถพบได้ผ่าน Google, Nuget E.T.C. แต่พวกเขาควรได้รับการตรวจสอบด้วยตนเองเพราะหลายคนเป็นเพียง SDKS สำหรับ API เมฆ แพ็คเกจถัดไปถูกรวบรวมหลังจากการตรวจสอบด้วยตนเองของการจำแนกความเชื่อมั่น C# ห้องสมุด:

  • GroupDocs.classification;
  • Vadersharp;
  • Stanfordnlp;
  • Sentimentanalyzer;
  • wikiled; พวกเขาทั้งหมดคือการจำแนกความเชื่อมั่นแบบออฟไลน์ C# ห้องสมุด มาอธิบายรายละเอียดเพิ่มเติม

GroupDocs.classification

ใบอนุญาต: ไฟล์ใบอนุญาต

ความซับซ้อนของการติดตั้ง: ง่าย ** ความแม่นยำ:**93.3 (การประเมินผล) / 96.3 (ได้รับอนุญาต) {.wp-block-heading} GroupDocs.classification เป็นไลบรารีที่มีเครื่องมือในตัวของตัวเองสำหรับการจำแนกข้อความและเอกสาร แบบจำลองยังเป็นส่วนหนึ่งของแพ็คเกจ NuGet การติดตั้งนั้นง่าย: คุณเพียงแค่ต้องติดตั้งแพ็คเกจ NUGET มีความแตกต่างระหว่างการประเมินผลและรุ่นที่ได้รับใบอนุญาต สำหรับเวอร์ชันการประเมินคุณควรแบ่งข้อความออกเป็นชิ้น 100 ตัวอักษรและจากนั้นเฉลี่ยผลลัพธ์ GroupDocs.classification แสดงความแม่นยำ 93.3% ในโหมดการประเมินผลและ 96.3% เมื่อใช้ใบอนุญาต

Vadersharp

ใบอนุญาต: MIT

ความซับซ้อนของการติดตั้ง: ง่าย ความแม่นยำ: 77.6% {.wp-block-heading} Vadersharp เป็นโซลูชั่นยอดนิยมสำหรับการจำแนกประเภท C# (การวิเคราะห์) มันทำงานได้อย่างรวดเร็วและประมวลผลข้อความต่อวินาทีบนพีซีที่บ้านปกติไม่ใช่เกี่ยวกับเครื่องเซิร์ฟเวอร์ การติดตั้งนั้นง่าย (เพียงแค่ติดตั้ง NUGET แพ็คเกจ) อย่างไรก็ตามยังมีข้อเสียที่สำคัญ: ความแม่นยำไม่สมบูรณ์แบบเท่ากับเวลาในการประมวลผล มันบรรลุความแม่นยำ 78% ในชุดข้อมูลทดสอบ

StanfordNLP

ใบอนุญาต: GPL v2

ความซับซ้อนของการติดตั้ง: ยาก ความแม่นยำ: 70% {.wp-block-heading} Stanford NLP เป็นห้องสมุด C# ตามห้องสมุด Java ที่สอดคล้องกันสำหรับการประมวลผลภาษาธรรมชาติ มีปัญหาบางอย่างกับการติดตั้ง จำเป็นต้องติดตั้ง [Stanford NLP] เวอร์ชัน Java 8 และคัดลอกโมเดลไปยังไดเรกทอรีปัจจุบันของโปรแกรมหากจำเป็น นอกจากนี้ยังมีปัญหาเกี่ยวกับ. NET Core 3.0 เข้ากันได้ ความแม่นยำและเวลาในการประมวลผลไม่เสถียรสำหรับห้องสมุดนี้และดูเหมือนจะขึ้นอยู่กับความยาวของข้อความ สำหรับข้อความสั้น ๆ จากชุดข้อมูล SST-2 นั้นจะได้รับความแม่นยำ 80.2% โดยมีวินาทีต่อเวลาในการประมวลผลตัวอย่าง สำหรับข้อความที่ยาวขึ้นจาก Cross-Domain One ความแม่นยำลดลงเป็น 70% และเวลาในการประมวลผลเพิ่มขึ้นเป็น 1 นาทีหรือมากกว่าต่อข้อความ

Sentimentanalyzer

ใบอนุญาต: MIT

ความซับซ้อนของการติดตั้ง: สื่อ ความแม่นยำ: 79.1% {.wp-block-heading} ห้องสมุดนี้คือ ml.net -based ในระหว่างการติดตั้งอาจมีปัญหาที่เกี่ยวข้องกับงานของ ML.NET นี่คือไลบรารีที่ไม่ปลอดภัยมันต้องใช้การกำหนดค่า (x86 / x64) อย่างชัดเจนและคุณอาจต้องติดตั้งการพึ่งพาบางอย่างเช่นกัน Sentimentanalyzer ส่งคืนระดับบวกหรือลบและคะแนนที่สอดคล้องกัน เป็นเหตุผลว่าทำไมงานการจำแนกแบบไบนารีจึงถูกใช้สำหรับการเปรียบเทียบนั้น ผลลัพธ์ที่ดีที่สุดสามารถทำได้ด้วยเกณฑ์ที่เลือกอย่างแม่นยำ ความแม่นยำถึง 79% หลังจากการเพิ่มประสิทธิภาพของค่าเกณฑ์

wikiled

ใบอนุญาต: Apache License 2.0

ความซับซ้อนของการติดตั้ง: ง่าย ความแม่นยำ: ไม่มี {.wp-block-heading} ห้องสมุดการจำแนกประเภท C# อื่นคือ wikiled ห้องสมุดนี้ควรได้รับการฝึกอบรมก่อนการทดสอบเพื่อให้ได้ผลลัพธ์ที่เพียงพอ ดังนั้นจึงไม่สามารถคำนวณความแม่นยำสำหรับห้องสมุดได้

ชุดข้อมูล

เราใช้ชุดข้อมูลข้ามโดเมนเพื่อการทดสอบ GroupDocs.classification ยังไม่ได้รับการฝึกฝน ส่วนที่เหลือของห้องสมุดส่วนใหญ่ไม่ได้ใช้ในการฝึกอบรมเช่นกัน เราจะส่งผลลัพธ์ไปยังผู้ที่สนใจทางอีเมล โปรดสร้างปัญหาใน GitHub repo 14: Stanford Sentiment Treebank (Socher et al. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In proc. EMNLP).

ผลลัพธ์

ตารางที่ 1 แสดงความแม่นยำ (%) สำหรับตัวแยกประเภททดลอง ตารางที่ 1.

SST-2ข้ามโดเมน
GroupDocs.classification93.3 (ได้รับอนุญาต: 94.7)93.3 (ได้รับอนุญาต: 96.3)
Sentimentanalyzer58.579.1
Stanford NLP80.7~ 70
Vadersharp68.777.6
ส่วนใหญ่แสดงผลลัพธ์ที่แตกต่างกันสำหรับชุดข้อมูล 2 ชุด ดูเหมือนว่าสาเหตุของพฤติกรรมดังกล่าวคือข้อความ SST-2 นั้นสั้นกว่าข้อความข้ามโดเมน นอกจากนี้ยังมีการแขวนบางส่วนในระหว่างการทดสอบ Stanford NLP บน Crossdomain สำหรับข้อความนานกว่า 500 อักขระ นั่นเป็นเหตุผลที่ความแม่นยำข้ามโดเมนที่ทำเครื่องหมายด้วย“ ~”

การวิเคราะห์ข้อผิดพลาดทั่วไป

การจำแนกประเภทต่อไปนี้เป็นเรื่องปกติ: _“ เช่นเดียวกับดาวทัศนคติและความหลงไหล” _ - ยากที่จะเข้าใจว่าบุคคลนั้นหมายถึงอะไร _“ Snoozer ที่ทำหน้าที่ได้ดีและมีเจตนาดี” _ หรือ _“ Gee นักฆ่าคนที่สองยิง Kennedy?” _ - ถากถางหรือประชด _“ Moot Point” _ - ข้อความสั้นเกินไป ปัญหาดังกล่าวเกิดขึ้นในผลิตภัณฑ์การจำแนกความเชื่อมั่น (การวิเคราะห์) ทั้งหมด ตัวอย่างเช่นการเสียดสีมันเป็นเรื่องส่วนตัว ดังนั้นจึงเป็นการยากที่จะฝึกฝนแบบจำลองการเสียดสีและยากที่จะจำแนกได้อย่างถูกต้อง แต่หวังว่าจุดอ่อนเหล่านี้จะถูกกำจัดในอนาคตอันใกล้

บทสรุป

ในขณะที่ไลบรารีข้างต้นทั้งหมดนั้นเหมาะสมสำหรับการจำแนกความเชื่อมั่นใน C#, GroupDocs.classification นั้นแม่นยำที่สุด ดังนั้นจึงเป็นสิ่งที่ดีที่สุดสำหรับการค้นหาความรู้สึกเชิงลบหรือเชิงบวกในการกล่าวถึงและ/หรือบทวิจารณ์ขนาดใหญ่ โดยสรุปควรสังเกตว่ายังมีกรณีสำคัญของการจำแนกประเภทลบ/เป็นกลาง/บวก มันจะได้รับการพิจารณาในอนาคต

รหัส

เราให้รหัสที่ใช้สำหรับโพสต์บล็อกนี้: {{LINE_90}}