บริการการจำแนกความเชื่อมั่นออนไลน์ต่างๆมีให้บริการแล้ว ยักษ์ใหญ่เช่น Google, Amazon หรือ Microsoft นำเสนอโซลูชั่นคลาวด์สำหรับการประมวลผลภาษาธรรมชาติ แต่ถ้าคุณไม่ได้วางแผนที่จะจ่าย 1-2 $ สำหรับการโทร 1,000 API (เพิ่มราคาเมื่อการตรวจสอบมีมากกว่า 1,000 อักขระ) และ/หรือพร้อมที่จะเตรียมบริการหรือโปรแกรมการจำแนกประเภทท้องถิ่นของคุณคุณสามารถใช้ตัวแยกประเภทออฟไลน์ มีตัวแยกประเภท. NET หลายตัวสำหรับกรณีออฟไลน์ที่จะกล่าวถึงในโพสต์นี้ หัวข้อต่อไปนี้จะครอบคลุมที่นี่:
-[การวิเคราะห์ความเชื่อมั่นคืออะไร] (#is-is-sentiment-analysis) อะไร)
การจำแนกความเชื่อมั่น (การวิเคราะห์) คืออะไร?
การจำแนกความเชื่อมั่นเป็นวิธีที่มีประสิทธิภาพในการทำความเข้าใจกับลูกค้าเกี่ยวกับผลิตภัณฑ์หรือบริการของคุณอย่างไร นอกจากนี้ยังสามารถช่วยคุณในงานการตรวจสอบแบรนด์ การจำแนกความเชื่อมั่นช่วยให้คุณสามารถจำแนกอารมณ์และข้อเสนอแนะของผู้คนที่โพสต์บนโซเชียลมีเดียบล็อกหรือบทความ มีอนุกรมวิธานทั่วไปหลายประการที่ใช้สำหรับการจำแนกความเชื่อมั่น
- ไบนารี่:
- เชิงลบ;
- เชิงบวก;
- 3 คลาส:
- เชิงลบ;
- เป็นกลาง;
- เชิงบวก;
- 5 คลาส
- จาก 1 ถึง 5 ดาว ในทุกกรณีความรู้สึกเชิงลบเป็นสิ่งสำคัญที่สุดสำหรับการวิเคราะห์ ดังนั้นงานหลักที่ตัวจําแนกความเชื่อมั่นควรแก้ดูเหมือนว่า “ข้อความนั้นเป็นลบหรือไม่” และ“ มันเป็นลบเท่าไหร่”
Metrics
ความแม่นยำเป็นตัวชี้วัดที่เรียบง่ายและชัดเจน มันมีข้อเสียที่รู้จักกันดีเมื่อชั้นเรียนไม่สมดุล อย่างไรก็ตามมันสามารถใช้ในกรณีของชั้นเรียนที่สมดุลของเรา นอกจากนี้ยังใช้กันอย่างแพร่หลายในวรรณคดีทางวิทยาศาสตร์ ตัวแยกประเภทที่แสดงด้านล่างสามารถเปรียบเทียบได้เฉพาะในงานการจำแนกประเภทไบนารีเนื่องจากหนึ่งในนั้นไม่มีคลาส “เป็นกลาง”
การจำแนกความเชื่อมั่นแบบออฟไลน์ (C#)
มีไลบรารี C# หลายตัวที่สามารถพบได้ผ่าน Google, Nuget E.T.C. แต่พวกเขาควรได้รับการตรวจสอบด้วยตนเองเพราะหลายคนเป็นเพียง SDKS สำหรับ API เมฆ แพ็คเกจถัดไปถูกรวบรวมหลังจากการตรวจสอบด้วยตนเองของการจำแนกความเชื่อมั่น C# ห้องสมุด:
- GroupDocs.classification;
- Vadersharp;
- Stanfordnlp;
- Sentimentanalyzer;
- wikiled; พวกเขาทั้งหมดคือการจำแนกความเชื่อมั่นแบบออฟไลน์ C# ห้องสมุด มาอธิบายรายละเอียดเพิ่มเติม
GroupDocs.classification
ใบอนุญาต: ไฟล์ใบอนุญาต
ความซับซ้อนของการติดตั้ง: ง่าย ** ความแม่นยำ:**93.3 (การประเมินผล) / 96.3 (ได้รับอนุญาต) {.wp-block-heading} GroupDocs.classification เป็นไลบรารีที่มีเครื่องมือในตัวของตัวเองสำหรับการจำแนกข้อความและเอกสาร แบบจำลองยังเป็นส่วนหนึ่งของแพ็คเกจ NuGet การติดตั้งนั้นง่าย: คุณเพียงแค่ต้องติดตั้งแพ็คเกจ NUGET มีความแตกต่างระหว่างการประเมินผลและรุ่นที่ได้รับใบอนุญาต สำหรับเวอร์ชันการประเมินคุณควรแบ่งข้อความออกเป็นชิ้น 100 ตัวอักษรและจากนั้นเฉลี่ยผลลัพธ์ GroupDocs.classification แสดงความแม่นยำ 93.3% ในโหมดการประเมินผลและ 96.3% เมื่อใช้ใบอนุญาต
Vadersharp
ใบอนุญาต: MIT
ความซับซ้อนของการติดตั้ง: ง่าย ความแม่นยำ: 77.6% {.wp-block-heading} Vadersharp เป็นโซลูชั่นยอดนิยมสำหรับการจำแนกประเภท C# (การวิเคราะห์) มันทำงานได้อย่างรวดเร็วและประมวลผลข้อความต่อวินาทีบนพีซีที่บ้านปกติไม่ใช่เกี่ยวกับเครื่องเซิร์ฟเวอร์ การติดตั้งนั้นง่าย (เพียงแค่ติดตั้ง NUGET แพ็คเกจ) อย่างไรก็ตามยังมีข้อเสียที่สำคัญ: ความแม่นยำไม่สมบูรณ์แบบเท่ากับเวลาในการประมวลผล มันบรรลุความแม่นยำ 78% ในชุดข้อมูลทดสอบ
StanfordNLP
ใบอนุญาต: GPL v2
ความซับซ้อนของการติดตั้ง: ยาก ความแม่นยำ: 70% {.wp-block-heading} Stanford NLP เป็นห้องสมุด C# ตามห้องสมุด Java ที่สอดคล้องกันสำหรับการประมวลผลภาษาธรรมชาติ มีปัญหาบางอย่างกับการติดตั้ง จำเป็นต้องติดตั้ง [Stanford NLP] เวอร์ชัน Java 8 และคัดลอกโมเดลไปยังไดเรกทอรีปัจจุบันของโปรแกรมหากจำเป็น นอกจากนี้ยังมีปัญหาเกี่ยวกับ. NET Core 3.0 เข้ากันได้ ความแม่นยำและเวลาในการประมวลผลไม่เสถียรสำหรับห้องสมุดนี้และดูเหมือนจะขึ้นอยู่กับความยาวของข้อความ สำหรับข้อความสั้น ๆ จากชุดข้อมูล SST-2 นั้นจะได้รับความแม่นยำ 80.2% โดยมีวินาทีต่อเวลาในการประมวลผลตัวอย่าง สำหรับข้อความที่ยาวขึ้นจาก Cross-Domain One ความแม่นยำลดลงเป็น 70% และเวลาในการประมวลผลเพิ่มขึ้นเป็น 1 นาทีหรือมากกว่าต่อข้อความ
Sentimentanalyzer
ใบอนุญาต: MIT
ความซับซ้อนของการติดตั้ง: สื่อ ความแม่นยำ: 79.1% {.wp-block-heading} ห้องสมุดนี้คือ ml.net -based ในระหว่างการติดตั้งอาจมีปัญหาที่เกี่ยวข้องกับงานของ ML.NET นี่คือไลบรารีที่ไม่ปลอดภัยมันต้องใช้การกำหนดค่า (x86 / x64) อย่างชัดเจนและคุณอาจต้องติดตั้งการพึ่งพาบางอย่างเช่นกัน Sentimentanalyzer ส่งคืนระดับบวกหรือลบและคะแนนที่สอดคล้องกัน เป็นเหตุผลว่าทำไมงานการจำแนกแบบไบนารีจึงถูกใช้สำหรับการเปรียบเทียบนั้น ผลลัพธ์ที่ดีที่สุดสามารถทำได้ด้วยเกณฑ์ที่เลือกอย่างแม่นยำ ความแม่นยำถึง 79% หลังจากการเพิ่มประสิทธิภาพของค่าเกณฑ์
wikiled
ใบอนุญาต: Apache License 2.0
ความซับซ้อนของการติดตั้ง: ง่าย ความแม่นยำ: ไม่มี {.wp-block-heading} ห้องสมุดการจำแนกประเภท C# อื่นคือ wikiled ห้องสมุดนี้ควรได้รับการฝึกอบรมก่อนการทดสอบเพื่อให้ได้ผลลัพธ์ที่เพียงพอ ดังนั้นจึงไม่สามารถคำนวณความแม่นยำสำหรับห้องสมุดได้
ชุดข้อมูล
เราใช้ชุดข้อมูลข้ามโดเมนเพื่อการทดสอบ GroupDocs.classification ยังไม่ได้รับการฝึกฝน ส่วนที่เหลือของห้องสมุดส่วนใหญ่ไม่ได้ใช้ในการฝึกอบรมเช่นกัน เราจะส่งผลลัพธ์ไปยังผู้ที่สนใจทางอีเมล โปรดสร้างปัญหาใน GitHub repo 14: Stanford Sentiment Treebank (Socher et al. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In proc. EMNLP).
ผลลัพธ์
ตารางที่ 1 แสดงความแม่นยำ (%) สำหรับตัวแยกประเภททดลอง ตารางที่ 1.
SST-2 | ข้ามโดเมน | |
---|---|---|
GroupDocs.classification | 93.3 (ได้รับอนุญาต: 94.7) | 93.3 (ได้รับอนุญาต: 96.3) |
Sentimentanalyzer | 58.5 | 79.1 |
Stanford NLP | 80.7 | ~ 70 |
Vadersharp | 68.7 | 77.6 |
ส่วนใหญ่แสดงผลลัพธ์ที่แตกต่างกันสำหรับชุดข้อมูล 2 ชุด ดูเหมือนว่าสาเหตุของพฤติกรรมดังกล่าวคือข้อความ SST-2 นั้นสั้นกว่าข้อความข้ามโดเมน นอกจากนี้ยังมีการแขวนบางส่วนในระหว่างการทดสอบ Stanford NLP บน Crossdomain สำหรับข้อความนานกว่า 500 อักขระ นั่นเป็นเหตุผลที่ความแม่นยำข้ามโดเมนที่ทำเครื่องหมายด้วย“ ~” |
การวิเคราะห์ข้อผิดพลาดทั่วไป
การจำแนกประเภทต่อไปนี้เป็นเรื่องปกติ: _“ เช่นเดียวกับดาวทัศนคติและความหลงไหล” _ - ยากที่จะเข้าใจว่าบุคคลนั้นหมายถึงอะไร _“ Snoozer ที่ทำหน้าที่ได้ดีและมีเจตนาดี” _ หรือ _“ Gee นักฆ่าคนที่สองยิง Kennedy?” _ - ถากถางหรือประชด _“ Moot Point” _ - ข้อความสั้นเกินไป ปัญหาดังกล่าวเกิดขึ้นในผลิตภัณฑ์การจำแนกความเชื่อมั่น (การวิเคราะห์) ทั้งหมด ตัวอย่างเช่นการเสียดสีมันเป็นเรื่องส่วนตัว ดังนั้นจึงเป็นการยากที่จะฝึกฝนแบบจำลองการเสียดสีและยากที่จะจำแนกได้อย่างถูกต้อง แต่หวังว่าจุดอ่อนเหล่านี้จะถูกกำจัดในอนาคตอันใกล้
บทสรุป
ในขณะที่ไลบรารีข้างต้นทั้งหมดนั้นเหมาะสมสำหรับการจำแนกความเชื่อมั่นใน C#, GroupDocs.classification นั้นแม่นยำที่สุด ดังนั้นจึงเป็นสิ่งที่ดีที่สุดสำหรับการค้นหาความรู้สึกเชิงลบหรือเชิงบวกในการกล่าวถึงและ/หรือบทวิจารณ์ขนาดใหญ่ โดยสรุปควรสังเกตว่ายังมีกรณีสำคัญของการจำแนกประเภทลบ/เป็นกลาง/บวก มันจะได้รับการพิจารณาในอนาคต
รหัส
เราให้รหัสที่ใช้สำหรับโพสต์บล็อกนี้: {{LINE_90}}