美文网首页
短文本识别说明文档

短文本识别说明文档

作者: 飘涯 | 来源:发表于2022-04-01 09:45 被阅读0次

任务目标

主要目标是针对临床试验筛选标准进行分类,所有文本数据均来自于真实临床试验,短文本数据来源于中文临床试验注册网站(http://chictr.org.cn/)的临床试验公示信息中的筛选标准模块。数据公开透明,官网也提供下载链接。

任务说明

短文本分类标注以及示例如下:


image.png

评价指标

本任务的评价指标使用宏观F1值(Macro-F1,或称Average-F1)。最终排名以Macro-F1值为基准。假设我们有n个类别,C1, … …, Ci, … …, Cn。
准确率Pi = 正确预测为类别Ci的样本个数 / 预测为Ci类的样本个数。
召回率Ri = 正确预测为类别Ci的样本个数 / 真实的Ci类的样本个数。

模型介绍

image.png

试验过程

运行设备

NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2
GPU: Tesla P100 * 2
显存:36GB
CPU:7核 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
内存:120GB
硬盘:2T SSD

运行环境

Python 3.8.10
pip install ark-nlp==0.0.2
pip install scikit-learn
pip install pandas
pip install elasticsearch
pip install openpyxl
pip install python-Levenshtein

试验超参数

argg = {
'model_dir': 'data/model_data',
'model_type': 'bert',
'model_name': 'chinese-bert-wwm-ext',
'task_name': 'ctc',
'output_dir': './data/output/ctc/',
'do_train': True,
'do_predict': False,
'result_output_dir': './data/result',
'max_length': 128,
'train_batch_size': 16,
'eval_batch_size': 16,
'learning_rate': 3e-05,
'weight_decay': 0.01,
'adam_epsilon': 1e-08,
'max_grad_norm': 0.0,
'epochs': 5,
'warmup_proportion': 0.1,
'earlystop_patience': 5,
'logging_steps': 200,
'save_steps': 10,
'seed': 2021,
'device': torch.device("cuda"
if torch.cuda.is_available()
else "cpu")
}

结果介绍

epoch:5

## 结果介绍

precision: 0.8520105137135594 - recall: 0.8032168382072119 - f1 score: 0.817622871761937

相关文章

  • 短文本识别说明文档

    任务目标 主要目标是针对临床试验筛选标准进行分类,所有文本数据均来自于真实临床试验,短文本数据来源于中文临床试验注...

  • iOS开发 - Natural Language Process

    使用NLLanguageRecognizer识别文本中的语言 参考自苹果官方文档[https://develope...

  • 干货整理‖推荐5款OCR识别小程序,原来不用装app也能高效使用

    OCR技术,即OCR文本识别。在日常工作和学习生活中,我们经常会使用OCR来进行文本识别,进而完成文档的输出与编辑...

  • 使用Adobe Acrobat的OCR识别PDF文件中图片

    如图,文档→OCR文本识别 Ps:不得不说,其他软件要么收费、没有破解,要么识别精度不高。Adobe Acroba...

  • 信息计量学|txt2pajek如何使用

    一般的文本文档如何转化成pajek可以识别的net结构 手动构建的文本文档 已知一个网络图的形式,手动构建网络文本...

  • 优秀小程序推荐 | 工具篇

    以图识字 识别图片文字小助手,传图即可识字。可用于书籍文档文字识别、说明书文字提取、身份证识别、购物小票识别、路牌...

  • OCR文档

    接口能力: 通用文字识别:对文本文件进行识别,返回给用户文字 请求说明: HTTP方法:post请求URL:htt...

  • 生存游戏API说明

    核心思想使用了paaliaq的CLFPT技术,只需要读取并修改相应的文本文档即可实现效果。 文档说明: 文档路径说...

  • NLP

    本地搜索 文本匹配, 与 文本 转化为 声音 匹配。 与 语音识别翻译 ML:搜索识别, 语音识别,文字识别,图像...

  • Excel技巧之DATEVALUE函数

    说明 DATEVALUE 函数将存储为文本的日期转换为 Excel 识别为日期的序列号。 例如,公式=DATEVA...

网友评论

      本文标题:短文本识别说明文档

      本文链接:https://www.haomeiwen.com/subject/fhaojrtx.html