chinese-dataset

Here are 12 public repositories matching this topic...

zake7749 / Gossiping-Chinese-Corpus

PTT 八卦版問答中文語料

chatbot dialog corpus dataset question-answering chinese-nlp ptt chinese-corpus chinese-chatbot chinese-dataset chatbot-corpus

Updated Oct 18, 2024
Jupyter Notebook

pha123661 / Taiwan-ELM

Star

Code repository for training Taiwan-ELM models, including data preprocessing, tokenizer development, and model fine-tuning.

nlp taiwan transformer traditional-chinese llama apache2 chinese-dataset large-language-models llm instruction-tuning large-language-model twllm openelm

Updated Aug 11, 2024
Jupyter Notebook

hsinmin / HanSig

Star

A large-scale offline Chinese handwritten signature dataset

deep-learning dataset metric-learning signature-verification signature-recognition banchmarks chinese-dataset

Updated Jul 18, 2024

brightmart / nlp_chinese_corpus

Star

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

nlp news wiki text-classification word2vec corpus dataset question-answering chinese chinese-nlp language-model bert chinese-corpus pretrain chinese-dataset

Updated May 23, 2024

Eurus-Holmes / CHABCNet

Star

[CHABCNet] ABCNet on the Chinese dataset, building on Detectron2 (Facebook AI Research)

text-detection-recognition chinese-dataset detectron2 icdar2019 text-spotting rects

Updated Oct 3, 2023
Python

chaoswork / sft_datasets

Star

开源SFT数据集整理,随时补充

datasets chinese-dataset large-language-models llms supervised-finetuning

Updated Jun 2, 2023

seanpm2001 / AI2001_Category-Linguistics-SC-Chinese-Simplified

Star

🧠️🖥️2️⃣️0️⃣️0️⃣️1️⃣️🔠️🔢️ The linguistic:Chinese-Simplified category for AI2001, containing Chinese (Simplified) language linguistic datasets

Updated Mar 31, 2023
R

seanpm2001 / AI2001_Category-Linguistics-SC-Chinese-Traditional

Star

🧠️🖥️2️⃣️0️⃣️0️⃣️1️⃣️🔠️🔢️ The linguistic:Chinese-Traditional category for AI2001, containing Chinese (Traditional) language linguistic datasets

Updated Mar 31, 2023
R

sovaai / sova-dataset

Star

audio open-source data opensource opendata corpus open-data dataset audio-data datasets russian-datasets audio-datasets chinese-dataset voice-dataset voice-datasets audio-dataset voice-data sova-dataset english-datasets

Updated Nov 8, 2022

CLUEbenchmark / QBQTC

Star

QBQTC: 大规模搜索匹配数据集

search query semantic-similarity semantic-search chinese-dataset

Updated Dec 12, 2021
Python

secsilm / zi-dataset

Star

汉字数据集，包括汉字的相关信息，例如笔画数、部首、拼音、英文释义/同义词等。

nlp dataset chinese-nlp hanzi nlp-datasets chinese-dataset

Updated Jul 17, 2020

lvyufeng / SciBERT_CN

Star

Pretrained model for Chinese Scientific Text

tensorflow pytorch albert bert pre-trained scientific-papers chinese-corpus pre-trained-model chinese-dataset

Updated May 26, 2020

Improve this page

Add a description, image, and links to the chinese-dataset topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the chinese-dataset topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chinese-dataset

Here are 12 public repositories matching this topic...

zake7749 / Gossiping-Chinese-Corpus

pha123661 / Taiwan-ELM

hsinmin / HanSig

brightmart / nlp_chinese_corpus

Eurus-Holmes / CHABCNet

chaoswork / sft_datasets

seanpm2001 / AI2001_Category-Linguistics-SC-Chinese-Simplified

seanpm2001 / AI2001_Category-Linguistics-SC-Chinese-Traditional

sovaai / sova-dataset

CLUEbenchmark / QBQTC

secsilm / zi-dataset

lvyufeng / SciBERT_CN

Improve this page

Add this topic to your repo