数据挖掘_Japanese Vowels (日语元音数据)
- 格式:pdf
- 大小:376.14 KB
- 文档页数:7
论文范文:中日双语跨语言语音类似效应及表征第一部分理论综述1 引言语音类似现象,在语言的学习与教学中很常见。
如单语中的音韵现象,中-英双语中的“位-way”、“坦克-tank”等,中-日双语中的“日本-にっぽん”、“梅-うめ”、“爱人-あいじん”等等都是语音类似现象。
这种语言现象究竟是何种作用?它在头脑中的加工机制又是怎样的呢?De Bot,patrbakht & Wesche(1997)说:“词汇知识本质的理解和获取需要对心理词典的结构和语言加工机制的思考。
”因此,语言的学习与教学需要对语言的加工机制进行深入探究。
本研究以中-日双语者为研究对象,探讨中日跨语言词汇识别加工过程中语音类似效应的作用方向及语音的表征与存储。
2 相关概念与理论模型2.1 相关基本概念2.1.1 语音类似效应语音类似,又被称之为元音押韵、辅音押韵或同音词(Perfetti et al.,1988)。
在语言学中,语音类似的概念早有涉及,在语言心理学研究中是指两个单词之间存在相同的音素或音位(如启动词和目标词之间)(Meyer et al.,1974)。
语音类似的现象在生活中很常见,汉语中的音韵现象(如“迢”和“凋”)就是一种语音类似现象,中日跨语言的语音类似现象如“爱人-あいじん”等、中英跨语言有“坦克-tank”等。
语音类似效应是促进还是抑制作用,存在很大的争议。
Baddeleyet al.认为,语音相似效应是指语音相似的词在回忆任务中的成绩更差,如PGDCTV 要比RHWYXK 更难被记住。
有人采用同样的实验范式,以汉字为实验材料,也发现了这种抑制效应,即被试对同音词的回忆显著差于对非同音词的回忆。
然而,在拼音文字中采用启动的实验范式,语音类似效应起促进作用,最明显的是浅的正字法塞语。
在采用词汇决定任务的实验中,语音类似效应的实验结果并不是一致的,主要影响因素为语音重叠的类型和词汇加工的水平(Lukatela et al.,1990)。
日文文献检索科技类:(1)JST系一般讲到日本的文献收录索引大家都知道科学技術文献速報(简称"文速")。
文速是由独立行政法人科学技術振興機構(JST)所发行的文献索引,跟 SCI/EI 差不多但却是以实体形式出版的半月刊(生命科学类是每旬出版);每年有6次(生科12次)以光盘出版,有料而且不提供在线检索,我国有一些图书馆可能有购买。
因为上面登录的主要还是英文资料,学校没有必要专门去买,一般对我们没有什么意义。
JST也提供、整合在线服务,虽然有用的都是有料的,但也有一些不错的无料资源。
scienceportal.jp/ 以及 sciencelinks.jp日本科技门户。
如果你一个网址也不想记的话就记这个吧,基本上后述的资源都可以在上面找到。
该站提供科技新闻、学术会议通知和日程、研究者访谈、recruit、program、statistics、white paper等等。
一些特色资源:JST出版的在线期刊科技产业新闻期刊 JST New(.jst.go.jp/pr/jst-news/ 无料全文)、情報管理(johokanri.jp/ Journal of Infomation Processing & Management 无料全文)、産学官連携(.sangakukan.jp/journal/index.html Journal of Industry-Academia-Government Collaboration 无料全文)在首页左下的中整理了一些机构的网上出刊:(scienceportal.jp/link/magazine.html)其中比较值得看的是理研发行的两份,都无料(后者需注册)。
左下即可链到Science Links Japan(sciencelinks.jp/)有中英日三语,提供的资源实在是太多了,具体容请自行浏览。
如果这里还不能满足你,就不需要再找日文资源了,直接找欧美的文献资料吧。
日文文献检索科技类:(1)JST系一般讲到日本的文献收录索引大家都知道科学技術文献速報(简称"文速")。
文速是由独立行政法人科学技術振興機構(JST)所发行的文献索引,跟 SCI/EI 差不多但却是以实体形式出版的半月刊(生命科学类是每旬出版);每年有6次(生科12次)以光盘出版,有料而且不提供在线检索,我国有一些图书馆可能有购买。
因为上面登录的主要还是英文资料,学校没有必要专门去买,一般对我们没有什么意义。
JST也提供、整合在线服务,虽然有用的都是有料的,但也有一些不错的无料资源。
http://scienceportal.jp/ 以及 http://sciencelinks.jp日本科技门户。
如果你一个网址也不想记的话就记这个吧,基本上后述的资源都可以在上面找到。
该站提供科技新闻、学术会议通知和日程、研究者访谈、recruit、program、statistics、white paper等等。
一些特色资源:JST出版的在线期刊科技产业新闻期刊 JST New(http://www.jst.go.jp/pr/jst-news/ 无料全文)、情報管理(http://johokanri.jp/ Journal of Infomation Processing & Management 无料全文)、産学官連携(http://www.sangakukan.jp/journal/index.html Journal ofIndustry-Academia-Government Collaboration 无料全文)在首页左下的链接中整理了一些机构的网上出刊:(http://scienceportal.jp/link/magazine.html)其中比较值得看的是理研发行的两份,都无料(后者需注册)。
左下即可链到Science Links Japan(http://sciencelinks.jp/)有中英日三语,提供的资源实在是太多了,具体内容请自行浏览。
数据挖掘数据预处理数据挖掘是一种从大量数据中发现隐藏模式和关联性的过程。
在进行数据挖掘之前,数据预处理是一个必要且关键的步骤。
数据预处理的目标是清洗、转换和集成原始数据,以便于后续的数据挖掘任务。
一、数据清洗数据清洗是数据预处理的第一步,旨在处理数据中的噪声、缺失值、异常值和重复值。
以下是常用的数据清洗技术:1. 噪声处理:噪声是指数据中的随机误差或者不一致性。
可以使用平滑技术(如挪移平均法)或者离群值检测方法(如箱线图或者Z-score方法)来处理噪声。
2. 缺失值处理:缺失值是指数据中的空白或者未知值。
可以使用删除、插补或者建模方法来处理缺失值。
删除缺失值可能会导致数据丢失,因此插补方法是更常用的选择。
插补方法包括均值插补、中位数插补、回归插补等。
3. 异常值处理:异常值是指与其他观测值明显不同的观测值。
可以使用离群值检测方法(如箱线图或者Z-score方法)来识别和处理异常值。
处理异常值的方法包括删除异常值、替换为可接受范围内的值或者使用插补方法。
4. 重复值处理:重复值是指数据中重复浮现的观测值。
可以使用去重方法来处理重复值,确保每一个观测值只浮现一次。
二、数据转换数据转换是数据预处理的第二步,旨在将原始数据转换为适合数据挖掘算法的形式。
以下是常用的数据转换技术:1. 数据平滑:数据平滑是指通过平均化、插值或者回归等方法减少数据中的波动性。
平滑可以匡助去除数据中的噪声和异常值,使数据更加稳定。
2. 数据会萃:数据会萃是指将数据按照某种规则进行分组或者汇总。
会萃可以匡助减少数据的维度,提取更高层次的信息。
3. 数据规范化:数据规范化是指将数据缩放到特定的范围或者分布。
常用的数据规范化方法包括最小-最大规范化、Z-score规范化等。
4. 数据离散化:数据离散化是指将连续型数据转换为离散型数据。
离散化可以匡助处理连续型数据的不确定性,使其更适合某些数据挖掘算法。
三、数据集成数据集成是数据预处理的第三步,旨在将多个数据源的数据合并为一个一致的数据集。
二语习得研究与日语学习者语料库-日语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——二语习得研究开始于20 世纪60 年代,经历了语言对比分析研究、错误分析研究,直至70 年代中介语理论的提出,使得二语习得领域有了的研究方向,标志着一门学科的形成。
以欧美语言,特别是英语语言学习者为对象的习得研究经过50 多年的蓬勃发展,无论从理论体系的构建,还是研究方法的多样化、研究内容的深度广度上都取得了丰硕成果。
尤其是近年来,国内外大型英语学习者语料库相继建立,基于学习者语料库开展对学习者语言特征的研究越来越多,成为二语习得研究的新兴领域。
而与英语相比,日语二语习得研究、学习者语料库的建设与应用都存在不足,本文对此进行探讨,希望能为日语教学与相关研究提供一些启示。
一、日语二语习得研究的历程和特点《日本语教育》( 日本日语教育研究界的权威学术杂志) 在20 世纪70 年代初刊载了错误分析的专题研究,这被认为是日语二语习得研究的开端。
毛文伟曾对《日本语教育》中发表的二语习得相关论文做过统计分析,他指出,日语二语习得研究的发展历程是: 20 世纪70 年代之前,二语习得类论文很少,日语本体研究与教学研究占主导。
70 年代以后,以日本在全世界范围内推广日语教育为契机,二语习得类论文不断增加,但长期停留在语言对比研究及学习者语言错误分析阶段。
而此时欧美二语习得研究已逐渐将学习者语言看做是向目标语言不断发展的独特的语言体系,从学习者错误分析研究步入中介语研究阶段。
在日本,直到90 年代后,中介语理论才得到普遍认可与应用,各个领域的二语习得研究也逐渐增加。
从以上分析可以看出,日本的二语习得研究虽然起步并不算晚,但与欧美的二语习得研究呈现出不同的特点。
欧美语言学界非常注重研究的理论背景与方法论,而日本语言学界的普遍做法是针对某一具体语言现象进行深入分析与细致探讨。
日语二语习得研究受这种传统理念影响,注重个案考察,缺少理论类研究,因此,日语二语习得研究发展较慢。
2021日本汉语学习者普通话的口音特点及注意事项范文 摘要: 目的探讨日本人所说汉语普通话的口音特点。
方法从二语习得及与汉语方言比较等角度,对日本人所说汉语普通话的语音、词汇、语法等方面表现出的口音特点进行探讨。
结果分别从声母、韵母、声调特点;书写相同但意义完全不同词的误用,单个汉字写法相同而字序相反的双音节词的误用,近义词、量词、副词、介词、关联词、虚词、动宾搭配等使用不当;句子残缺与累赘、语序偏误等方面分析日本人所说汉语普通话口音特点时。
结论此分析方法可以为司法实践中分析语音资料的说话人是否为日本人提供参考。
关键词: 日本人;汉语普通话; 口音特点; 语音人身分析; Abstract: ObjectiveTo explore the accent characteristics of Mandarin spoken by Japanese. Method From the of second language acquisition and the comparison with Chinese dialects, it discusses the phonetic, lexical and grammatical features of the Chinese spoken by Japanese. Result To analyize the accent characteristics of the Chinese mandarin by Japanese speaker, analyzing can be made from the characteristics of the consonants, vowels and tones, from the lexical misuses of the same writing but different meanings, from the misuse of the double syllable words with the same writing method and the opposite word order, from the synonym, the quantifier, the adverb, the mediate, the relation word, the function word, the verb object collocation and so on, and from sentence defects and cumbersome, etc.. Conclusion It will provide a reference for determination of a speaker who is Japanese or not in judicial practice. Keyword: japanese;mandarin; the accent characteristics; personal condition analysis by speech; 说话人口音分析是指运用语言学、刑事侦查学等理论、原则及方法对语音资料进行分析、研究,进而刻画出说话人籍贯信息的应用科学技术。
Japanese Vowels (日语元音数据)数据摘要:This dataset records 640 time series of 12 LPC cepstrum coefficients taken from nine male speakers.中文关键词:日语元音,LPC,倒频谱,男性演讲者,UCI,英文关键词:Janpanese vowel,LPC,cepstrum,male speaker,UCI,数据格式:TEXT数据用途:classification.数据详细介绍:Japanese vowelsData Typemultivariate time series.AbstractThis dataset records 640 time series of 12 LPC cepstrum coefficients taken from nine male speakers.SourcesOriginal Owner and DonorMineichi Kudo, Jun Toyama, Masaru ShimboInformation Processing LaboratoryDivision of Systems and Information EngineeringGraduate School of EngineeringHokkaido University, Sapporo 060-8628, JAPAN{mine,jun,shimbo}@main.eng.hokudai.ac.jpDate Donated: June 13, 2000Data CharacteristicsThe data was collected for examining our newly developed classifier for multidimensional curves (multidimensional time series). Nine male speakers uttered two Japanese vowels /ae/ successively. For each utterance, with theanalysis parameters described below, we applied 12-degree linear prediction analysis to it to obtain a discrete-time series with 12 LPC cepstrum coefficients. This means that one utterance by a speaker forms a time series whose length is in the range 7-29 and each point of a time series is of 12 features (12 coefficients).The number of the time series is 640 in total. We used one set of 270 time series for training and the other set of 370 time series for testing.Number of Instances (Utterances)∙Training: 270 (30 utterances by 9 speakers. See file 'size_ae.train'.)∙Testing: 370 (24-88 utterances by the same 9 speakers in different opportunities. See file 'size_ae.test'.)Length of Time Series∙7 - 29 depending on utterancesNumber of Attributes∙12 real valuesAnalysis parameters∙Sampling rate : 10kHz∙Frame length : 25.6 ms∙Shift length : 6.4ms∙Degree of LPC coefficients : 12Data FormatFiles∙Training file: ae.train∙Testing file: ae.testFormatEach line in ae.train or ae.test represents 12 LPC coefficients in the increasing order separated by spaces. This corresponds to one analysis frame.Lines are organized into blocks, which are a set of 7-29 lines separated by blank lines and corresponds to a single speech utterance of /ae/ with 7-29 frames.Each speaker is a set of consecutive blocks. In ae.train there are 30 blocks for each speaker. Blocks 1-30 represent speaker 1, blocks 31-60 represent speaker 2, and so on up to speaker 9. In ae.test, speakers 1 to 9 have the corresponding number of blocks: 31 35 88 44 29 24 40 50 29. Thus, blocks1-31 represent speaker 1 (31 utterances of /ae/), blocks 32-66 represent speaker 2 (35 utterances of /ae/), and so on.Past UsageM. Kudo, J. Toyama and M. Shimbo. (1999). "Multidimensional Curve Classification Using Passing-Through Regions". Pattern Recognition Letters, Vol. 20, No. 11--13, pages 1103--1111.Acknowledgements, Copyright Information, and AvailabilityIf you publish any work using the dataset, please inform the donor. Use for commercial purposes requires donor permission.References and Further InformationSimilar data are available for different utterances /ei/, /iu/, /uo/, /oa/ in addition to /ae/. Please contact the donor if you are interested in using this data.The UCI KDD ArchiveInformation and Computer ScienceUniversity of California, IrvineIrvine, CA 92697-3425Last modified: June 14, 2000数据预览:点此下载完整数据集。
データベース基礎•(1)データを整理・統合して格納し、•(2)そのデータを検索・活用・管理しやすくした(コンピュータ上に構築された)仕組み•(3)特定のプログラムに依存しないこと(プログラムと独立したデータ・ファイルであること)•(4)データの格納形式が公開されていること(任意のプログラムから読み書きできること)•(5)容易にデータを操作できること(登録,読み出し,更新,削除,など)データベースの構造やデータの格納形式のことをスキーマ(schema)と呼ぶ.数据库Schema有两种含义,一种是概念上的Schema,指的是一组DDL语句集,该语句集完整地描述了数据库的结构。
还有一种是物理上的Schema,指的是数据库中的一个名字空间,它包含一组表、视图和存储过程等命名对象。
物理Schema可以通过标准SQL语句来创建、更新和修改。
データベース・エンジンの役割データをカンマで区切って格納する形式のデータ・ファイルのことを,CSV(Comma Separated Value)ファイルと呼びます。
CSVファイルは単純で取り扱いやすいので,異なるOSや異なるプログラムの間でデータを交換する際によく使われます。
CSVファイルなら,皆さんがオリジナルのプログラムを作成して,データを読み書きすることも容易でしょう。
ところが,実際のデータ・ファイルには,マイクロソフトのデータベース・ソフトであるAccessで使われているMDBファイルのように,データ・ファイルの構造が公開されていないものも多くあります。
この理由は(1)データ・ファイルの構造が企業秘密であるから,(2)たとえ構造を公開したとしても,複雑すぎるために取り扱いが困難だから,です。
そこで,市販のデータベース管理システム(マイクロソフトのAccess,Microsoft SQL Server,及びオラクルのOracleなど)では,データ・ファイルを読み書きするための専用のプログラムを提供しているのが一般的です。
Japanese Vowels (日语元音数据)
数据摘要:
This dataset records 640 time series of 12 LPC cepstrum coefficients taken from nine male speakers.
中文关键词:
日语元音,LPC,倒频谱,男性演讲者,UCI,
英文关键词:
Janpanese vowel,LPC,cepstrum,male speaker,UCI,
数据格式:
TEXT
数据用途:
classification.
数据详细介绍:
Japanese vowels
Data Type
multivariate time series.
Abstract
This dataset records 640 time series of 12 LPC cepstrum coefficients taken from nine male speakers.
Sources
Original Owner and Donor
Mineichi Kudo, Jun Toyama, Masaru Shimbo
Information Processing Laboratory
Division of Systems and Information Engineering
Graduate School of Engineering
Hokkaido University, Sapporo 060-8628, JAPAN
{mine,jun,shimbo}@main.eng.hokudai.ac.jp
Date Donated: June 13, 2000
Data Characteristics
The data was collected for examining our newly developed classifier for multidimensional curves (multidimensional time series). Nine male speakers uttered two Japanese vowels /ae/ successively. For each utterance, with the
analysis parameters described below, we applied 12-degree linear prediction analysis to it to obtain a discrete-time series with 12 LPC cepstrum coefficients. This means that one utterance by a speaker forms a time series whose length is in the range 7-29 and each point of a time series is of 12 features (12 coefficients).
The number of the time series is 640 in total. We used one set of 270 time series for training and the other set of 370 time series for testing.
Number of Instances (Utterances)
∙Training: 270 (30 utterances by 9 speakers. See file 'size_ae.train'.)
∙Testing: 370 (24-88 utterances by the same 9 speakers in different opportunities. See file 'size_ae.test'.)
Length of Time Series
∙7 - 29 depending on utterances
Number of Attributes
∙12 real values
Analysis parameters
∙Sampling rate : 10kHz
∙Frame length : 25.6 ms
∙Shift length : 6.4ms
∙Degree of LPC coefficients : 12
Data Format
Files
∙Training file: ae.train
∙Testing file: ae.test
Format
Each line in ae.train or ae.test represents 12 LPC coefficients in the increasing order separated by spaces. This corresponds to one analysis frame.
Lines are organized into blocks, which are a set of 7-29 lines separated by blank lines and corresponds to a single speech utterance of /ae/ with 7-29 frames.
Each speaker is a set of consecutive blocks. In ae.train there are 30 blocks for each speaker. Blocks 1-30 represent speaker 1, blocks 31-60 represent speaker 2, and so on up to speaker 9. In ae.test, speakers 1 to 9 have the corresponding number of blocks: 31 35 88 44 29 24 40 50 29. Thus, blocks
1-31 represent speaker 1 (31 utterances of /ae/), blocks 32-66 represent speaker 2 (35 utterances of /ae/), and so on.
Past Usage
M. Kudo, J. Toyama and M. Shimbo. (1999). "Multidimensional Curve Classification Using Passing-Through Regions". Pattern Recognition Letters, Vol. 20, No. 11--13, pages 1103--1111.
Acknowledgements, Copyright Information, and Availability
If you publish any work using the dataset, please inform the donor. Use for commercial purposes requires donor permission.
References and Further Information
Similar data are available for different utterances /ei/, /iu/, /uo/, /oa/ in addition to /ae/. Please contact the donor if you are interested in using this data.
The UCI KDD Archive
Information and Computer Science
University of California, Irvine
Irvine, CA 92697-3425
Last modified: June 14, 2000
数据预览:
点此下载完整数据集。