본문 바로가기
HOME> 저널/프로시딩 > 저널/프로시딩 검색상세

저널/프로시딩 상세정보

권호별목차 / 소장처보기

H : 소장처정보

T : 목차정보

음성과학 = Speech sciences 14건

  1. [국내논문]   목차  

    편집부
    음성과학 = Speech sciences v.5 no.1 ,pp. 1 - 2 , 1999 , 1226-5276 ,

    초록

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  2. [국내논문]   Optimization of Gaussian Mixture in CDHMM Training for Improved Speech Recognition  

    Lee, Seo-Gu (LG Electronics, Display Division ) , Kim, Sung-Gil (School of Electrical Engineering, KOREA UNIVERSITY ) , Kang, Sun-Mee (Department of Computer Science, SEOKYEONG UNIVERSITY ) , Ko, Han-Seok (Department of Computer Science, SEOKYEONG UNIVERSITY)
    음성과학 = Speech sciences v.5 no.1 ,pp. 7 - 21 , 1999 , 1226-5276 ,

    초록

    This paper proposes an improved training procedure in speech recognition based on the continuous density of the Hidden Markov Model (CDHMM). Of the three parameters (initial state distribution probability, state transition probability, output probability density function (p.d.f.) of state) governing the CDHMM model, we focus on the third parameter and propose an efficient algorithm that determines the p.d.f. of each state. It is known that the resulting CDHMM model converges to a local maximum point of parameter estimation via the iterative Expectation Maximization procedure. Specifically, we propose two independent algorithms that can be embedded in the segmental K -means training procedure by replacing relevant key steps; the adaptation of the number of mixture Gaussian p.d.f. and the initialization using the CDHMM parameters previously estimated. The proposed adaptation algorithm searches for the optimal number of mixture Gaussian humps to ensure that the p.d.f. is consistently re-estimated, enabling the model to converge toward the global maximum point. By applying an appropriate threshold value, which measures the amount of collective changes of weighted variances, the optimized number of mixture Gaussian branch is determined. The initialization algorithm essentially exploits the CDHMM parameters previously estimated and uses them as the basis for the current initial segmentation subroutine. It captures the trend of previous training history whereas the uniform segmentation decimates it. The recognition performance of the proposed adaptation procedures along with the suggested initialization is verified to be always better than that of existing training procedure using fixed number of mixture Gaussian p.d.f.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  3. [국내논문]   웨이브렛 변환을 이용한 피치검출  

    석종원 (경북대학교 전자.전기 공학부 ) , 손영호 (경북대학교 전자.전기 공학부 ) , 배건성 (경북대학교 전자.전기 공학부)
    음성과학 = Speech sciences v.5 no.1 ,pp. 23 - 33 , 1999 , 1226-5276 ,

    초록

    Mallat has shown that, with a proper choice of wavelet function, the local maxima of wavelet transformed signal indicate a sharp variation in the signal. Since the glottal closure causes sharp discontinuities in the speech signal, dyadic wavelet transform can be useful for detecting abrupt change in the voiced sounds, i.e., epochs. In this paper, we investigate the glottal closure instants obtained from the wavelet analysis of speech signal and compare them with those obtained from the EGG signal. Then, we detect pitch period of speech signal on the basis of these results. Experimental results demonstrated that local maxima of wavelet transformed signal give accurate estimation of epoch and pitch periods of voiced sound obtained by the proposed algorithm also correspond to those from EGG well.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  4. [국내논문]   멀티미디어 환경을 위한 정서음성의 모델링 및 합성에 관한 연구  

    조철우 (창원대학교 공과대학 제어계측공학과 ) , 김대현 (창원대학교 공과대학 제어계측공학과)
    음성과학 = Speech sciences v.5 no.1 ,pp. 35 - 47 , 1999 , 1226-5276 ,

    초록

    This paper describes procedures to model and synthesize emotional speech in a multimedia environment. At first, procedures to model the visual representation of emotional speech are proposed. To display the sequences of the images in synchronized form with speech, MSF(Multimedia Speech File) format is proposed and the display software is implemented. Then the emotional speech sinal is collected and analysed to obtain the prosodic characteristics of the emotional speech in limited domain. Multi-emotional sentences are spoken by actors. From the emotional speech signals, prosodic structures are compared in terms of the pseudo-syntactic structure. Based on the analyzed result, neutral speech is transformed into a specific emotinal state by modifying the prosodic structures.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  5. [국내논문]   컴퓨터를 이용한 억양 교육 프로그램 개발 : 프랑스어 억양 교육을 중심으로  

    유창규 (서남대학교 전기전자통신공학부 ) , 손미라 (전북대학교 치과대학병원 언어치료실 ) , 김현기 (전북대학교 불어불문학과)
    음성과학 = Speech sciences v.5 no.1 ,pp. 49 - 62 , 1999 , 1226-5276 ,

    초록

    This study is concerned with the educational program Visual Analysis Tool (VAT) for sound development for foreign intonation using personal computer. The VAT can run on IBM-PC 386 compatible or higher. It shows the spectrogram, waveform, intensity and the pitch contour. The system can work freely on either waveform zoom in-out or the documentation of measured value. In this paper, intensity and pitch contour information were used. Twelve French sentences were recorded from a French conversational tape. And three Korean participated in this study. They spoke out twelve sentences repeatly and trid to make the same pitch contour - by visually matching their pitcgh contour to the native speaker's. A sentences were recorded again when the participants themselves became familiar with intonation, intensity and pauses. The difference of pitch contour(rising or falling), pitch value, energy, total duration of sentences and the boundary of rhythmic group between native speaker's and theirs before and after training were compared. The results were as following: 1) In a declarative sentence: a native speaker's general pitch contour falls at the end of sentences. But the participant's pitch contours were flat before training. 2) In an interrogative: the native speaker made his pitch contours it rise at the end of sentences with the exception of wh-questions (qu'est-ce que) and a pitch value varied a greath. In the interrogative 'S + V' form sentences, we found the pitch contour rose higher in comparison to other sentences and it varied a great deal. 3) In an exclamatory sentence: the pitch contour looked like a shape of a mountain. But the participants could not make it fall before or after training.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  6. [국내논문]   음성신호 적응분할방법에 의한 특징분석  

    장승관 (한국산업기술대학교 전기전자공학과 ) , 최성연 (한국산업기술대학교 전기전자공학과 ) , 김창석 (명지대학교 전자정보통신공학부)
    음성과학 = Speech sciences v.5 no.1 ,pp. 63 - 80 , 1999 , 1226-5276 ,

    초록

    In this paper, an adaptive method of dividing a speech signal into an initial, a medial and a final sound of the form of utterance utilized by evaluating extreme limits of short term energy and autocorrelation functions. By applying this method into speech signal composed of a consonant, a vowel and a consonant, it was divided into an initial, a medial and a final sound and its feature analysis of sample by LPC were carried out. As a result of spectrum analysis in each period, it was observed that there existed spectrum features of a consonant and a vowel in the initial and medial periods respectively and features of both in a final sound. Also, when all kinds of words were adaptively divided into 3 periods by using the proposed method, it was found that the initial sounds of the same consonant and the medial sounds of the same vowels have the same spectrum characteristics respectively, but the final sound showed different spectrum characteristics even if it had the same consonant as the initial sound.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  7. [국내논문]   FIR filtering에 의한 끝점추출에 관한 연구  

    이창영 (동서대학교 컴퓨터공학과)
    음성과학 = Speech sciences v.5 no.1 ,pp. 81 - 88 , 1999 , 1226-5276 ,

    초록

    This paper provides a method for speech detection. After first order FIR filtering on the speech signals, we applied the conventional method of endpoint detection which utilizes the energy as the criterion in separating signals from background noise. By FIR filtering, only the Fourier components with large values of [amplitude x frequency] become significant in energy profile. By applying this procedure to the 445-words database constructed from ETRI, we confirmed that the low-amplitude noise and/or the low-frequency noise are separated clearly from the speech signals, thereby enhancing the feasibility of ideal endpoint detections.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  8. [국내논문]   통제불능 상태를 회피하는 한국어 정보처리 방법론 연구  

    강승식 (한성대학교 이공대학 정보전산학부)
    음성과학 = Speech sciences v.5 no.1 ,pp. 89 - 103 , 1999 , 1226-5276 ,

    초록

    It is relatively easy to develop a prototype of a Korean language processing system, but it is very difficult to make it an operational system. In this paper, we survey the current status and methodological issues of the Korean language processing systems such as morphological analyzer, parser and machine translator. In most cases, Korean language processing system easily comes to a dead-end state where its performance can not be improved any more. The reason is that it adopts a general algorithm covering similar problems as a whole because specific low-level problems are not clearly defined and their algorithms are unclear. So, when we add some restrictions to solve an individual linguistic problem, they are also applied to other linguistic phenomena as a side effect. It causes a critical problem that the improvement of the algorithm is very difficult. This paper proposes a 2-step paradigm, a divide-and-conquer method by the functional modularization, a simplification method, and an exception handling technique to develop an operational system that does not fall into a dead-end state.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  9. [국내논문]   구개열 언어의 비음화에 관한 공기역학 및 음향학적 연구  

    이종한 (전북대학교 치과대학 구강악안면외과학 교실 ) , 신효근 (전북대학교 치과대학 구강악안면외과학 교실)
    음성과학 = Speech sciences v.5 no.1 ,pp. 105 - 119 , 1999 , 1226-5276 ,

    초록

    Cleft palate patients have general speech problems with resonance disorders and articulation disorders. The aim of this study is to find the aerodynamic and acoustic characteristics of the nasalization in cleft palate speakers. Thirteen control groups and three cleft palate patients pre- and post operation were selected for these studies. The test words are composed by polysyllabic words: consonants between high vowel /i/ analysis. The cleft palate patients repeated test words pre- and post-operation from one, three and six month periods. The subjects repeated test words on Macquirer and on Nasometer Model 6200-3. The aerodynamic and acoustic results of nasalization show as follows: (1) The nasal rate in overall airflow of aspirated consonant for cleft palate patients shows higher levels than that of the control group. It had decreased since one month after operation. (2) The overall airflow of cleft palate patients is higher than in the control group, however oral air pressure is lower than control group. (3) The nasal airflow and the nasal rate in overall airflow of cleft palate patients has higher than the control group, however its decreased after operation. (4) The nasalance scores of cleft palate patients were 40% higher than that of the control group. The scores did not decrease after operation. The nasalance score of lateral and fricative sounds did not decrease after operation.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지
  10. [국내논문]   동일 후적자가 산출하는 기관식도 발성($PROVOX^{(R)}$ 발성)과 식도 발성에 대한 음향학적 및 공기역학적 특성 비교  

    표화영 (연세대학교 의과대학 이비인후과교실 음성언어의학연구소 ) , 최홍식 (연세대학교 의과대학 이비인후과교실 음성언어의학연구소 ) , 임성은 (연세대학교 의과대학 이비인후과교실 음성언어의학연구소 ) , 최성희 (연세대학교 의과대학 이비인후과교실 음성언어의학연구소)
    음성과학 = Speech sciences v.5 no.1 ,pp. 121 - 139 , 1999 , 1226-5276 ,

    초록

    Our experimental subject was a laryngectomee who had undergone total laryngectomy with $PROVOX^{(R)}$ insertion, and learned esophageal speech after the surgery, so he could produce both $PROVOX^{(R)}$ voice and esophageal voice. With this subject's production of $PROVOX^{(R)}$ and esophageal voice, we are to compare the acoustic and aerodynamic characteristics of the two voices, under the same physical conditions of the same person. As a result, the fundamental frequency of esophageal voice was 137.2 Hz, and that of $PROVOX^{(R)}$ was 97.5 Hz. $PROVOX^{(R)}$ voice showed lower jitter, shimmer and NHR than esophageal voice, which means that $PROVOX^{(R)}$ voice showed better voice quality than esophageal voice. In spectrographic analysis, the formation of formants and pseudoformants were more distinct in esophageal voice and several temporal aspects of acoutic features such as VOT and closure duration were more similar with normal voice in $PROVOX^{(R)}$ voice. During the sentence utterance, esophageal voice showed longer pause or silence duration than $PROVOX^{(R)}$ voice. Maximum phonation time and mean flow rate of $PROVOX^{(R)}$ voice were much longer and larger than esophageal voice, but mean and range of sound pressure level, subglottic pressure and voice efficiency were similar in the two voices. Glottal resistance of esophageal voice was much larger than $PROVOX^{(R)}$ voice which showed still larger glottal resistance than normal voice.

    원문보기

    원문보기
    무료다운로드 유료다운로드

    회원님의 원문열람 권한에 따라 열람이 불가능 할 수 있으며 권한이 없는 경우 해당 사이트의 정책에 따라 회원가입 및 유료구매가 필요할 수 있습니다.이동하는 사이트에서의 모든 정보이용은 NDSL과 무관합니다.

    NDSL에서는 해당 원문을 복사서비스하고 있습니다. 아래의 원문복사신청 또는 장바구니담기를 통하여 원문복사서비스 이용이 가능합니다.

    이미지

    Fig. 1 이미지

논문관련 이미지